Exploration de données textuelles

Définition - Que signifie l'exploration de données textuelles?

L'exploration de données textuelles consiste à parcourir un document texte ou une ressource pour obtenir des informations structurées précieuses. Cela nécessite des outils analytiques sophistiqués qui traitent le texte afin de glaner des mots-clés spécifiques ou des points de données clés à partir de formats considérés comme relativement bruts ou non structurés.

L'exploration de données textuelles est également connue sous le nom d'extraction de texte ou d'analyse de texte.

Definir Tech explique l'exploration de données textuelles

Dans l'exploration de données textuelles, les systèmes techniques utilisent des éléments tels que les taxonomies et l'analyse lexicale pour déterminer quelles parties d'un document texte sont précieuses en tant que données extraites. Les modèles statistiques sont généralement utiles, et les systèmes peuvent également utiliser des heuristiques, ou des hypothèses algorithmiques, pour tenter de déterminer quelles parties d'un texte sont importantes. D'autres systèmes de contrôle incluent l'étiquetage et l'analyse de mots-clés, où les outils recherchent des noms propres spécifiques ou d'autres balises et mots-clés pour comprendre ce qui est écrit.

Un autre composant unique de l'exploration de texte est souvent appelé analyse des sentiments. Dans l'analyse des sentiments, qui est généralement beaucoup plus difficile que l'analyse statistique, les outils d'analyse tentent de comprendre l'humeur ou le sentiment derrière le texte écrit et d'autres aspects de ce qu'il aborde à un niveau très subjectif et intuitif. Avec l'émergence des outils d'intelligence artificielle, de nombreux progrès ont été accomplis dans l'analyse des sentiments, de sorte que l'exploration de données textuelles moderne est plus que la simple collecte de références quantitatives et implique d'apporter des modèles conceptuels de haut niveau à l'exploration de texte pour trouver des moyens nouveaux et uniques pour agréger des données précieuses.