Text Mining
Le Text Mining, également parfois appelé Text Data Mining, text analysis (également écrit textmining) fait référence au processus consistant à extraire l’information de haute qualité d’un texte. L’information de qualité est typiquement obtenue en divisant les modèles et les tendances en utilisant des moyens tels que les modèles statistiques. Le Text Mining implique habituellement de structurer le texte d’entrée (généralement par une analyse grammaticale, ainsi qu’en ajoutant ou en retirant certaines caractéristiques linguistiques et en l’introduisant par la suite dans une base de données), à dériver des modèles au sein des données structurées, et enfin, à évaluer et interpréter le rendu. Le terme « haute qualité » dans le Text Mining fait référence généralement à la combinaison entre la pertinence, la nouveauté et l’intérêt. Les tâches classiques du text mining incluent la catégorisation de texte, le clustering de texte, l’extraction de concept ou d’entité, la production de taxonomies granulaires, l’analyse des sentiments, le résumé de documents et la modélisation de relation entre les entités (c’est-à-dire les relations entre les entités nommées).
Sommaire
Histoire
Des premières approches manuelles et fastidieuses de Text Mining sont apparues au milieu des années 80, mais les avancées techniques ont permis d’importantes avancées au cours de la dernière décennie. Le Tex Mining est un champ interdisciplinaire qui tient à la fois de la découverte d’informations, du Data Mining, du training de machines, de statistiques et de linguistique informatique. La plupart des informations sont stockées sous forme de text (les estimations habituelles parlent de plus de 80% des informations, le Text Mining est considéré comme ayant une valeur à fort potentiel commercial. On observe intérêt croissant au data mining multilingue car il représente une aptitude à rassembler de l’information de manière transversale dans plusieurs langues et de les regrouper par similarité en fonction de leur signification (et ce bien qu’ils soient produits en langues différentes).
Applications biomédicales
Une variété d’applications de Text Mining est utilisée dans le domaine biomédical. Un exemple est PubGene qui offre un service internet qui combine du text mining biomédical avec une fonctionnalité de visualisation de réseau. Un autre exemple est GoPubMed. La similarité sémantique a également été utilisée par les systèmes de Text Mining, à savoir GOAnnotator.
Logiciel et applications
Les methods et Logiciel de Text Mining et sont développés par des entreprises de taille importante, comprenant IBM et Microsoft, afin d’automatiser davantage les opérations de forage et d’analyse. Les recherches sont également menées par différentes entreprises travaillant dabs le domaine de la recherche, de manière à améliorer la qualité de leurs résultats.
Les applications pour les médias en ligne
Le Text Mining est utilisé par les grandes entreprises de médias telles que Tribune Company, pour lever toute ambigüité de l’information et pour apporter aux lecteurs des informations plus fouillées. Ceci a pour objet également d’accroître la fidélisation des lecteurs et les ventes. De plus, tout à la fin de la chaîne, les éditeurs bénéficient de cette capacité qu’ils ont de partager, associer et packager des informations, ce qui leur permet de vendre du contenu.
Applications marketing
Le Text Mining comment à être utilisé dans le marketing également, et plus précisément dans la gestion analytique de la relation client.
L’analyse des sentiments
L’analyse des sentiments peut comprendre également l’analyse de critiques de films pour évaluer l’accueil qui lui est fait. De telles analyses peuvent nécessiter un ensemble de données labélisées ou la labélisation des mots associés à l’affectivité. Un dictionnaire des mots d’affectivité a été construit pour WordNet.
