10.24348/coria.2012.437
Lauf, Aurélien
Sous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne.
ARIA
2012
Conference paper
Association ARIA (Association pour la Recherche d'Informations et Applications)
10.24348/coria.2012
RÉSUMÉ. Ce papier aborde la question de la classification non supervisée de documents, dans un contexte de veille sur le Web (corpus de taille moyenne). Notre but est d'assister le veilleur dans deux tâches : 1. dégager des thématiques à partir du corpus ; 2. ranger chaque texte dans une ou plusieurs de ces thématiques. Nous proposons une approche linguistique, reposant sur les plus proches voisins partagés dans un graphe de cooccurrences. Nos thématiques peuvent se chevaucher (partager des mots) et ne sont pas uniquement des ensembles de mots : le forma- lisme de la théorie des graphes nous permet d'exprimer concrètement des relations sémantiques fines entre les mots de chaque thématique. Les premiers résultats sont très encourageants.