Détection de langues avec Python

Ce billet a simplement pour but de présenter le module Python oice.langdet sous licence GPL v3. Ce module permet de détecter la langue d’un texte (Anglais, Espagnol et Français). Comme vous pouvez le voir en suivant le lien précédent il est vraiment simple d’utilisation et les résultats sontassez bons. Je me suis dit que je pouvais tester ce module avec pyAggr3g470r sur la description des articles. Et en effet les résultats sont plutôt satisfaisants. Sur 684 articles le module trouve 332 articles en anglais et 166 en français avec peu derreurs. Il faut préciser que pour diverses raisons (notamment de performances) je passe à l’algorithme uniquement les 80 premiers caractères. De plus certains articles nont pas de descriptions ou alors des descriptions exotiques du type mot clés…

Grâce à cela je vais maintenant pouvoir utiliser cette implémentation des soundex après avoir détecté la langue (afin d’avoir les codes caractères appropriés). De cette manière je pourrais rechercher les mots phonétiquement et ainsi éviter de comptabiliser par exemple les mots libre et libres séparément.

Donc cet article aura présenté deux choses intéressantes !

Related Posts