Comment compter le nombre d'occurences d'un mot dans un document ?
Un mot peut avoir plusieurs formes en fonction de son genre (masculin ou féminin), son nombre (singulier ou pluriel), sa personne (moi, toi, eux, ...), son mode (indicatif, impératif, ...).
Pour éviter de comptabiliser séparément chaque forme du mot, il convient, avant tout traitement, de ramener celui-ci à sa forme la plus simple : sa forme canonique.
Pour ce faire, nous appliquons un algorithme dit de lemmatisation.
Ici, c'est l'algorithme de James Aylett qui est utilisé.
Pour éviter de comptabiliser séparément chaque forme du mot, il convient, avant tout traitement, de ramener celui-ci à sa forme la plus simple : sa forme canonique.
Pour ce faire, nous appliquons un algorithme dit de lemmatisation.
Ici, c'est l'algorithme de James Aylett qui est utilisé.
Qui a recourt à la lemmatisation ?
Les linguistes ont recourt à la lemmatisation pour étudier les langues humaines.
Les moteurs de recherche lemmatisent les requêtes qui leur sont faites pour retourner un plus grand nombre de résultats.
Statistiques
- Table 'db202866318.mark' doesn't exist
0 documents analysés