En collaboration avec Ramzi Abbes, un outil informatique a été construit pour identifier automatiquement les variantes graphiques générées par l'usage de l'orthographe adaptée.
Cet utilitaire est basé sur le modèle des n-grams, modèle utilisé notamment en TAL pour comparer des paragraphes ou des textes voisins.
Dans notre cas, il permet de retrouver les formes élidées d'un token en les comparant aux mots existants dans CLAPI, avec une égalité parfaite des n-grams, sachant que :
- les formes élidées ont une taille inférieure ou égale à celle du mot cible,
- le caractère notant l'élision remplace une ou plusieurs lettres du mot cible.
L'identification des variantes graphiques par cet outil a un taux de réussite très satisfaisant, quels que soient les caractères manquants. Ainsi, il est en mesure d'identifier :
'tends, 'ttends pour attends
pa'ce que pour parce que
b'jour pour bonjour
Les variantes graphiques trop éloignées de l'orthographe standard échappent au modèle des n-grams ; elles sont stockées dans un glossaire dont l'alimentation se poursuit au fur et à mesure de l'intégration de nouvelles transcriptions. Ce glossaire s'avère être de taille très réduite, au plus quelques dizaines de formes.
Exemples : chais pour je sais, vouais pour ouais, i'z pour ils (+ voyelle), 'scuse pour excuse…
Les "Variantes graphiques" donnent, pour une forme proposée par l'utilisateur, la liste de ses équivalents graphiques attestés dans CLAPI (lien vers copie d'écran).
"Formes approchées" est une fonction simple qui fournit, pour une séquence donnée de caractères, l'ensemble des tokens attestés dans CLAPI qui contiennent cette séquence, permettant ainsi de repérer des formes comme : voui pour oui, hmf, euhm ou hmhm pour hm, attendez pour attend, maisons pour maison… (exemple des variantes graphiques de attends)
Lors des requêtes complexes, il sera possible d'inclure ou non ces fonctions dans la rédaction de la requête.
Par ailleurs, ces outils fournissent la liste des transcriptions où les tokens, ainsi que leurs variantes/formes approchées, sont attestés.
Ces fonctions sont disponibles à tous.
Pour citer cette page : groupe ICOR 2006, titre de la page, site CORINTE
http://icar.univ-lyon2.fr/projets/corinte/