Retour vers l'Accueil du
	  site

Equipe CÉDILLES

Corpus en diAChronie, Textométrie, Usages (CACTUS), nouveau nom de l'équipe LinCoBaTO

- Le groupe CACTUS a rejoint le laboratoire IRHIM -

Responsable (2011-2015) : S. Heiden
Responsable (2016-2020) : C. Guillot-Barbance

Membres : M. Decorde, C. Guillot, S. Heiden, A. Lavrentiev, C. Marchello-Nizia, B. Pincemin, P. Płocharz
Mots-clés : linguistique diachronique, grammaticalisation, démonstratifs, deixis, anaphore, ordre des mots, systèmes graphiques, Base de Français Médiéval, édition numérique, textométrie, statistique textuelle, logiciels d’analyse textuelle, informatique linguistique, codage de corpus, catalogage de corpus, annotation.

La sous-équipe CACTUS articule description linguistique et analyse quantitative de corpus.
Cette collaboration s’est nouée dès les années 1990 autour notamment de la Base de Français Médiéval (BFM) (75 textes intégraux du 9ième au 15ième siècle – 3,3 millions de mots) et de son interface d’interrogation en ligne (portail TXM). Dans ce cadre, les points forts sont :

Les réalisations principales de la sous-équipe se centrent autour de la Base de Français Médiéval et de la textométrie (logiciel TXM).

1. La Base de Français Médiévale et les recherches en linguistique diachronique

La Base de Français Médiéval (BFM) s’enrichit continuellement sur les plans tant quantitatif que qualitatif. Du point de vue du codage interne, les textes numérisés sont encodés et balisés en XML selon les recommandations de la TEI P5 ; du point de vue externe, ces documents font l’objet d’un catalogage précis (axe diachronique, diatopique, domaines, genres, etc.) géré par une base de données relationnelle offrant la possibilité de requêtes croisées ; du point de linguistique enfin, les données sont enrichies grâce à une segmentation lexicale et phrastique, à la réalisation d’un premier étiquetage morphosyntaxique intégral, et à la mise au point d’étiquetages semi-automatiques de haute qualité.
Cette base a donné lieu à d’importantes recherches linguistiques au sein de l’équipe, dans le domaine en particulier de la sémantique grammaticale (étude des déterminants), des modes de structuration du texte médiéval, de l’oral représenté et du changement linguistique. L’ouvrage Grammaticalisation et changement linguistique par Christiane Marchello-Nizia (2006) illustre bien cette thématique.

2. Le logiciel TXM et les recherches en textométrie

Les activités dans le domaine de l’analyse quantitative des données textuelles s’appuient sur le développement de la plateforme logicielle ouverte TXM. Elle a été conçue pour reprendre et faire évoluer la tradition lexicométrique dans un contexte nouveau : celui des corpus enrichis et structurés, mais aussi celui du développement ouvert, libre et collaboratif. Initié dans le cadre du projet ANR Textométrie (2007-2010), le développement se poursuit grâce à son réseau de partenaires et notamment au soutien de l’équipex Matrice (2012-2014). Le logiciel est disponible en ligne dans ses différentes versions :

Ce développement permet de nourrir, expérimenter, évaluer et diffuser la recherche fondamentale et appliquée en textométrie : synthèse des connaissances originales et en textométrie (modélisation du texte, fonctionnalités, usages, méthodes…), théorisation linguistique de la méthode (notamment liens avec la sémantique interprétative), développements théoriques dans le contexte des éditions de corpus actuelles (corpus étiquetés, structurés), apport et adaptation de techniques de domaines connexes, conception de fonctionnalités innovantes complémentaires.