NOMEX-CLAPI Nouvelles méthodes d'exploitation des corpus de langue parlée en interaction

1- Présentation génerale du projet	2- Corpus: définitions et entités qui s'y rattachent	3- Traitement des corpus en vue de leur intégration dans CLAPI	4- Questions de transcription	5- Outils de transcription et d'analyse de corpus
6- Plate-forme CLAPI	7- Analyses et requêtes	8- Perspectives	Bibliographie du programme et générale	Annexes accès réservé aux équipes du projet

2. Corpus : définitions et entités qui s'y rattachent

2.1. Le corpus

Le projet CLAPI a été élaboré pour des corpus tels qu'ils sont conçus dans le champ de l'analyse des interactions et de la linguistique interactionnelle. Dans ce cadre, les corpus sont des ensembles d'interactions présentant une certaine homogénéité. L'homogénéité qui fonde le corpus peut provenir :

d'une unité de site (ensemble des interactions enregistrées dans un même lieu, par exemple un commerce),
d’une unité de « terrain », un terrain pouvant comporter plusieurs sites (par exemple, un terrain sur les dossiers cliniques des patients qui articule des lieux aussi divers que l'accueil de l'hôpital, le cabinet de consultation, le laboratoire d'analyse, la salle de réunion où se prennent les décisions, etc.) ,
d'une unité d'activité ou de genre interactionnel (par exemple des conversations de visite, des interactions chez des notaires dans le cadre de procédure de divorce),
d'une unité liée aux participants (par exemple des corpus longitudinaux constitués en suivant un apprenant dans différents contextes),
de l'application d'un même protocole de collecte (corpus de Rédaction Conversationnelle, traces informatiques).

Comme le montre cette liste non exhaustive, les corpus peuvent être fondés sur des bases très variées. C'est une des caractéristiques que la base de données doit être capable de traiter sans l'appauvrir.

Un corpus se compose de différents éléments :

lesenregistrements (audio ou vidéo), parfois accompagnés d'éléments prélevés dans la situation (documents produits ou utilisés par les participants) : ce sont les données primaires ;
les représentations réalisées de ces données primaires, notamment les différentes formes de transcriptions, accompagnées de leurs conventions de transcription ; éventuellement, les notes de terrain du collecteur : ce sont des données secondaires.

La conception d'une base de données a conduit à créer et à définir deux autres entités, qu'il importe de définir précisément, chacune d'entre elles étant susceptible, dans certains contextes, d'être désignée par le terme « corpus ». Ces entités construites à partir de l'objet source qu'est le corpus tel qu'il est défini ci-dessus sont : les unités documentaires de la base CLAPI ; des pièces archivées dans la bibliothèque CLAPI.

On distinguera donc clairement a) le corpus et b) les entités matérialisées et instanciées dans les banques de données et dans les archives. Ces dernières (les unités documentaires de la base CLAPI ; des pièces archivées dans la bibliothèque CLAPI) ne sont pas nécessairement organisées par rapport à la définition du corpus donnée ci-dessus, et ne doivent pas être confondues avec elle.

On distinguera par ailleurs aussi les matériaux soumis à l'analyse, qui constituent des entités a priori non répertoriées comme telles dans la base, mais qui dans certains champs de recherche sont, elles aussi, appelées « corpus » (sous-ensemble du corpus tel qu'il est défini au § 4, constitué à des fins de recherche et en réponse à une question particulière).

2.2. Les unités documentaires dans la base CLAPI

L'unité documentaire simple

Dans la base CLAPI, l'unité documentaire simple comprend le corpus (objet source) et deux autres types d'éléments :

des éléments obligatoires :

- une fiche descriptive (sur la base des descripteurs, voir Annexe Liste simplifiée des descripteurs) ;

- les conventions de transcription ;

- une bibliographie des études effectuées sur ce corpus.

des éléments facultatifs :

- un échantillon des données primaires et des données secondaires, en accès libre

- les publications liées au corpus

Les fonds

La base a conçu la possibilité d'associer des corpus entre eux, on parle alors de fonds. Ils correspondent à ce jour uniquement à des legs / don par une personne d'un ensemble de corpus qu'il importe d'identifier comme tels (exemple fonds Ahlborn, de Gaulmyn, Bange, Cosnier)

2.3. Les pièces archivées

La constitution de la base a impliqué la création d'une bibliothèque contenant des éléments liés aux corpus qui ne sont pas intégrés dans la base pour des raisons pratiques (faisabilité de la numérisation par exemple), juridiques (liées au type de données primaires concernées) ou encore pour des raisons de pérennité.

Dans la bibliothèque d'archives, chaque corpus correspond à une entité complexe, composée de :

CD-ROMS, qui comprennent la numérisation des données primaires, une version des transcriptions et des conventions de transcription, des publications, et éventuellement, une version numérisée des notes de terrain du collecteur. Les données contenues dans les CD-ROMS se retrouvent dans la base.
une série d'originaux, qui peuvent être de natures diverses : originaux des documents collectés dans la situations (parfois non numérisés pour des raisons pratiques, cas de 300 copies d'élèves), autorisations signées par les participants pour être enregistrés, parfois document explicitant le lien entre les anonymisations et les identités réelles. Sont parfois également conservés les originaux des enregistrements, ou des transcriptions (par ex. des versions non anonymisées).
les évaluations effectuées à l'entrée d'un corpus dans la base CLAPI sur la qualité des transcriptions (cette évaluation concerne en particulier l'application plus ou moins fidèle de la convention de transcription utilisée).

2.4. Les matériaux soumis aux analyses

Les matériaux soumis aux analyses, à partir de CLAPI, sont le corpus et sa fiche descriptive. Ils sont la base sur laquelle sont effectuées des opérations de requête et sélection, qui conduisent à la constitution de sous-corpus (ou collections). Ces derniers ne sont pas constitués comme unités documentaires dans la base : ils sont définis par des questions de recherche particulières et ne sont pas pérennisés.

Une fois intégrés dans les unités documentaires définies par CLAPI, les corpus deviennent traitables, dans une certaine mesure, comme des corpus au sens de la linguistique de corpus : « des collections de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d'échantillon du langage. » (Sinclair, 1996 : 4)

La différence qui subsiste tient aux modalités de confection des corpus, qui correspondent aux objectifs de recherche spécifiques à l'analyse des interactions.

Dans le sens de la linguistique de corpus, les corpus sont des échantillons construits en relation avec deux types de critères : a) des critères sociolinguistiques (concernant les descripteurs), visant une représentativité des domaines, des contextes, des genres, des locuteurs, b) des critères linguistiques (concernant le corps des données) visant une représentativité de la variété des formes linguistiques observables dans une langue donnée.

Aucun des corpus de LPI à ce jour répertorié dans la base CLAPI n'est conçu pour servir d'échantillon représentatif du langage. L'ensemble de la base, quant à elle, n'entend pas non plus couvrir la totalité des usages langagiers.

Sinclair, J. (1996) : Preliminary recommendations on Corpus Typology, Technical report, EAGLES (Expert Advisory Group on Language Engineering Standards)