Le projet CLAPI a été
élaboré pour des corpus tels qu'ils
sont conçus dans le champ de l'analyse des interactions et de la
linguistique
interactionnelle. Dans ce cadre, les
corpus sont des ensembles d'interactions présentant une certaine
homogénéité.
L'homogénéité qui fonde le corpus peut
provenir :
Comme le montre cette liste non exhaustive, les corpus peuvent être fondés sur des bases très variées. C'est une des caractéristiques que la base de données doit être capable de traiter sans l'appauvrir.
Un corpus se compose de différents éléments :
La conception d'une base de données a conduit à créer et à définir deux autres entités, qu'il importe de définir précisément, chacune d'entre elles étant susceptible, dans certains contextes, d'être désignée par le terme « corpus ». Ces entités construites à partir de l'objet source qu'est le corpus tel qu'il est défini ci-dessus sont : les unités documentaires de la base CLAPI ; des pièces archivées dans la bibliothèque CLAPI.
On distinguera donc clairement a) le corpus et b) les entités matérialisées et instanciées dans les banques de données et dans les archives. Ces dernières (les unités documentaires de la base CLAPI ; des pièces archivées dans la bibliothèque CLAPI) ne sont pas nécessairement organisées par rapport à la définition du corpus donnée ci-dessus, et ne doivent pas être confondues avec elle.
On distinguera par ailleurs aussi les matériaux soumis à l'analyse, qui constituent des entités a priori non répertoriées comme telles dans la base, mais qui dans certains champs de recherche sont, elles aussi, appelées « corpus » (sous-ensemble du corpus tel qu'il est défini au § 4, constitué à des fins de recherche et en réponse à une question particulière).
L'unité documentaire simple
Dans la base CLAPI, l'unité documentaire simple comprend le corpus (objet source) et deux autres types d'éléments :
- une fiche descriptive (sur la base des descripteurs, voir Annexe Liste simplifiée des descripteurs) ;
- les conventions de transcription ;
- une bibliographie des études effectuées sur ce corpus.
- un échantillon des données primaires et des données secondaires, en accès libre
- les publications liées au corpus
Les fonds
La base a conçu la possibilité d'associer des corpus entre eux, on parle alors de fonds. Ils correspondent à ce jour uniquement à des legs / don par une personne d'un ensemble de corpus qu'il importe d'identifier comme tels (exemple fonds Ahlborn, de Gaulmyn, Bange, Cosnier)
La constitution de la base a impliqué la création d'une bibliothèque contenant des éléments liés aux corpus qui ne sont pas intégrés dans la base pour des raisons pratiques (faisabilité de la numérisation par exemple), juridiques (liées au type de données primaires concernées) ou encore pour des raisons de pérennité.
Dans la bibliothèque d'archives, chaque corpus correspond à une entité complexe, composée de :
Les matériaux soumis aux analyses, à partir de CLAPI, sont le corpus et sa fiche descriptive. Ils sont la base sur laquelle sont effectuées des opérations de requête et sélection, qui conduisent à la constitution de sous-corpus (ou collections). Ces derniers ne sont pas constitués comme unités documentaires dans la base : ils sont définis par des questions de recherche particulières et ne sont pas pérennisés.
Une fois intégrés dans les unités documentaires définies par CLAPI, les corpus deviennent traitables, dans une certaine mesure, comme des corpus au sens de la linguistique de corpus : « des collections de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d'échantillon du langage. » (Sinclair, 1996 : 4)
La différence qui subsiste tient aux modalités de confection des corpus, qui correspondent aux objectifs de recherche spécifiques à l'analyse des interactions.
Dans le sens de la linguistique de corpus, les corpus sont des échantillons construits en relation avec deux types de critères : a) des critères sociolinguistiques (concernant les descripteurs), visant une représentativité des domaines, des contextes, des genres, des locuteurs, b) des critères linguistiques (concernant le corps des données) visant une représentativité de la variété des formes linguistiques observables dans une langue donnée.
Aucun des corpus de LPI à ce jour répertorié dans la base CLAPI n'est conçu pour servir d'échantillon représentatif du langage. L'ensemble de la base, quant à elle, n'entend pas non plus couvrir la totalité des usages langagiers.