Retour vers la page d'accueil
Vers ICAR
Accueil > Intégration > Décrire le corpus
Imprimer

Décrire le corpus

Objectif

Le catalogage du corpus dans la base implique sa documentation, c'est-à-dire sa catégorisation par rapport à des métadonnées.
Cette opération revient à une fixation descriptive du contexte, que l'on doit envisager en relation avec la façon dont la base a été conçue et notamment avec la définition des corpus retenue pour sa conception.

Les différents éléments constitutifs du corpus tel qu'il est défini dans la base doivent être pris en compte par les méta-données.

Le choix et la pertinence des méta-données retenues sont essentiels non seulement pour l'identification des corpus, mais aussi pour les requêtes (choix des corpus sur lesquels portent les requêtes, comparaison de corpus, requêtes complexes Outils). Ils sont pris entre la nécessité d'une certaine fixité permettant le développement d'une base et la flexibilité indispensable pour rendre compte des spécificités de chaque corpus. La conception de la base de données se trouve ainsi soumise simultanément à une pression vers la réduction et la fixation du contexte, et à une autre vers la souplesse et une description détaillée du contexte.

Les choix qui ont été faits pour le mode d'inscription des métadonnéees dans la base recourent à différentes solutions afin de répondre à cette double nécessité (catégories pré-établies à cocher, mot clés à proposer, descriptions libres ).

Les grandes catégories de métadonnées retenues documentent les opérations successives de recueil, de confection et d'analyse du corpus. Chacune d'entre elles répond à des problèmes spécifiques et pose un certain nombre de difficultés.

– identité du corpus

Le nom du corpus par la catégorisation qu'il opère doit permettre de reconnaître la situation dans laquelle il prend place et/ou les activités qui s'y déroulent, mais aussi de l'identifier en tant qu'événement unique : éviter le nom d’un genre (par ex. conciliation, négociation, etc.), éviter les noms d’individus/institutions réels. En cas d’absence d’inspiration, se rabattre sur l’incipit (éviter cependant " bonjour ").

– métadonnées relatives au recueil et à l’enquête

• Les acteurs : cette catégorie de métadonnées concerne les acteurs liés à un corpus. Leur identification répond aux besoins de la préservation de la vitalité des corpus (un responsable), de la reconnaissance du travail effectué et du respect de la propriété intellectuelle (auteurs, collecteurs, transcripteurs, etc.)
• les modes de recueil : visible/caché/visible-caché. Les modes de recueils ont une influence sur la diffusion des corpus (réalisations, aspects juridiques)
• les documents annexes : il s'agit des documents utilisés ou produits par les participants ou les documents produits par le collecteur (photos, plan de la situation, notes, etc.). Ils sont scannés et téléchargés (et soumis à la convention d'accès au corpus). Le nom de ces documents en décrit le contenu.

– métadonnées relatives à la situation et aux activités

C'est la question des genres qui se trouve posée ici, et notamment celle de choisir des catégorisations externes (ex. interaction dans une mercerie) ou des catégorisations internes (ex. échanges sur l'augmentation des prix).
Une double catégorisation est proposée : la première, à partir d'items fixes, permet de caractériser à larges traits le corpus en termes généraux (situation construite ou non par le chercheur, institutionnel, de travail, privé, etc.), la seconde correspond à une liste ouverte d'items descriptifs que les responsables de corpus peuvent enrichir en fonction des types d'activités représentées dans le corpus.

– métadonnées relatives au formatage du corpus

Cette catégorie renseigne sur les formats du corpus - données primaires et secondaires - et ses formes successives (transcriptions de différents types, évolution, enrichissement, etc.)

– métadonnées relatives aux participants

Cette catégorie de métadonnées concerne les caractéristiques sociolinguistiques des participants. Compte tenu de la perspective interactionnelle dans laquelle la plupart des corpus de la base ont été constitués, ces métadonnées ne sont pas systématiquement renseignées

– métadonnées relatives aux travaux existants sur le corpus

Cette catégorie répertorie les références précises des publications qui ont utilisé le corpus. Chaque publication peut être caractérisée par des mots-clef et un résumé

– métadonnées relatives aux conditions de diffusion des corpus

Les conditions de diffusion sont décrites en détaillant pour chaque élément constitutif du corpus les modes d'accès possibles (par ex. convention d'échange, public, etc.)

Actuellement CLAPI comporte 75 rubriques hiérarchisées pour la description des corpus

 

Pour citer cette page : groupe ICOR 2006, titre de la page, site CORINTE
http://icar.univ-lyon2.fr/projets/corinte/