Objectif : permettre une analyse outillée
Les outils développés dans CLAPI sont issus d’une double préoccupation : d’une part, ils s’inspirent de la linguistique interactionnelle et de ses exigences analytiques, en visant à outiller ses analyses ; d’autre part, ils obéissent aux contraintes et exploitent les potentialités de l’outil informatique.
Cette implémentation des analyses doit résoudre différentes difficultés, liées à la spécificité des données d'une part et à certains principes auxquels cherche à se tenir la base CLAPI (principes liés notamment à la préservation de la variété des données primaires et secondaires ainsi que des modes de traitement utilisés par les auteurs de corpus).
Choix des phénomènes
Dans le développement des outils d'analyse, nous avons considéré que seules les transcriptions identifiant les locuteurs seraient prises en compte.
L'implémentation des analyses a également impliqué de choisir, dans une première étape du développement des outils, un noyau de phénomènes (parmi ceux qui sont répertoriés dans la convention ICOR, considérés comme incontournables pour une analyse interactionnelle (et notés dans la grande majorité des corpus de la base) :• les tokens : les mots, quelle que soit la forme sous laquelle ils apparaissent (i‘, ils, ‘fin, enfin, etc.). L'identification des tokens a posé le problème de l'orthographe adaptée.
• les productions verbales (pv) : une production verbale est constituée de la suite de tokens rattachée à un identifiant de locuteur apparaissant en début de ligne dans la transcription. Une nouvelle pv commence à chaque nouvelle apparition d'un identifiant de locuteur. Une production verbale est une unité répondant aux besoins de l'implémentation de l'analyse ; elle ne correspond pas à un tour de parole, catégorie analytique fondamentale de la linguistique interactionnelle.
• les chevauchements : tokens ou suite de tokens produits simultanément par plusieurs locuteurs. Ils sont marqués par un signe de début de chevauchement ([ dans la convention ICOR) et par un signe de fin de chevauchement (] dans la convention ICOR).
• les pauses : période sans production verbale ou vocale. Dans la convention ICOR, elles sont notées (.) ou chronométrées (ex. (0.5)).
• les descriptions / commentaires : ce sont les descriptions et commentaires inscrits par le transcripteur, qui correspondent à des notations sur les actions effectuées, les événements du contexte, etc. Dans la convention ICOR, ils sont notés entre double parenthèse.
Traitement de la diversité des corpus
La diversité des corpus hébergés dans CLAPI se rapporte à différents niveaux et concerne :
- les phénomènes notés,
- les modes de notation de ces phénomènes (conventions),
- la précision de leur description,
- le degré de granularité dans leur identification et représentation plus ou moins détaillée.Le traitement des corpus pour qu'ils soient traitables par les outils implique que les conventions et la stabilité des notations soient vérifiées, et qu'un travail de mise en forme, n'écrasant cependant pas la mise en forme originale qui doit toujours pouvoir être consultable, soit effectué (voir préparer le corpus).
A terme, l’idéal poursuivi est que les outils de recherche fonctionnent sur les données primaires elles-mêmes (requêtes sur le signal).
Actuellement, les requêtes se font sur le texte de la transcription : la relation indispensable avec la donnée primaire est néanmoins rendue possible par l’alignement des enregistrements et des transcriptions ; cet alignement est disponible dans le rendu des résultats des requêtes accessibles par le concordancier.
Un nombre important de corpus - notamment les plus anciens - n’ont toutefois pas été transcrits avec des logiciels permettant l’alignement. La solution adoptée pour permettre un accès aux données primaires à partir des requêtes consiste à utiliser des indications temporelles (par ex. un repérage par minute) qui ont été inscrites dans la transcription lors de la préparation du corpus.
Pour citer cette page : groupe ICOR 2006, titre de la page, site CORINTE
http://icar.univ-lyon2.fr/projets/corinte/