Retour vers la page d'accueil
Vers ICAR
Accueil > Intégration > Préparer le corpus
Imprimer

Préparer le corpus

L'intégration d'un corpus dans la base de données CLAPI nécessite diverses opérations préalables.

- Les enregistrements et les documents annexes doivent avoir été numérisés (Numériser)

- Il est nécessaire de rassembler l'ensemble des informations nécessaires à la description du corpus (Décrire le corpus) et de rédiger le texte de présentation qui sera consultable en ligne. Ce document décrit l’architecture du corpus (nombre d’enregistrements…) et les objectifs scientifiques pour lesquels il a été constitué. Il explicite les critères qui constituent la cohérence du corpus et qui, éventuellement, fondent l'association à d'autres corpus. Ce texte permet également d'apporter toute information pertinente qui ne pourrait pas figurer sous les descripteurs CLAPI (institutions partenaires de la constitution du corpus, format d’origine des enregistrements…).
Le responsable peut lui-même décrire son corpus et en télécharger les divers éléments en ligne.

- Les transcriptions réalisées sur des systèmes informatiques anciens doivent être converties dans les formats actuels. La mise en page et certains caractères sont alors parfois à revoir. Les transcriptions figurant dans CLAPI sont obligatoirement accompagnées de leurs conventions de transcription.

- Certaines transcriptions peuvent faire l'objet d'un traitement préalable afin de permettre leur balisage (Baliser), opération qui permet l'interrogation en ligne des transcriptions. L'équipe de la médiathèque réalise ce traitement qui consiste à :

• insérer des marqueurs temporels réguliers dans la transcription (timing toutes les minutes pour les extraits de 7 minutes, toutes les 2 minutes pour les transcriptions intégrales)
• remplacer les notations non reconnues (gras ou italique, caractères spéciaux…)
• supprimer les ambiguïtés (par exemple remplacement de l’apostrophe par l’antiquote quand elle note une élision non standard : j’parle > j` parle)
• uniformisation (par exemple pour des chevauchements notés dans une même transcription tantôt par /, tantôt par [ , la notation standard sera [ en accord avec la convention ICORbase)
• signaler la notation non systématique de certains des phénomènes balisés (actuellement tokens, pauses, chevauchements) afin de pouvoir, le cas échéant, prévenir les utilisateurs lors des requêtes portant sur ces phénomènes.

Quand des modifications de la transcription originale s'imposent, les notations adoptées sont, dans la mesure du possible, celles préconisées dans la convention ICOR. La transcription ainsi modifiée et la version actualisée de la convention de transcription, nommées "adapté CLAPI" dans la base, doivent être validées par le responsable du corpus (Modifications imposées par le balisage des transcriptions).

Une fois les modifications effectuées, l'équipe de la médiathèque identifie les phénomènes transcrits et leur représentation graphique dans une application informatique.
La transcription balisée sera générée automatiquement en xml

Le balisage n'est pas effectué systématiquement. Il exige un investissement important puisque le traitement préalable peut nécessiter de 4 à plus de 25 h pour une heure de transcription, selon le type de transcription et le nombre de phénomènes notés. Il n'est donc réalisé que pour les corpus les plus représentatifs (et sur une partie seulement des transcriptions pour les corpus les plus longs). Actuellement, il ne peut pas être effectué pour les transcriptions en partition.

L'intégration d'un corpus dans la base CLAPI peut également exiger l'anonymisation des données primaires et secondaires.
Le temps total de traitement d'un corpus dépend de nombreux facteurs et il varie énormément d'un corpus à un autre (Evaluation du temps de traitement d'un corpus).

 

Pour citer cette page : groupe ICOR 2006, titre de la page, site CORINTE
http://icar.univ-lyon2.fr/projets/corinte/