Retour vers la page d'accueil
Vers ICAR
Accueil > Confection > EXMARALDA
Imprimer

Description du logiciel EXMARALDA

EXMARaLDA est un acronyme de "Extensible Markup Language pour Discours Annotation". Il s'agit d'un système de concepts, de formats de données et d'outils de conception assistée par ordinateur de transcription et d'annotation de la langue parlée. EXMARaLDA a été developpé dans un projet en collaboration avec le Centre de recherche "multilinguisme" à l'Université de Hambourg.

Adresse Web : http://exmaralda.org/
Plateforme : Windows, Macintosh, Linux
Auteur : Thomas Schmidt, University of Hamburg
Disponibilité : téléchargement avec un mot de passe fourni par l'auteur

Format en entrée

Exmaralda ne semble lire correctement ni les fichiers audio, ni les fichiers vidéo même si l'on peut associer ces types de fichier au document Exmaralda (Menu File, Edit Meta-Information). Une fenêtre Audio/Video Panel comportant un bouton Play permet en théorie de lire les fichiers audio (mais pendant une courte séquence, variable) et les fichiers vidéo (mais aucun player n'a pu être trouvé lors du test)

Import / Export

Import : depuis TASX, Praat et des fichiers HIAT-DOS.

Export : aux formats TASX, Praat, Interlinear Text XML. L'option Segmentation permet d'exporter les données sous forme de liste de prises de tours, ou de liste d'expression, ou de liste de mots (le tout au format HTML) : on passe donc d'une structure grammaticale basic à une grammaire type list.

Formats natifs

Format XML (.xml) avec trois DTD associées selon la représentation voulue pour les transcriptions.

Les DTD spécifient la syntaxe de trois types différents de transcription avec différents niveaux de complexité : basic, list et segmented.

Basic : les transcriptions sont composées de tiers et chacun contient un certain nombre de descriptions d'évènements qui font toutes références à la même ligne de temps.

List : on a toujours les mêmes informations que pour la transcription basic mais les informations sont organisées différemment (par prise de tour, par mot…) : les évènements font donc référence à la même base de temps mais ne sont plus organisés uniquement en fonction du temps.

Segmented : les transcriptions ont une structure de graphe d'annotation.

Fonctionnalités

EXMARaLDA est un système de transcription de langage parlé : il consiste en un ensemble de DTD pour l'encodage XML de transcriptions, ainsi que de quelques outils pour la visualisation et l'édition de ces transcriptions. Le but est de trouver un format d'échange standardisé, un format pivot, pour représenter les tiers et les événements qui les composent (expressions, mots, …).

Edition

Impression : Il existe de nombreux paramétrages pour l'impression. La transcription est découpée en parties selon les exigences de mises en forme voulues : chaque partie est appelée une « frame ».

- Break : Respect ou non des frontières de mots (défini statiquement : espace, apostrophe, tiret), tolérance horizontale (largeur max autorisée pour une frame), tolérance verticale (hauteur max autorisée pour une frame), additionnal label space, possibilité de suprimer les lignes vides (pour une frame donnée), de numéroter les frames.

- General Output : on peut inclure ou non le référentiel temporel, mettre la ligne temporelle en dehors de la frame, choisir des options comme la couleur des bordures des frames et leur style, et afficher ou cacher les informations générales sur la transcription.

- RTF : on peut définir la marge de droite par exemple.

- HTML : afficher les liens et des ancres sous forme hypertexte, utiliser javascript ou supprimer les sauts de lignes (on obtient alors une seule et unique frame tout en largeur)

- PDF : oui

Remarque : L'option Visualize offre aussi la possibilité d'exporter les données au format RTF et HTML.

Avantages

- Possibilité de générer des fichiers html, pdf et rtf représentant l'alignement entre le temps et les annotations, de façon verticale éventuellement.
- DTD apparemment assez génériques pour être utilisées selon nos besoins.
- Capable d'importer des .TextGrid

Inconvénients

- Pas d'import de fichiers CLAN ou Anvil
- Toujours en construction donc sûrement des bugs résiduels
- Selon le concepteur, c'est une méthode adaptée pour les transcriptions simples mais ce n'est pas suffisant pour des transcriptions plus complexes avec de nombreux locuteurs et plusieurs tiers pour chacun.
- Les transformations entre basic, list et segmented ne fonctionnent pas correctement avec tous les fichiers (notamment avec notre exemple d'import de TextGrid)
- Possibilité d'inclure des signes API mais à l'affichage ces caractères apparaissent comme des carrés vides (affichage écran, HTML). Ils apparaissent sous une forme correcte dans un export RTF.

Documentation

Lien : Documentation accessible par mot de passe
http://exmaralda.org/downloads.html

Installation

http://exmaralda.org/downloads.html

 

 

Pour citer cette page : groupe ICOR 2006, titre de la page, site CORINTE
http://icar.univ-lyon2.fr/projets/corinte/