Retour vers la page d'accueil
Vers ICAR
Accueil > Confection >Conversion
Imprimer

Conversion

Définition

Le terme « conversion » désigne une procédure de transformation des formats informatiques des fichiers. En effet, tout fichier est défini par un type de formatage c’est à dire une norme d’encodage et de balisage. Par exemple, la caractéristique ‘mise en caractère gras d’une lettre’ ne sera pas normalisée de la même manière d’un traitement de texte à un autre, et un document formaté dans un traitement de texte ne sera pas directement ‘réutilisable’ dans un autre qui ne serait pas capable de reprendre ses caractéristiques. On parle alors de format « propriétaire » c’est à dire fermé (comme .doc pour Microsoft Word). En revanche, un format ouvert peut être interprété par différentes plate-formes logicielles et matérielles et faciliter ainsi les transferts et les échanges.
Dans certains systèmes d’exploitation, une extension de fichier identifie son format, par exemple .txt, .doc, .xml, .wav, .aiff, .mpg, .smi… et l’associe à une application qui sera capable de le traiter correctement.
Certaines applications proposent également des formats d’import/export dans des formats comme xml, texte, csv pour les tableurs.

La conversion –d’un type de format ou de codage vers un autre– permet donc de transformer le fichier tout en gardant, partiellement au moins, les données contenues dans les fichiers initiaux. La nature des types de fichier, des types de formatage et des procédures de conversion peut varier considérablement.

Finalité

La conversion est une procédure de base en informatique, puisqu'elle vise à assurer le traitement d’un ensemble de données complexes (texte, son, vidéo etc.) par différents logiciels. Idéalement, l’objectif des procédures de conversion est de garantir le flux – libre et sans pertes – des données entre les plate-formes et logiciels de traitement de données utilisés dans un contexte de travail donné, une base de corpus oraux dans notre champ d’étude.

Comme les logiciels créent souvent des fichiers en format (partiellement) incompatible par rapport à d’autres logiciels et comme l’interopérabilité des fichiers à travers les plate-formes (pc, mac, linux) n’est pas toujours assurée, l'idéal serait de transformer les fichiers du format propriétaire d’origine (dépendant d’une plate-forme) vers un format pivot, c'est-à-dire un standard sanctionné par un organisme de standardisation dédié – à partir duquel les données sont re-converties vers les divers formats propriétaires des logiciels et plate-formes cibles.
Cependant, comme ces standards sont encore peu répandus, les conversions se font le plus souvent directement d’un format propriétaire vers un autre (ou via des formats pivots « locaux »).

Types de données et logiciels de traitement de données utilisés dans CLAPI

Dans la mesure où le fonctionnement d’une base de corpus oraux repose sur un nombre important de types de données différents et que les besoins des divers types d’utilisateurs diffèrent considérablement, la question du libre flux des données et de leur conversion entre les plate-formes et logiciels de traitement de données utilisés est centrale.
Les outils de conversion utilisés dans le contexte des traitements de corpus oraux dépendent des types de données composant les corpus :

Données primaires
fichiers audio : .wav, .aiff, .mp3, …
fichiers vidéo : .dv, .avi, .mov, .mpg,…
fichiers image : .jpg, .gif,.tif
fichiers texte* : .txt, .doc, .xml
etc…
Données secondaires
fichiers de notation
fichiers comportant des méta-données
etc…

*(Tout fichier informatique est à la base un fichier texte)

Les données primaires sont disponibles pour la plupart en format standard industriel. Les conversions entre ces différents formats peuvent donc être réalisées facilement, soit avec les logiciels permettant la création des fichiers concernés, soit avec les logiciels de conversion développés le plus souvent par les fournisseurs de ces logiciels.

Les données secondaires posent par contre des problèmes de conversion plus complexes car leur format n’est pas standardisé. Nous avons donc été amenés à développer un certain nombre d’outils de conversion adaptés à nos besoins.

Nous avons retenu plus particulièrement les logiciels suivants :

Logiciels de traitement de données primaires

Audio : Audacity (gratuiciel, licence GNU, mac & pc), Sony Sound Forge, Adobe Audition (auparavant : Cool Edit Pro), Freeverse SoundStudio (exclusivement pour Macintosh), etc.

Vidéo : Avid Free DV (gratuiciel AVID pour pc & mac), Apple iMovie (livré avec les macintosh), Microsoft MovieMaker (gratuiciel pc), Sony Vegas, Adobe Premiere, etc.

Image : GIMP for Windows (gratuiciel, pc & mac), GSview (gratuiciel, pc), Adobe Acrobat, Adobe Photoshop, Adobe Illustrator, etc.

Texte : Emacs (gratuiciel, licence GNU, pc & mac), IDM UltraEdit (pc), Microsoft Word, etc.

Logiciels de traitement de données secondaires

Fichiers de notation : Praat, Clan, Elan, Anvil

Logiciels utilisés dans la conversion de données secondaires

Fichiers de notation : EXMARaLDA, Elan, Econv, CLAPI CONVERT

Les logiciels cités permettent d’assurer une conversion directe depuis les formats des divers logiciels utilisés pour les corpus CLAPI, c’est-à-dire qu’ils permettent :

- de créer les fichiers d’archivage pour les données primaires et secondaires ;
- de convertir les fichiers d’archivage vers les formats propriétaires des divers logiciels de traitement de données primaires et secondaires, ainsi que le flux entre ces derniers.

La conversion systématique via un format pivot qui reprend la convention ICOR est prévue (un prototype pour la conversion de fichiers Praat vers un format XML pivot a été développé en 2003).

Remarques sur les types d’utilisateurs et leur usage des divers types de données et logiciels

Les divers formats de conversion et de compression utilisés par le groupe ICOR sont détaillés dans la partie Numérisation pour les données primaires et dans la section Balisage pour les données secondaires.

 

Pour citer cette page : groupe ICOR 2006, titre de la page, site CORINTE
http://icar.univ-lyon2.fr/projets/corinte/