Le livre 010101 (1971-2015)

L'Unicode

L’Unicode, pour toutes les langues

D’où l’intérêt de l’Unicode, nouveau système d’encodage universel, dont la première version est publiée en janvier 1991. L’Unicode est un système d'encodage sur seize bits spécifiant un nombre unique pour chaque caractère (ou idéogramme). Ce nombre est lisible quels que soient la plateforme, le logiciel et la langue de travail de départ. Avec ses 65.000 caractères (ou idéogrammes) uniques, l’Unicode prend en compte tous les systèmes d’écriture de la planète. Maintenu par l'Unicode Consortium. Il devient une composante des spécifications du World Wide Web Consortium (W3C), fondé en octobre 1994 pour promouvoir le développement du web.

L’utilisation de l’Unicode commence à se généraliser en 1998, par exemple pour les fichiers texte sous plateforme Windows (Windows NT, Windows 2000, Windows XP et versions suivantes), qui étaient jusque-là en ASCII. Mais l’utilisation de l’Unicode ne peut être que progressive. Un énorme travail est en effet nécessaire pour passer d’un système d’encodage à l’autre, avec des variantes UTF-8, UTF-16 et UTF-32 (UTF: Unicode Transformation Format) selon le nombre de bits utilisés. La tâche s’annonce rude.

Patrick Rebollar, professeur de littérature française au Japon et modérateur de la liste de diffusion LITOR (Littérature et ordinateur), explique en janvier 2000: «Il s'agit d'abord d'un problème logiciel. Comme on le voit avec Netscape ou Internet Explorer, la possibilité d'affichage multilingue existe. La compatibilité entre ces logiciels et les autres (de la suite Office de Microsoft, par exemple) n'est cependant pas acquise. L'adoption de la table Unicode devrait résoudre une grande partie des problèmes, mais il faut pour cela réécrire la plupart des logiciels, ce à quoi les producteurs de logiciels rechignent du fait de la dépense, pour une rentabilité qui n'est pas évidente car ces logiciels entièrement multilingues intéressent moins de clients que les logiciels de navigation.»

Luc Dall’Armellina, co-auteur et webmestre de l’espace d’écriture hypermédia oVosite, écrit en juin 2000: «Les systèmes d’exploitation se dotent peu à peu des kits de langues et bientôt peut-être de polices de caractères Unicode à même de représenter toutes les langues du monde; reste que chaque application, du traitement de texte au navigateur web, emboîte ce pas. Les difficultés sont immenses: notre clavier avec ses ± 250 touches avoue ses manques dès lors qu’il faille saisir des Katakana ou Hiragana japonais, pire encore avec la langue chinoise. La grande variété des systèmes d’écriture de par le monde et le nombre de leurs signes font barrage. Mais les écueils culturels ne sont pas moins importants, liés aux codes et modalités de représentation propres à chaque culture ou ethnie.»

Que faire? Olivier Gainon, fondateur de CyLibris et pionnier de l’édition électronique littéraire, explique en décembre 2000: «Première étape: le respect des particularismes au niveau technique. Il faut que le réseau respecte les lettres accentuées, les lettres spécifiques, etc. Je crois très important que les futurs protocoles permettent une transmission parfaite de ces aspects - ce qui n’est pas forcément simple (dans les futures évolutions de l’HTML ou des protocoles IP, etc.). Donc il faut que chacun puisse se sentir à l’aise avec l’internet et que ce ne soit pas simplement réservé à des (plus ou moins) anglophones. Il est anormal aujourd’hui que la transmission d’accents puisse poser problème dans les courriers électroniques. La première démarche me semble donc une démarche technique. Si on arrive à faire cela, le reste en découle: la représentation des langues se fera en fonction du nombre de connectés, et il faudra envisager à terme des moteurs de recherche multilingues.»

Table des matières