Le livre 010101 (1971-2015)

Le projet Gutenberg

De dix mille à vingt mille livres

Le 13 février 2004, date de la conférence de Michael Hart au siège de l’UNESCO à Paris, les collections comprennent très exactement 11.340 livres dans 25 langues différentes. En mai 2004, les 12.580 livres disponibles représentent 100.000 fichiers dans vingt formats différents (avec un fichier ASCII obligatoire pour chaque livre), soit une capacité totale de 135 Go, destinée à doubler chaque année avec l’ajout de plus de 300 livres par mois (338 livres en 2004).

En janvier 2004, le Projet Gutenberg essaime outre-Atlantique avec la création du Projet Gutenberg Europe en collaboration avec le Projekt Rastko, basé à Belgrade (Serbie). À la mission originelle s’ajoute le rôle de passerelle entre les langues et les cultures,

tout en conservant la même ligne de conduite, à savoir la lecture pour tous par le biais du texte électronique gratuit, indéfiniment utilisable et reproductible. La règle utilisée en Europe pour définir les livres du domaine public est l’équation «décès de l’auteur + 70 ans». Lancé à la même date, Distributed Proofreaders Europe utilise l’Unicode pour pouvoir traiter des livres dans un grand nombre de langues.

Si le Projet Gutenberg (la maison-mère) offre des livres dans vingt-cinq langues différentes en février 2004, cinquante langues sont représentées en décembre 2006, dont l’iroquois, le sanscrit et la langue maya. Outre l’anglais (17.377 livres le 16 décembre 2006), on trouve des livres en français (966 titres), en allemand (412 titres), en finnois (344 titres), en hollandais (244 titres), en espagnol (140 titres), en italien (102 titres), en chinois (69 titres), en portugais (68 titres), en tagalogue (51 titres), etc.

Distributed Proofreaders - qui fonctionne à plein régime - suggère à ses volontaires de relire une page par jour, si possible. Cela semble peu, mais une page multipliée par des centaines de volontaires représente un chiffre considérable. En 2003, une moyenne de 250 à 300 relecteurs quotidiens permet de produire entre 2.500 et 3.000 pages par jour, ce qui représente deux pages par minute. En 2004, une moyenne de 300 à 400 relecteurs quotidiens permet de produire entre 4.000 et 7.000 pages par jour, ce qui représente quatre pages par minute. Distributed Proofreaders compte un total de 3.000 livres produits par ses soins en février 2004, 5.000 livres en octobre 2004, 7.000 livres en mai 2005, 8.000 livres en février 2006, 10.000 livres en mars 2007 et 30.000 livres en juillet 2015, avec plusieurs milliers de volontaires dans le monde et une production de cinq livres par jour.

En quoi consiste exactement le travail des volontaires? À l’amont, des volontaires scannent les livres imprimés page après page, ce qui donne des fichiers numérisés en mode image. Puis ils utilisent un logiciel OCR pour convertir chaque fichier image en un fichier texte. Le site de Distributed Proofreaders permet à plusieurs relecteurs de travailler simultanément au même livre, sur des pages différentes. Le relecteur commence par s’inscrire. Il reçoit des directives détaillées. Ces directives concernent par exemple les parties en gras, en italique et soulignées, ou les notes, qui sont toutes traitées de la même manière. Un forum permet de poser des questions et de demander de l’aide si nécessaire. Lorsque le relecteur se connecte au site, il sélectionne le livre de son choix à partir d’une liste donnée. Une page du livre choisi apparaît simultanément en deux versions: d’une part l’image scannée, d’autre part le texte issu de cette image, produit par un logiciel OCR. Le relecteur compare la première version avec la seconde et corrige les différences. Un logiciel OCR étant fiable à 99%, cela représente une moyenne de dix erreurs à corriger par page. La page est ensuite sauvegardée. Le relecteur peut soit cesser le travail, soit opter pour la correction d’une autre page.

Tous les livres sont relus et corrigés deux fois de suite et la seconde fois uniquement par des relecteurs expérimentés. Les pages corrigées sont ensuite formatées selon des règles précises puis assemblées par d’autres volontaires pour obtenir un livre numérique. Durant tout le processus, un livre donné est suivi par un chef de projet (project manager) qui s’assure du bon déroulement des opérations. Après la mise en forme suit la mise en ligne, avec indexation (titre, sous-titre, numéro de l’ebook et format) puis catalogage simple (dates de naissance et de décès de l’auteur, classification de la Library of Congress, etc.).

Les volontaires peuvent aussi travailler de manière indépendante, en s’adressant directement au Projet Gutenberg. Ils peuvent saisir leur livre préféré de bout en bout sur le traitement de texte de leur choix. Ils peuvent aussi scanner eux-mêmes un livre, le convertir en texte par le biais d’un logiciel OCR et faire les corrections nécessaires en comparant le résultat à la version originale. Dans les deux cas, une deuxième relecture est faite par une autre personne. Toute participation est bienvenue, quelle que soit la méthode adoptée. Il est également tout à fait possible de joindre des fichiers dans d'autres formats en complément du fichier ASCII.

Aussi bien pour Distributed Proofreaders que pour Distributed Proofreaders Europe (et plus tard Distributed Proofreaders Canada en 2007), de nouveaux volontaires sont bienvenus, y compris pour les livres en français. La tâche est immense. Comme indiqué sur les deux sites, «Distributed Proofreaders ne s’attend pas à un engagement inconditionnel de votre part. Corrigez des textes aussi souvent que vous voulez, et le nombre de pages que vous voulez. Nous encourageons les gens à corriger une page par jour, mais vous êtes tout à fait libre de faire ce qui vous plaît. Nous espérons que vous vous joindrez à notre mission de préserver "la littérature mondiale dans un format gratuit et disponible pour tous".»

Le Projet Gutenberg et Distributed Proofreaders insistent régulièrement sur la nécessité de la relecture, qu’ils jugent essentielle. Utiliser directement des livres scannés puis convertis au format texte par un logiciel OCR, sans relecture, donne un résultat de moindre qualité, avec une fiabilité de 99% dans le meilleur des cas. L’étape de la relecture avec correction permet d’atteindre une fiabilité de 99,95%, un pourcentage élevé qui est aussi le standard de la Library of Congress. La perspective est donc différente de celle de l’Internet Archive (qui héberge également les collections du Projet Gutenberg, en tant que deuxième site de distribution et premier site de sauvegarde). Dans le cas de l’Internet Archive, les livres sont scannés puis «OCRisés», mais ils ne sont pas relus par des correcteurs s’attachant à traquer les erreurs. L’Internet Archive souhaite proposer le plus grand nombre de livres possible tandis que le Projet Gutenberg souhaite proposer des livres au contenu le plus fiable possible, deux perspectives qui sont complémentaires.

Par ailleurs, les avantages de la numérisation en mode texte sont multiples. Les fichiers prennent peu de place et circulent d’autant plus facilement, sans la nécessité d’une connexion internet à haut débit. Le fichier texte peut être copié à l’infini, et constituer la base de nouvelles versions numériques et imprimées. À tout moment, on peut corriger les erreurs typographiques qui auraient pu subsister. Les lecteurs peuvent changer à volonté la taille et la police des caractères, ainsi que les marges ou le nombre de lignes par page. Les lecteurs malvoyants peuvent grossir la taille des polices et les lecteurs aveugles utiliser une plage braille ou une synthèse vocale. Tout ceci est nettement plus difficile, sinon impossible, avec d’autres formats.

Quoique toujours très présent, l’ASCII voisine maintenant avec l’Unicode, système d’encodage universel créé en 1991 et qui supplante définitivement l’ASCII sur le web en décembre 2007 – et dans le Projet Gutenberg un peu après. Outre l’ASCII et l’Unicode, les livres sont proposés aussi dans d’autres formats, notamment dans les trois formats répandus que sont les formats HTML, XML et RTF. Le format HTML est souvent auto-généré lors de la mise en ligne du livre. De plus, tout format proposé par tel ou tel volontaire (PDF, LIT, TeX et beaucoup d’autres) est généralement accepté. De nouveaux formats permettent la lecture des livres sur PDA, smartphone, tablette et liseuse. Les livres sont par exemple au format EPUB, devenu un standard du livre numérique (avec le PDF), ou encore au format du Kindle, la liseuse d’Amazon.

Pour une conversion à grande échelle dans un format donné, le relais est passé à d’autres organismes. Par exemple Blackmask Online, qui puise dans les collections du Projet Gutenberg pour proposer des milliers de livres gratuits dans huit formats différents, tous issus du format Open eBook (OeB). Ou encore Manybooks.net, qui convertit les collections du Projet Gutenberg dans des formats lisibles sur PDA. Ou encore GutenMark, un outil permettant de reformater les livres aux formats HTML et LaTEX pour une lecture plus attractive ou de les reformater au format PDF pour une impression à la demande. Ou encore MobileBooks, qui propose 5.000 livres (chiffres de 2007) en Java pour lecture sur smartphone. Ou encore LibriVox, bibliothèque audio multilingue proposant des livres du Projet Gutenberg enregistrés par des volontaires. Sous l’égide de Greg Newby, son directeur, la Project Gutenberg Literary Archive Foundation (PGLAF), fondée en 2000, est en charge de la structure administrative et financière du projet. Le but est d’assurer sa pérennité indépendamment des crédits, des coupures de crédits et des priorités politiques et culturelles du moment. Pas de pression possible donc par le pouvoir et par l’argent. Et respect à l’égard des volontaires, qui sont assurés de voir leur travail utilisé pendant de nombreuses années, si ce n’est pour plusieurs générations. Le suivi régulier du projet est assuré grâce à une lettre d’information hebdomadaire et mensuelle et des forums de discussion. Les dons servent à financer des ordinateurs et des scanners, et à envoyer des CD et DVD gratuits à ceux qui en font la demande. Suite au premier DVD disponible en décembre 2003 avec 9.400 titres (sur les 10.000 livres existants), un deuxième DVD est disponible en juillet 2006 avec 17.000 titres (sur les 19.000 livres existants). Suit un CD spécial science-fiction en mars 2007 puis un DVD Dual Layer (avec une capacité double) en avril 2010. Tous les CD et DVD sont également téléchargeables sous forme d’images numériques sur BitTorrent.

Table des matières