Le livre 010101 (1971-2015)

Gallica, bibliothèque numérique de la Bibliothèque nationale de France

Résumé

Gallica est lancé en octobre 1997 par la Bibliothèque nationale de France (BnF) avec des documents du 19e siècle francophone et devient rapidement l'une des grandes bibliothèques numériques mondiales. Quelques années plus tard, on y trouve tous les documents libres de droits du fonds numérisé de la BnF, qui vont du Moyen-Âge au début du 20e siècle. Pour des raisons de coût, les documents sont essentiellement numérisés en mode image. En décembre 2006, les collections de Gallica comptent 90.000 ouvrages (fascicules de presse compris), 80.000 images et des dizaines d'heures de ressources sonores. Gallica débute ensuite la conversion en mode texte des livres numérisés en mode image pour favoriser l'accès à leur contenu et la recherche plein texte. Gallica propose un million de documents en mars 2010.

Gallica est inauguré en octobre 1997 avec des livres et des images du 19e siècle francophone, défini sur son site web comme le «siècle de l’édition et de la presse moderne, siècle du roman mais aussi des grandes synthèses historiques et philosophiques, siècle scientifique et technique». 2.500 livres numérisés en mode image sont complétés par les 250 livres numérisés en mode texte de la base Frantext de l’INaLF (Institut national de la langue française, ancêtre du laboratoire ATILF actuel). Classés par discipline, ces livres sont complétés par une chronologie du 19e siècle et des synthèses sur les grands courants en histoire, sciences politiques, droit, économie, littérature, philosophie, sciences et histoire des sciences. Le site propose aussi un échantillon de la future iconothèque numérique, à savoir le fonds du photographe Eugène Atget, une sélection de documents sur l’écrivain Pierre Loti, une collection d’images de l’École nationale des ponts et chaussées - ces images ayant trait aux grands travaux de la révolution industrielle en France - et enfin un choix de livres illustrés de la bibliothèque du Musée de l’Homme.

Fin 1997, Gallica se considère moins comme une banque de documents numérisés que comme un «laboratoire dont l’objet est d’évaluer les conditions d’accès et de consultation à distance des documents numériques». Le but est d’expérimenter la navigation dans les collections, en permettant le libre parcours du chercheur ou du lecteur curieux.

Début 1998, Gallica annonce 100.000 volumes et 300.000 images pour la fin 1999. Sur les 100.000 volumes prévus, qui représenteraient 30 millions de pages numérisées, plus du tiers concernerait le 19e siècle. Quant aux 300.000 images fixes, la moitié viendrait des départements spécialisés de la BnF (Estampes et photographie, Manuscrits, Arts du spectacle, Monnaies et médailles, etc.), et l'autre moitié de collections d’établissements publics (musées et bibliothèques, Documentation française, École nationale des ponts et chaussées, Institut Pasteur, Observatoire de Paris, etc.) ou privés (agences de presse dont Magnum, l’Agence France-Presse, Sygma, Rapho, etc.).

À la même date, le site bilingue français-anglais de la BnF est à la fois solidement ancré dans le passé et résolument ouvert sur l’avenir, comme en témoigne le menu principal de la page d’accueil avec ses neuf rubriques: (1) nouveau (à savoir les nouvelles manifestations culturelles); (2) connaître la BnF; (3) les actualités culturelles; (4) les expositions virtuelles (quatre expositions en septembre 1998: les splendeurs persanes, le roi Charles V et son temps, naissance de la culture française, tous les savoirs du monde); (5) des informations pratiques; (6) l’accès aux catalogues de la BnF; (7) l’information professionnelle (conservation, dépôt légal, produits bibliographiques, etc.); (8) la bibliothèque en réseau (Francophonie, coopération nationale, coopération internationale, etc.); (9) les autres serveurs (bibliothèques nationales, bibliothèques françaises, universités, etc.). Et enfin, bien en vue sur la page d’accueil, un logo permettant d’accéder à Gallica.

En mai 1998, la BnF revoit ses espérances à la baisse et modifie quelque peu ses orientations premières. Jérôme Strazzulla, journaliste au quotidien Le Figaro, explique dans un article du 3 juin 1998 que la BnF est passée «d’une espérance universaliste, encyclopédique, à la nécessité de choix éditoriaux pointus». Dans le même article, le président de la BnF, Jean-Pierre Angremy, rapporte la décision du comité éditorial de Gallica dans les termes suivants: «Nous avons décidé d’abandonner l’idée d’un vaste corpus encyclopédique de cent mille livres, auquel on pourrait sans cesse reprocher des trous. Nous nous orientons aujourd’hui vers des corpus thématiques, aussi complets que possibles, mais plus restreints. (...) Nous cherchons à répondre, en priorité, aux demandes des chercheurs et des lecteurs.» Le premier corpus aura trait aux voyages en France, à savoir des textes, estampes et photographies du 16e siècle à 1920, avec mise en ligne prévue en 2000. Les corpus envisagés ensuite concerneront Paris, les voyages en Afrique des origines à 1920, les utopies et enfin les mémoires des Académies des sciences de province.

Professeure à l’École pratique des hautes études (EPHE, Paris-Sorbonne) et adepte depuis toujours de la lecture sur PDA (puis sur smartphone), Marie-Joseph Pierre raconte en novembre 2002: «Gallica m’a pas mal servi pour mon travail, ou pour mes activités associatives. Je fais par exemple partie d’une petite société poétique locale, et nous faisons prochainement un récital poétique. J’ai voulu rechercher des textes de Victor Hugo, que j’ai maintenant pu lire et même charger: c’est vraiment extra.»

En 2003, Gallica rassemble 70.000 ouvrages et 80.000 images allant du Moyen-Âge au début du 20e siècle, tous documents libres de droits. Mais, de l’avis de nombreux usagers, les fichiers sont très lourds puisque les livres sont numérisés en mode image, et l’accès en est très long. De plus, la numérisation en mode image n’autorise pas la recherche textuelle alors que Gallica se trouve être la plus grande bibliothèque numérique francophone en nombre de titres disponibles en ligne. La recherche textuelle n’est possible que dans les tables des matières, les sommaires et les légendes des corpus iconographiques, qui sont numérisés en mode texte. Seule une petite collection de livres (1.117 livres en février 2004) est intégralement numérisée en mode texte, celle de la base Frantext, intégrée à Gallica depuis ses débuts. Tous problèmes auxquels la BnF remédie au fil des mois, avec une navigation plus aisée et la conversion progressive des livres du mode image au mode texte grâce à un logiciel OCR, avec possibilité de recherche textuelle dans l’ensemble du livre.

En février 2005, Gallica compte 76.000 ouvrages. À la même date, la BnF annonce la mise en ligne prochaine (entre 2006 et 2009) de la presse française parue entre 1826 et 1944, à savoir 22 titres représentant 3,5 millions de pages. Début 2006, les premiers journaux disponibles en ligne sont les quotidiens Le Figaro (fondé en 1826), La Croix (fondé en 1883), L'Humanité (fondé en 1904) et Le Temps (fondé en 1861 et disparu en 1942). En décembre 2006, les collections comprennent 90.000 ouvrages numérisés (fascicules de presse compris), 80.000 images et des dizaines d'heures de ressources sonores.

En novembre 2007, la BnF annonce la numérisation de 300.000 ouvrages supplémentaires d'ici 2010, à savoir 45 millions de pages qui seront accessibles sur son nouveau site, simultanément en mode image et en mode texte. Le site compte 3 millions de visites en 2008 et 4 millions de visites en 2009.

En mars 2010, Gallica franchit la barre du million de documents - livres, manuscrits, cartes, images, périodiques (presse et revues), fichiers sonores (paroles et musiques) et partitions musicales – dont la plupart sont accessibles gratuitement sur un nouveau site dont l'interface désormais quadrilingue (français, anglais, espagnol, portugais) n'a cessé de s'améliorer au fil des ans. Si les documents sont en langue française dans leur très grande majorité, on y trouve aussi des documents en anglais, en italien, en allemand, en latin ou en grec selon les disciplines. En avril 2010, Bruno Racine, président de la BnF, et Steve Balmer, PDG de Microsoft, signent un accord pour l'indexation des collections de Gallica dans Bing, le moteur de recherche de Microsoft, ce qui permettra une utilisation planétaire des collections et une meilleure représentation de la langue française et de ses richesses sur une toile multilingue. En octobre 2010, Gallica propose 1,2 million de documents, la possibilité de créer un espace personnel, une vignette exportable pour consulter des images sur son site (ou son blog) et enfin un lecteur exportable pour y consulter les livres.

Table des matières