Le livre 010101 (1971-2015)

Le web booste l’internet

La préservation de l’internet

Que faire pour garder une trace d’un médium aussi changeant? L’archiver, à savoir constituer, stocker, préserver et gérer une archive de l’internet. L’Internet Archive est fondée en avril 1996 par Brewster Kahle à San Francisco pour sauvegarder et stocker la totalité du web tous les deux mois, afin d’offrir un outil de travail aux universitaires, chercheurs et historiens, et de préserver un historique de l’internet pour les générations présentes et futures. L’Internet Archive se présente d’abord comme «une bibliothèque de l’internet» avant de se présenter comme «une bibliothèque numérique à but non lucratif destinée à procurer un accès universel au savoir humain».

Comme expliqué en 1999 sur le site, de tout temps les sociétés ont voulu préserver leur culture et leur héritage pour les générations présentes et futures. Les bibliothèques ont donc eu pour vocation de conserver les traces écrites de ces cultures et de ces héritages, et d’en procurer l’accès au grand public et aux chercheurs. Il paraît donc essentiel qu’elles étendent leur mission aux nouvelles technologies. Paradoxalement, le travail de sauvegarde a souvent été bâclé au début du 20e siècle. Nombreux ont été les premiers films qui ont été «recyclés» - et donc définitivement perdus - pour récupérer la couche d’argent présente sur la pellicule. Nombre d’émissions de radio et de télévision n’ont pas été conservées. Il importe donc de ne pas reproduire la même erreur pour l’internet, et particulièrement pour le web, un nouveau médium dont la portée, immense, est encore méconnue en 1996. C’est la raison d’être de l’Internet Archive.

En octobre 2001, avec 30 milliards de pages archivées, l'Internet Archive met ses archives en accès libre sur le web grâce à la Wayback Machine, qui permet à tout un chacun de voir l'historique d'un site web - à savoir sa présentation et son contenu à une date donnée - théoriquement tous les deux mois depuis avril 1996, date du début de l’archivage. En 2004, les archives du web représentent plus de 300 To (téra-octets) de données, avec une croissance de 12 To par mois. La Wayback Machine permet d’accéder à 65 milliards de pages web (provenant de 50 millions de sites web) en décembre 2006, 85 milliards de pages web en mai 2007 et 150 milliards de pages web en mars 2010.

Au début des années 2000, l’Internet Archive débute aussi la constitution de collections numériques spécifiques, par exemple le Million Book Project (10.520 livres en avril 2005), les films de la période 1903-1973, des concerts live récents, une collection de logiciels, l’ensemble des sites relatifs au 11 septembre, l’ensemble des sites concernant les élections américaines de 2000 (présidentielles) et de 2002 (élections du Congrès et des gouverneurs des États), les sites relatifs aux pionniers du web, etc. Toutes ces collections sont en consultation libre sur le site. En octobre 2005, l’Internet Archive lance un vaste chantier avec quelques partenaires, à savoir une bibliothèque planétaire publique respectueuse du droit d’auteur (contrairement à Google Books) et sur un modèle «ouvert» (consultable sur tout moteur de recherche).

Table des matières