Plus de 1000 milliards de pages web disponibles sur Internet Archive

François LIBMANN
Blog du
31 décembre 2025
118
Plus de 1000 milliards de pages web disponibles sur ... Image 1
Plus de 1000 milliards de pages web disponibles sur ... Image 1

Dans un récent billet de blog Chris Freeland, un des directeurs d’ Internet Archive a annoncé que ce site avait dépassé le cap du billion (1000 milliards) de pages stockées et a engagé toutes les bibliothèques du monde à célébrer cet événement qui est le fruit d’un effort collectif pour préserver notre histoire numérique.

Internet Archive a franchi un cap historique : courant octobre dernier, le cap des mille milliards de pages stockées soit l’équivalent de 21,3 millions de DVD a été franchi (mille milliard se dit billion en français et trillion en anglais (!)).

Ce site avait vu le jour en 1996, année qui coïncide avec l’arrivée d’Internet en France, pour pallier le manque d’archives du web alors que la presse était bien archivée depuis fort longtemps.

Ce "billion" de pages est accessible via la Wayback Machine,  le service d’Internet Archive qui donne accès au contenu web archivé sous forme de « machine à remonter le temps ».

On trouve également dans cette gigantesque archive d’autres types de documents : des ouvrages (49 millions), des enregistrements audio (13 millions, dont 268 000 concerts) des vidéos (10 millions, dont 3 millions de journaux télévisés), 5 millions d’images et un million de logiciels.

On peut se demander à quoi tient la différence des ordres de grandeur avec le chiffre précédent. En fait, les pages stockées sont des clichés instantanés de pages web alors qu’un ouvrage est compté pour une seule unité quel que soit son nombre de pages.

La digitalisation des livres a commencé en 2005 et aujourd’hui 4 400 livres sont digitalisés chaque jour dans 20 endroits différents de la planète, mais cette digitalisation des livres soulève des problèmes juridiques non résolus à ce jour après plusieurs contentieux.

Par ailleurs, Il faut préciser qu’une partie importante des documents présents dans la Wayback Machine ont été publiés bien avant 1996, date de lancement du site. En effet, on trouve, par exemple, de nombreuses archives numérisées par des universités du monde entier.

Le plus ancien document archivé est une carte de navigation datant de l’année 1 380. Elle a été visualisée plus de 500 fois.

On est agréablement surpris de trouver dans ce site une recherche avancée sophistiquée qui permet d’effectuer des recherches très précises. On trouve aussi une série de stratégies prêtes à l’emploi, élaborées pour répondre à des problématiques classiques.

Il est également possible de rechercher par grandes collections, il y en a plus de 10 000. Sur la page d’accueil du site, sous le titre Top collections, on peut faire défiler les vignettes présentant les collections à raison de cinq par ligne. Nous ne sommes pas arrivés à la fin de ce défilement…

On trouve une grande variété de collections. Pour chacune sa taille en nombre de documents est indiquée. On peut aussi identifier les collections sur lesquelles se focaliser en faisant une première recherche et en notant les collections qui apparaissent dans la colonne à gauche des réponses.

Ce site est réalisé grâce à la collaboration de plus de 1 250 bibliothèques dans le monde entier qui, grâce au programme Archiv-It sélectionnent et mettent en forme les pages intéressantes du Web. Il est possible également de proposer des pages à archiver. 498 millions de pages sont ajoutés quotidiennement sachant que 800 000 personnes du monde entier s’y connectent chaque jour.