Identifier la date de publication d'une page ou d'un site Web

Lorsque l’on navigue sur le Web et que l’on découvre de nouvelles ressources, on s’interroge souvent sur leur date de mise en ligne, a fortiori lorsque l’on souhaite communiquer sur ses découvertes... Si ces questions trouvent aisément des réponses sur les blogs ou les sites d’actualités, qui indiquent en général la date de publication des billets et articles, il est en revanche plus difficile de savoir quand a été lancé un site web, lorsqu’aucune information n’est donnée dans la rubrique «A propos...». 

Nous verrons dans cet article un certain nombre de méthodes et astuces qui, si elles ne fonctionnent  malheureusement pas pour tous les sites, peuvent néanmoins s’avérer efficaces dans de nombreux cas, et peuvent aider à se faire une idée de la date – même approximative – à laquelle a été lancé un site, ou ajouté une page. 

Nous avons identifié trois méthodes susceptibles de donner des indications sur la date de mise en ligne d’une page ou d’un site web. 

Chacune de ces méthodes possède des atouts et des limites, et il est souvent nécessaire de tester plusieurs de ces pistes pour recouper les informations obtenues. Nous illustrerons les résultats que peuvent donner ces pistes en tentant de répondre à la question «à quelle date (approximative) a été lancé le site de FLAConsultants, accessible à l’adresse www.fla-consultants.com ». 

En naviguant sur le site de FLA Consultants, on trouve dans la rubrique Nous connaître > Nos consultants > François Libmann, dirigeant de FLAConsultants des informations sur la date de création de la société (1977), mais rien n’est indiqué sur la date de lancement du site web. Des premières indications sur cette date pourront être obtenues via les bases whois. 

INTERROGER UNE BASE «WHOIS» 

Le préambule obligatoire à la mise en ligne d’un site web est le choix d’un nom de domaine et son enregistrement auprès d’un «registre» internet. 

 Les registres sont des organismes habilités par l’Icann pour gérer un nom de domaine de «premier niveau» («top level domain» ou TLD), qui peut être générique – on parle alors de «gTLD», par exemple .com, .gov, .edu, .aero, .biz, .travel...– ou national (ce sont dans ce cas des «ccTLD», comme .fr pour la France, .be pour la Belgique...). 

Chaque registre est en charge d’un TLD spécifique – l’Afnic est ainsi responsable des noms de domaine en .fr –, et rassemble dans une base de données l’ensemble des noms de domaine enregistrés. L’interrogation de ces bases peut donc être fort utile pour l’internaute, puisqu’elles contiennent, pour chaque nom de domaine, des informations plus ou moins complètes sur le déposant, la date de dépôt, etc. On signalera cependant que les formats proposés comme les modes de recherche peuvent varier d’une base à l’autre. 

L’accès à ces informations se fait via des services de type «whois» (contraction de «who is?»), qui peuvent être : 

• disponibles sur les sites web des registres ; depuis le site de l’Afnic (www.afnic.fr) par exemple, on peut vérifier la disponibilité des noms de domaine en .fr, .com.fr, .gouv.fr... et obtenir pour un nom de domaine donné des informations sur la date de création, les coordonnées du déposant, du contact administratif, technique... On trouvera sur le site http://goo.gl/rZ9zv une liste des différents registres internet dans le monde ; 

• accessibles via des interfaces permettant d’interroger simultanément plusieurs registres
Ces interfaces sont proposées le plus souvent par les bureaux d’enregistrement ou «registrars», à savoir des sociétés ou associations habilitées à réserver des noms de domaine internet pour le client final. On trouve parmi ces «registrars» des sociétés comme OVH, Gandi, 1&1... et Google qui, depuis 2005, peut vendre des noms de domaine en .biz, .com, .info, .net... (notamment via sa plateforme de blog Blogger). 

Parmi ces interfaces, nous apprécions plus spécialement celle offerte par la société de référencement Raynette (www.whois-raynette.fr) et celle de DomainTools (//whois.domaintools.com) qui propose, en complément des informations traditionnelles, d’autres données cette fois-ci sur une base payante, comme les changements d’adresse IP, les différents noms de domaine déposés par un même déposant, etc. 

Quelle que soit la base whois interrogée, celle-ci est susceptible de donner des indications sur la date de mise en ligne d’un site web, puisqu’elle précise la date de création du nom de domaine. 

Une recherche sur «fla-consultants.com» indique par exemple que le nom de domaine a été enregistré le 17 octobre 2001. Si l’on ne peut pas connaître pour autant la date de mise en ligne effective du site, cette information donne des indications précieuses sur l’antériorité du nom de domaine. 

Bases whois : les limites S’il est possible de trouver relativement facilement un minimum d’information sur n’importe quel nom de domaine dans une base whois, les données fournies ne sont pas toujours complètes ni à jour. 

Quelquefois en effet, le «registrar» est l’intermédiaire et ce sont alors ses adresses postales et téléphoniques que l’on retrouve sous le nom du déposant (qui, lui, figure toujours), du contact technique, etc. 

D’autres fois, la fiche indique bien les coordonnées de la société, mais les données ne sont pas à jour et le nom des représentants a pu changer. 

Quoi qu’il en soit, les bases whois donnent souvent des premiers éléments de réponse sur le responsable d’un site web et l’antériorité de celui-ci, et constituent à ce titre des outils précieux. 

CONSULTER LES «ARCHIVES» DU WEB 

L’un des projets les plus impressionnants du Web est sans doute celui d’Internet Archive, une organisation à but non lucratif consacrée à l’archivage du Web qui, à l’instar de la Bibliothèque d’Alexandrie, a pour objectif de permettre un accès universel à l’ensemble de la connaissance. 

Parmi les trésors de cette bibliothèque, figure la «Wayback Machine» (http://archive.org), qui propose rien moins que les copies de 150 milliards de pages web, depuis 1996. 

Lorsque l’on souhaite connaître la date de lancement d’un site web et/ou ses évolutions au fil des ans, on peut interroger The Wayback Machine en inscrivant dans la zone de saisie l’URL de son choix. 

Une recherche avec «www.fla-consultants.com» affiche un histo-gramme précisant les dates auxquelles le site a été crawlé (67 fois en tout), la première copie étant celle du 16 février 2002, la dernière datant du 7 février 2011. 

On peut cliquer sur les dates proposées et afficher les pages telles qu’elles étaient à ce moment là. C’est là un excellent moyen de retrouver les copies de pages qui ont disparu du Web, même si bien évidemment, tous les sites ne sont pas indexés par The Wayback Machine (qui annonce malgré tout archiver les copies de 420 millions de sites !), et que les sites crawlés le sont de façon plus ou moins épisodique... 

Pour le site de FLA Consultants, on dispose des copies des deux premières versions du site, la première ayant été indexée quelques mois tout au plus après sa mise en ligne. La troisième et dernière version du site en revanche, lancée en novembre 2011, n’a pas (encore ?) été copiée... 

On signalera enfin qu’il existe des extensions Firefox permettant de simplifier l’interrogation de ces deux outils. 

Après l’installation du plugin SEOpen (seopen.com/firefox-extension/) par exemple, il suffit d’un clic droit sur une page web pour ouvrir, dans une nouvelle fenêtre, les résultats d’une recherche sur cette page dans une base whois (DomainTools.com) et dans Archive.org. 

LA RECHERCHE PAR DATE DES MOTEURS 

Nous avons déjà parlé dans nos colonnes de la possibilité qu’offrent certains moteurs – et notamment Google et Exalead – d’affiner les résultats selon la date de publication des pages (cf «Tirer parti de la colonne d’outils de Google», Netsources n°95, novembre-décembre 2011). 

Cette date de publication, qui a longtemps été la date de mise à jour par les robots est, d'après Google, estimé à partir de diverses informations, telles que la date à laquelle la page a été indexée pour la première fois par Google. 

Cette date n'est donc pas totalement exacte et il peut y avoir selon les sites un certain décalage – voire un décalage certain ! – entre la date de mise en ligne du site sur le Web et la date de la première indexation par les robots du moteur, surtout lorsqu'il s'agit d'un "petit" site lancé discrètement et sans optimisation du référencement. 

Cette fonctionnalité s'avère néanmoins précieuse pour identifier les résultats récents d'une recherche récurrente – Google propose ainsi de restreindre la sélection aux pages publiées depuis moins d'une heure, moins de 24h, moins d'une semaine, moins d'un mois, moins d'un an...–, ou encore pour savoir ce qui s'est dit sur le Web à une période précise : sur Google, l'option "Période personnalisée" permet en effet de limiter la recherche aux pages web publiées entre deux dates données, ou à une date précise. 

On accède à cette fonctionnalité, sur Google, en cliquant sur le lien "Plus d'outils" de la colonne de gauche et en choisissant l'option de son choix, dans le module "Date". 

Sur Exalead, il suffit d'utiliser, en complément des termes de sa requête, les opérateurs after:jj/mm/aaaa et/ou before:jj/mm/aaaa. 

Si cette fonctionnalité a pour usage premier de restreindre la sélection aux pages publiées à un moment donné, cet usage peut être "détourné" pour découvrir dans certains cas la date de publication d'une page ou d'un site précis

Il suffit pour cela de saisir comme requête l'adresse de la page en question, puis d'utiliser la fonction de recherche par date, en indiquant par exemple after:01/01/2001 sur Exalead, ou en choisissant sur Google "Période personnalisée" Début : 01/01/2001 (ou toute autre date de son choix). Pour être plus précis, la recherche peut aussi être lancée sous la forme site:nom_du_site.com, pour restreindre les résultats aux seules pages du site. 

Nous avons eu l’occasion de tester cette méthode dans le cadre de la rédaction d’un article concernant la banque de données Epicea de l’INRS, pour la lettre mensuelle BASES. 

Accessible sur le site de l’INRS, depuis le module «Bases de données» (qui rassemble 17 bases au total), Epicea contient les fiches descriptives anonymisées de 18 000 cas d’accidents du travail. Elle dispose d’une page de présentation, de deux grilles de recherche (simple et avancée) et d’une rubrique «En savoir plus sur Epicea», qui précise que la base existe depuis 1988, mais qu’elle a longtemps été un outil de travail interne. 

Rien n’indique en revanche la date de mise à disposition de cette base au grand public, et les recherches que nous avons pu faire sur un moteur avec des termes tels que inrs epicea lancement... se sont avérées vaines. 

Nous avons donc lancé une recherche sur Google avec l’URL d’Epicea (www.inrs.fr/ accueil/produits/bdd/epicea.html), puis nous avons indiqué dans la colonne d’outils le choix «Période personnalisée - Début : 01/01/2001».

Nous aurions également pu poser la question en indiquant, à la place de l’URL exacte, site:inrs.fr inurl:epicea. La première réponse obtenue est la page d’accueil d’Epicea et contient, sur la gauche de l’extrait, la mention «1 févr. 2007». 

Pour vérifier la cohérence de cette réponse, nous avons interrogé Google avec la requête inrs epicea, en limitant la recherche à la période 01/01/2007 - 01/07/2007, espérant ainsi trouver des articles mentionnant le lancement de cette base. Nous avons identifié quelques rares mentions de ce lancement, parmi lesquels : 

• une page du site «Biotechno pour les Profs», datée du 9 février 2007, qui indique «Une nouveauté intéressante pour nos préparations de cours : la base de données EPICEA des Accidents du travail est en ligne sur le site de l’INRS»... 

• une page du site Inforisque.info, datée du 16 avril 2007, signalant que «En ce début d’année, l’INRS a décidé de permettre la consultation en ligne d’EPICEA, sa base de données d’accidents du travail» ; 

• la lettre d’information de l’INRS, datée par Google du 9 février 2007 (mais le document PDF n’indique que la mention «Février 2007»), qui indique que «L'INRS ouvre un accès en ligne "grand public" à la base de données EPICEA décrivant plus de 15 000 accidents du travail graves ou mortels.».

La date proposée par Google semble donc proche de la réalité. Pour le vérifier, nous avons posé la question au service en charge de la base Epicea, à l’INRS. Leur réponse a validé la méthode, puisque la base a été mise en ligne... le 1er février 2007 ! 
Une information qu’il aurait été impossible de trouver autrement ! 

Si Google est capable, dans certains cas, d’identifier la date de mise en ligne d’un site ou d’une page, les informations proposées ne sont néanmoins pas toujours exactes. 

Les différents tests que nous avons effectués nous montrent en effet que : 

• Google a souvent une très bonne réactivité, et pour de nombreux sites, la date indiquée correspond – à quelques jours près – à la date de création du nom de domaine, telle qu'elle est mentionnée dans des bases whois telles que Domaintools.com ; 

• lorsque le site a connu une refonte majeure, la date indiquée est celle de la mise en ligne de la nouvelle interface ; il peut donc y avoir des écarts très grands avec la date de première mise en ligne du site. Une recherche sur l’adresse «www.fla-consultants.com» par exemple, avec comme période «depuis 01.01.2001», nous indique comme date de lancement 22 novembre 2011. Or, le site a été lancé en octobre (ou novembre) 2002. La date indiquée par Google est en fait celle du lancement de la troisième version. Une information qui vient compléter les renseignements trouvés dans les bases whois et dans Archive.org... 

• lorsque le site contient des articles clairement datés, cette date est quelquefois prise en compte par Google dans l’estimation de la date de mise en ligne. Bases Publications a ainsi lancé en avril 2012 le blog Bases-Netsources.com, qui contient les articles de Bases et de Netsources de plus d’un an (voir Netsources n°97). 

Sous chaque article, figure la mention du numéro et de la date à laquelle l’article a été publié (sous forme papier), comme par exemple «Publié dans le n°86 de Netsources (Mai/Juin 2010)». 

Dans ce cas, la date indiquée par Google n’est pas la date de mise en ligne de l’article sur le Web, mais sa date de publication sous forme papier ; pour un article paru dans le n°86 de Netsources par exemple, Google indique 15 juin 2010. En revanche, les pages de présentation du blog sont correctement datées du 18 avril 2012 (date de mise en ligne). 

A condition de rester vigilant et de recouper les informations (en interrogeant les base whois...), on peut donc utiliser ces méthodes de façon efficace, pour connaître la date de mise en ligne d'une page ou d'un site. 

On signalera enfin que cette recherche de date de publication peut être demandée à Google directement depuis la page de résultats, sans utiliser la colonne d'outils, en saisissant directement à la fin de l'URL la commande "&as_qdr=y15" (le 15 signifiant "depuis 15 ans").



Béatrice Foenix-Riou
Publié dans le n° 99 de Netsources (Juillet-Août 2012)

Aucun commentaire:

Enregistrer un commentaire