Le 4 mars 2007

Google Analytics : arme contre le cloaking ?


Google AnalyticsLe cloaking, sans doute la technique de spamdexing la moins détectable, aurait-il trouvé plus fort que lui ?

Google Analytics, le service de statistiques pour webmasters, pourrait-il servir à détecter le cloaking ? C’est en tout cas ce que semblent penser certains spécialistes de ce domaine.

Pour commencer, rien de tel qu’une définition. Le cloaking est « une technique permettant de fournir une page différente aux moteurs de recherche de celle visible par un internaute. Le cloaking consiste à détecter à chaque fois qu’une page est demandée par un visiteur s’il s’agit d’un internaute humain ou d’un robot d’un moteur de recherche, et à fournir une page différente selon les cas. L’objectif est en général de tromper le moteur de recherche en lui fournissant une page optimisée spécialement pour lui, avec par exemple un grand nombre de mots-clés répétés. » [source Dicodunet] Attention, le cloaking est prohibé par Google, comme c’est indiqué dans les guidelines. A utiliser à vos risques et périls !

Il existe plusieurs façons de réaliser un cloaking pour différencier les robots des humains. La plus simple est détecter l’agent-utilisateur (user-agent) du visiteur, et de rediriger en fonction de celui-ci. Ainsi, si l’agent-utilisateur ressemble à « Googlebot/2.1 (+http://www.googlebot.com/bot.html)« , pas de doute, c’est Google. Il est cependant simple de vérifier si une page utilise ce type de cloaking : en changeant l’agent-utilisateur du navigateur. Des extentions Firefox permettent de faire cela facilement.

Autre technique, plus complexe à mettre en place : se baser sur l’adresse IP. Il faut pour cela connaître toutes les adresses IP utilisées par les robots des moteurs de recherches, et autant dire que la liste est longue. Une fois ce système installé, il est vraiment difficile de détecter cette ruse, car pratiquement impossible d’usurper une IP de Google pour le commun des mortels. C’est ainsi qu’avait procédé une équipe pour récupérer un Page Rank 10 en 2004.

Pourtant, certains annoncent « la mort du cloaking [sur IP] ». Pourquoi ? Grâce à une découverte récente. C’est Jan qui décrit la marche à suivre :

C’est arnoweb2 qui m’a interpelé sur le forum de Webmaster-Hub. Google Analytics permet maintenant de voir le web avec les yeux de Googlebot. Nos pages cloakées, jusqu’alors réservées à Googlebot et peaufinées pour lui plaire, sont désormais accessibles à tous.

La méthode est très simple:

  • Dans Analytics, créez le profil du site web que vous voulez examiner,
  • Affichez les rapports du site ainsi créé (il n’est pas nécessaire que le marqueur ait été inséré dans les pages du site),
  • Choisissez la fonction Synthèse données/site…

… et voilà! Vous voyez la page telle que la voit Googlebot s’afficher dans l’iframe.

A priori, impossible de différencier une visite via Analytics d’un vrai crawl de Googlebot. L’user agent, l’adresse IP et l’hôte sont identiques, et comme Googlebot, Analytics se présente sans référant.

Jan a déjà trouvé une parade, en interdisant l’affichage dans une iframe…*

A quand et par qui la prochaine surenchère ? Peut-être prochainement un navigateur « Voyez votre site à la google » ou une autre astuce pour se faire passer pour Googlebot sur un site.

Edition du 4/3 à 17h40 par TomHtml :
Finalement, malgré le JavaScript utilisé pour bloquer l’affichage quand le site n’est pas diffusé dans une iframe, il est possible d’acceder au site… La preuve avec cette page de test de Jan, que j’ai réussi à visualiser malgré tous les barrages mis en place, grâce à Google Analytics :

Deux solutions possibles pour continuer à faire son cloaking tranquillement : soit bloquer l’adresse IP particulière utilisée (s’il n’y en a qu’une…), soit c’est Google Analytics qui va bientôt interdire cette utilisation si l’utilisateur n’a pas « validé » son site, c’est-à-dire prouver qu’il en est l’auteur….

Publié le 4 mars 2007 à 10:37 par dans Actualité

1 commentaire

  1. […] Les plus anciens de nos lecteurs (qu’on salue au passage !) se souviendront peut-être que nous avions utilisé cette fonctionnalité en 2007 pour contourner les systèmes de cloaking et se faire passer pour Googlebot. […]

    Backlink