Google Analytics : arme contre le cloaking ?

Google AnalyticsLe cloaking, sans doute la technique de spamdexing la moins détectable, aurait-il trouvé plus fort que lui ?

Google Analytics, le service de statistiques pour webmasters, pourrait-il servir à détecter le cloaking ? C'est en tout cas ce que semblent penser certains spécialistes de ce domaine.

Pour commencer, rien de tel qu'une définition. Le cloaking est "une technique permettant de fournir une page différente aux moteurs de recherche de celle visible par un internaute. Le cloaking consiste à détecter à chaque fois qu'une page est demandée par un visiteur s'il s'agit d'un internaute humain ou d'un robot d'un moteur de recherche, et à fournir une page différente selon les cas. L'objectif est en général de tromper le moteur de recherche en lui fournissant une page optimisée spécialement pour lui, avec par exemple un grand nombre de mots-clés répétés." [source Dicodunet] Attention, le cloaking est prohibé par Google, comme c'est indiqué dans les guidelines. A utiliser à vos risques et périls !

Il existe plusieurs façons de réaliser un cloaking pour différencier les robots des humains. La plus simple est détecter l'agent-utilisateur (user-agent) du visiteur, et de rediriger en fonction de celui-ci. Ainsi, si l'agent-utilisateur ressemble à "Googlebot/2.1 (+http://www.googlebot.com/bot.html)", pas de doute, c'est Google. Il est cependant simple de vérifier si une page utilise ce type de cloaking : en changeant l'agent-utilisateur du navigateur. Des extentions Firefox permettent de faire cela facilement.

Autre technique, plus complexe à mettre en place : se baser sur l'adresse IP. Il faut pour cela connaître toutes les adresses IP utilisées par les robots des moteurs de recherches, et autant dire que la liste est longue. Une fois ce système installé, il est vraiment difficile de détecter cette ruse, car pratiquement impossible d'usurper une IP de Google pour le commun des mortels. C'est ainsi qu'avait procédé une équipe pour récupérer un Page Rank 10 en 2004.

Pourtant, certains annoncent "la mort du cloaking [sur IP]". Pourquoi ? Grâce à une découverte récente. C'est Jan qui décrit la marche à suivre :

C'est arnoweb2 qui m'a interpelé sur le forum de Webmaster-Hub. Google Analytics permet maintenant de voir le web avec les yeux de Googlebot. Nos pages cloakées, jusqu'alors réservées à Googlebot et peaufinées pour lui plaire, sont désormais accessibles à tous.

La méthode est très simple:

  • Dans Analytics, créez le profil du site web que vous voulez examiner,
  • Affichez les rapports du site ainsi créé (il n'est pas nécessaire que le marqueur ait été inséré dans les pages du site),
  • Choisissez la fonction Synthèse données/site...

... et voilà! Vous voyez la page telle que la voit Googlebot s'afficher dans l'iframe.

A priori, impossible de différencier une visite via Analytics d'un vrai crawl de Googlebot. L'user agent, l'adresse IP et l'hôte sont identiques, et comme Googlebot, Analytics se présente sans référant.

Jan a déjà trouvé une parade, en interdisant l'affichage dans une iframe...*

A quand et par qui la prochaine surenchère ? Peut-être prochainement un navigateur "Voyez votre site à la google" ou une autre astuce pour se faire passer pour Googlebot sur un site.

Edition du 4/3 à 17h40 par TomHtml :
Finalement, malgré le JavaScript utilisé pour bloquer l'affichage quand le site n'est pas diffusé dans une iframe, il est possible d'acceder au site... La preuve avec cette page de test de Jan, que j'ai réussi à visualiser malgré tous les barrages mis en place, grâce à Google Analytics :


Deux solutions possibles pour continuer à faire son cloaking tranquillement : soit bloquer l'adresse IP particulière utilisée (s'il n'y en a qu'une...), soit c'est Google Analytics qui va bientôt interdire cette utilisation si l'utilisateur n'a pas "validé" son site, c'est-à-dire prouver qu'il en est l'auteur....

# Merci je sais pas qui pour la publication et la conclusion ;)

Écrit par Blogger TOMHTML le 4 mars 2007 16:59  
# De rien :) !

Écrit par Blogger Luka le 4 mars 2007 17:40  
# TOMHTML,
Ma pseudo parade javascript n'était pas en place sur la page http://www.actulab.com/cloaking-cracking-challenge.php

Il est donc normal qiue tu ais pu la voir sans difficulté.

Je viens de la mettre en place. Tu peux réessayer;)

Jan

Écrit par Anonymous Jan le 4 mars 2007 18:03  
# Pas en place ? pourtant ce matin j'étais bel et bien redirigé :-S
je reteste...

Écrit par Blogger TOMHTML le 4 mars 2007 18:05  
# J'obtiens désormais un
"Impossible d'accéder à la page Web : http://www.actulab.com/cloaking-cracking-challenge.php
Code d'erreur : 0"
Etrange...


tiens l'un des paramètres utilisés dans l'url est "&dtc=" :-)

Écrit par Blogger TOMHTML le 4 mars 2007 18:10  
# Ah, ça remarche, c justement le paramètre "dtc" qu'il fallait enlever ^^
ça fonctionne sans problème maintenant :)

Écrit par Blogger TOMHTML le 4 mars 2007 18:17  
# le lien vers google analytics redirige ver google.com

Écrit par Anonymous schtroumpf le 4 mars 2007 21:15  
# Oups, c'est à cause du "https", je corrigerai ça quand j'aurai le temps ;) merci

Écrit par Blogger TOMHTML le 4 mars 2007 21:41  
# google-analytics-arme-contre-le.asp :)

Écrit par Anonymous Anonyme le 5 mars 2007 02:03  
# La page sur google analytics est dans une frame donc le navigateur doit probablement envoyer une entête referer sur laquelle il est possible de se baser, en plus de la détection javascript.

Mais bon tout ça c'est dépendant du client et on peut facilement passer outre.

Écrit par Anonymous Anonyme le 5 mars 2007 02:15  
# Il est très simple de détecter les pages cloakées sans pour autant utiliser Analytics et compagnie ... Seul prérequis : le site doit autoriser le cache de ses pages par Google.

Pour Zorgloob, voilà l'url à utiliser : http://216.239.59.104/search?q=cache:www.zorgloob.com&strip=1

Benjamin Tolman

Écrit par Blogger rituel le 5 mars 2007 11:06  
# Bonjour
Oui la page est à l'origine affichée dans une iframe, mais comme le prouve ma capture d'écran de l'article, il est possible de passer outre ;)

Et comme à son habitude, Analytics ou pas, Googlebot ne donne pas d'infos sur le referer.

------
Effectivement rituel, de ce point de vue là tu as raison, mais je peux t'assurer que je suis tombé sur des pages cloakées qui arrivaient en tête des résultat et qui n'avaient pas de cache ;-)

Écrit par Blogger TOMHTML le 5 mars 2007 11:10  
# bravo à celui qui a découvert l'astuce en passant par Analytics, c'est bien trouvé.

@jan : une fois le "Code d'erreur : 0" affiché dans l'iframe, il suffit avec Firefox de faire un clic-droit > afficher ce cadre uniquement puis de retirer de l'URL le paramètre &qt=%2F

(je ne sais pas si j'en ai trop dis mais bon)

sinon je suppose qu'avec l'extension NoScript on doit pouvoir afficher la page façon Google faisant en désactivant le javascript temporairement (pas testé).

Qu'en dites-vous ?

Écrit par Blogger plagiats le 6 mars 2007 17:10  
# Avec la méthode du clic droit chez moi ça n'avait pas marché (à cause du JS, et impossible à désactiver tant qu'on est encore dans Analytics). Mais une fois l'URL trouvée (perso j'ai laissé le paramètre que tu cite, y'a pas de souci) ça fonctionne.

Apres oui on peut désactiver javascript ;-)

Écrit par Blogger TOMHTML le 6 mars 2007 18:02  
Cherchez sur Zorgloob :
Ils nous font confiance :
Florajet
Spécialiste de la monétisation d'audience
creation site internet
Acm2i, promoteur constructeur, logements neufs, résidences seniors, terrains en France et au Maroc

+ de 2 700 articles sur Google :
Au programme ce jour :

Tous les articles Zorgloob 2009
(2008 - 2007 - 2006 - 2005 - 2004)
Les Blogs Google
Les Logos Google 2009
Vos logos Google
Zorgloob Maps
Soumettre un article
Suivez nous sur Twitter

Le Casting Zorgloob :

Clicquez pour agrandir Kendos Eric Lebeau (Kendos)
Clicquez pour agrandir TomHtml TomHtml (TOMHTML)
Clicquez pour agrandir Luka Jérémy Milhau (Luka)
Clicquez pour agrandir FJ Frère Jacques (FJ)

Ils ont contribué :

David Herrgott, Sylvain Briant, Lifetec, Romain Boyer, Cédric Magnin, Cyril Slucki, Mael Le Hir, Alexis Berger, Stéphane Rangaya, Patrick Tacchini, Etienne Deparis, Bertrand Pautrot

Si vous avez des actions Google :

Clicquez pour agrandir

Nos records de fréquentation :

40 665 visites/jour
94 511 pages vues/jour
Clicquez pour agrandir les Stats
566 512 visites (Mars 2008)
1 391 395 pages vues (Janvier 2008)

Allez y de notre part :

Zuneo
Webrankinfo
Google Blogoscoped
Google Operating System
Google Watch Blog