Le 19 octobre 2011

Google passe en HTTPS, un drame pour les statistiques


Google passe en HTTPS, un drame pour les statistiques

Ce qui devait arriver arrivera dans quelques jours…

Google a annoncé ce soir sur son blog officiel la transition d’ici quelques jours de tous les utilisateurs connectés vers la version sécurisée du moteur. Cela va améliorer la sécurité des utilisateurs, mais poser d’autres problèmes pour les éditeurs de sites…

Jusqu’à présent, pour accéder à Google via le protocole HTTPS il fallait utiliser l’adresse https://encrypted.google.com. Google va transformer cette URL en https://www.google.com, notez que seul le « s » du protocole la différencie de son adresse habituelle. Actuellement une redirection est faite vers l’ancienne adresse mais ce ne sera plus le cas dans quelques jours. Tous les utilisateurs connectés seront redirigés vers la version sécurisée, comme c’est le cas avec Gmail.

Google disponible en HTTPS

Google disponible en HTTPS

Pour justifier ce changement, Google met en avant un argument intéressant : les résultats sont de plus en plus personnalisés pour les utilisateurs connectés (basés sur les services activés et l’historique de recherches notamment) et il est nécessaire de sécuriser leur connexion. La firme californienne aimerait ainsi que ses utilisateurs soient connectés en permanence, et même sur les réseaux wifi publics.

La majorité des internautes ne se rendront même pas compte du changement, d’autant plus qu’il ne s’accompagne pas d’un doodle personnalisé comme c’était le cas auparavant. Mais certains, plus nombreux qu’on pourrait le penser, vont vite s’en rendre compte. Tout d’abord, parce que les sites en HTTPS sont légèrement plus long à répondre que ceux en HTTP – bien que pour contre-carrer cela Google utilise des méthodes de sioux nommée TLS false start et le protocole SPDY pour Chrome. Le protocole sécurisé peut également bloquer complètement l’accès au site à cause de mauvaises configurations navigateurs/proxy comme c’est le cas depuis plusieurs mois avec certains utilisateurs de Google Chrome.

Le principal problème à signaler concernera les éditeurs de sites web et tous ceux amenés à consulter des statistiques. Quand ce changement de protocole sera mis en place, il ne sera plus possible de récupérer les mots-clé tapés par les internautes dans Google(.com) pour accéder à votre à site ! Seuls les sites complètement en HTTPS continueront de recevoir cette donnée. Le problème impactera donc tous les éditeurs de solutions d’analyse d’audience : XiTi, Omniture, et même Google Analytics. Comme nous vous l’expliquions dès le lancement de Google sécurisé en mai 2010, cette perte d’information est due à la nature même du protocole HTTPS qui n’autorise pas la transmission du referer, l’adresse de la page précédente.

Pour tenter de calmer les critiques déjà nombreuses, l’équipe d’Analytics a annoncé il y a peu la remontée des données principales de Google Webmaster Tools dans l’outil de mesure d’audience. Toutefois, cela reste particulièrement bancal, puisque l’outil ne garde la trace des mots-clés que pendant 30 jours. Et il n’y a plus l’association faite entre les utilisateurs et leurs requêtes, l’analyse fine du parcours des internautes en fonction de leurs recherches devient impossible. Par ailleurs, cela implique que Google sera le seul à détenir les informations sur les requêtes des internautes, ce qui obligera tous ceux qui ne l’ont pas encore fait à ajouter leurs sites à Google Webmaster Tools pour récupérer ces maigres données.

Et peut-être que Google proposera à l’avenir de payer pour accéder à toutes ces données qui ne sont plus transmises à Analytics, qui sait ?

Mise à jour du 19 octobre à 16h18 : contrairement à ce qui a été avancé dans cet article, le referrer ne sera pas complètement perdu avec ce changement. Cela est dû au fait que le traitement utilisé pour amener l’utilisateur de « Google HTTPS » vers le résultat en HTTP n’est pas le même selon qu’on utilise https://encrypted.google.com/ ou https://www.google.com/. Techniquement, dans le premier cas on passe directement* du moteur au site « http », d’où la perte complète du referrer, alors que dans la solution adoptée pour le fameux changement Google passe par une page intermédiaire en HTTP pour rediriger en JavaScript l’internaute vers le site demandé. Cela signifie que l’argument sécuritaire de Google tombe à l’eau puisque qu’on peut retrouver la requête Google et d’autres infos en HTTP, non sécurisé !
C’est au cours de ce passage vers la page intermédiaire que le paramètre d’URL contenant les mots-clés (« q= ») est supprimé. C’est un acte volontaire de Google, nullement lié à une contrainte technique, ce qui tend à renforcer l’hypothèse que Google se réserve cette information. Pour la revendre et/ou pour forcer les webmasters à utiliser Google Webmaster Tools ?

(*) Ou presque, puisque dans les pages de résultats on ne clique jamais sur un lien menant directement au site voulu, mais par une page intermédiaire (ici, toujours en HTTPS) qui permet à Google de garder une trace du lien sur lequel vous avez cliqué.

Publié le 19 octobre 2011 à 1:09 par dans Actualité

Labels : , , ,

35 commentaires

  1. Ber a dit :

    Cela va être problématique pour notre travail. Google ayant le monopole, il y a de forte chance que l’on passe sur un service payant, ces données sont trop importantes pour les webmarketers.

  2. Julien L a dit :

    Personnellement, je suis pleinement satisfait de cette politique.

    L’intégralité des sites devraient être en HTTPS depuis longtemps. Ça permettrait de compliqué un peu le travail de ceux qui veulent espionner nos faits et geste sur internet ! (DPI inside)

    Tant pis pour les « gourous du référencement » qui ne pourront plus prendre leur pied en admirant leur stats analytics.

  3. JP a dit :

    a nous de travailler différemment et de nous adapter…

  4. J-C_M a dit :

    Oui le moins que l’on puisse dire c’est que ça risque de faire tilter certains de mes clients 😉

    Même si d’après l’article original sur le blog google il semblerai que ça reste uniquement pour le domaine en .com… pour l’instant !

  5. Eloka a dit :

    Google Analytics propose une mine d’information sur nos visiteurs et la perte des mots-clés de nos visiteurs est difficile à digérer, à moins bien sûr de payer pour avoir ces données.

    À nous marketeurs de trouver des alternatives à ce changement.

    Il existe encore des solutions comme semrush.com qui nous propose, entre autres, les campagnes adwords de nos concurrents, c’est toujours ça de pris.

  6. […] d’infos sur Zorgloob. Ce billet, sauf mention contraire, est publié sous la licence suivante : Creative Commons […]

    Backlink
  7. Miaou a dit :

    « Quand ce changement de protocole sera mis en place, il ne sera plus possible de récupérer les mots-clé tapés par les internautes dans Google(.com) »

    « Trop dure pour elles »…

    Pour ma part, je surfe le plus possible en HTTPS grâce aux extensions Firefox HTTPS-Everywhere et HTTPS-Finder, j’utilise Scroogle en SSL, j’ai désactivé le referer dans Firefox, je bloque tous les cookies et ne les autorise que pour les authentifications, bloque tous les webtrackers (scripts JS et webbugs) avec AdBlockPlus.

    Les marketeux n’ont pas à connaître mon historique de navigation, ne leurs en déplaise.

  8. Maison a dit :

    L’un des avantages des adwords est la remontée des requêtes tapées par les internautes. Au vu des évolutions annoncées, aurons nous toujours ses données ? Quoi qu’il en soit, je connais peu de personnes connectées à leur gmail en permanence. Beaucoup en ont marre de voir les résultats biaisés par ce qu’ils ont pu faire avant…

  9. Michael N. a dit :

    Le sujet fait débat sur la toile. Pour le moment les réactions se font à chaud et évidemment ça part dans tous les sens.

    Une question par rapport à votre billet:
    « Seuls les sites complètement en HTTPS continueront de recevoir cette donnée »

    C’est sûr et certain? Donc les possesseurs de site en HTTPS ne souffriront pas de ce changement?

    Intéressant…

  10. Laurent a dit :

    Les possesseurs de site en HTTPS verront bien un changement : le mot-clé (ou en d’autres termes le paramètre q=) sera effacé.

  11. Le centre de l’utilisation d’internet est l’utilisateur. Pas le marketeur. C’est une décision qui va avoir d’abord et avant tout un impact positif pour l’utilisateur en termes de sécurité et de protection de la vie privée.

    C’est au marketeur de s’adapter à l’utilisateur, pas à l’utilisateur de s’adapter au marketeur.

    Remettons l’église au milieu du village, s’il vous plait.

  12. TOMHTML a dit :

    Pour les sites en HTTPS, le referer est bien transmis puisque cette information est perdue uniquement quand on quitte le protocole sécurisé. Je ne suis pas certain de ce que tu avances Laurent, qu’est-ce qui te fait croire que c’est ce que va faire Google ?

    Concernant AdWords, l’information sur les mots-clés devrait continuer à être transmise… à Adwords, puisque qu’elle passe par les redirections d’URL de Google. Mais là aussi je doute que le referer soit passé au site final.

    Miaou, n’oublie jamais que les analyses d’audience ne s’intéressent pas à des personnes en particulier mais à l’ensemble de leurs comportements. Ce n’est pas une violation de la vie privée ou quoi que ce soit de ce style puisqu’il n’y a aucun intérêt à tracker le comportement d’un visiteur précis. Et enfin, HTTPS ou pas, l’adresse IP continue d’être transmise donc cela n’est pas spécialement un avantage supplémentaire pour l’internaute — hormis les problématiques de DPI, bien évidemment.

  13. Marco a dit :

    Que l’utilisateur soit au centre des pré-occupations, pas de soucis, mais n’oublions pas que le plus gros acteur marketing dans ce petit jeux la ne sont pas les autres sites tiers qui éventuellement perdrons pas mal de données (qui elles servent également à améliorer l’expérience utilisateur, donc qui étaient également positive pour les internautes), mais bien Google.

    Maintenant, on verra bien quelles seront les étapes suivantes de développement pour Google, attendons de voir avant de crier au loup.

  14. […] nouveauté, présente également dans la version HTTPS de Google, devrait faire baisser le nombre de visites sur les sites présents sur ces pages de résultats. […]

    Backlink
  15. Johnm a dit :

    C’est n’importe quoi de dire que le referer est perdu. À ma connaissance lorsque l’on clique sur un résultat Google, on est d’abord redirigé sur une adresse genre http://www.google.com/url?url= qui n’est pas cryptée (même si on était sur https://google.com pour la recherche) !

  16. On ne peut que se plier aux constants changements de Google (après Google Panda, on passe à l’https.. Et pour demain? )
    Bref à défaut d’avoir des données détaillées sur les mots clefs via Google Analytics, chacun trouvera un moyen adapté à ses besoins ! C’est le jeu, JP a raison, à nous de travailler différemment.

    L’adaptation est la clef du succès sur Internet.

  17. TOMHTML a dit :

    Bien vu Jonhm, il y a une différence majeure entre « https://www » (qui n’était pas dispo quand j’ai rédigé l’article) et « https://encrypted », c’est justement que sur cette dernière adresse les liens des SERPs sont réécris en https://www.google.com/url?url= et non pas http comme dans l’exemple que tu donnes.
    Ça change pas mal de choses.
    Je vais étudier pourquoi il n’y a pas d’alerte de sécurité quand on clique sur un lien qui quitte directement le protocole https…

  18. Johnm a dit :

    À noter que l’adresse en http://www.google.com/url? etc. générée à la volée en JavaScript. Si on désactive JavaScript, on a par contre bien les liens des sites en dur sur https://www.google.com/search/?q etc.

    Donc cet article s’avère juste (pas de transmission du Referer) si l’internaute surfe SANS JavaScript ET avec la version SSL de Google Search. Soit pas grand monde 😉

  19. Laurent a dit :

    Pardon de ne pas avoir lu les commentaires plus tôt, TOMHTML.
    Google va donc rediriger vers un http en supprimant au passage le q= du referrer, c’est comme cela qu’on peut en déduire le mot-clé « not provided ».

    Si on était en pur https vers http, on perd le referrer, donc on n’a rien, on est en trafic direct, et on perdrait du coup l’information globale : impossible de savoir qu’on vient de l’organique.

  20. Laurent a dit :

    (d’ailleurs c’est ce qui se passe quand on est sur encrypted.google.com : on perde le referrer, donc visite directe, pas google organique)

  21. TOMHTML a dit :

    Parfaitement d’accord avec toi John 😉 Mais n’empêche que les problématiques citées restent d’actualité, c’est juste qu’au lieu de perdre « site de provenance + mots-clés entrés » (les deux seules infos utiles) on perd juste « mots-clés entrés ».
    Par conséquent, le fait de perdre les mots-clés dans les referrers est entièrement dû à l’initiative de Google. L’hypothèse de la revente ou de la rétention volontaire d’information s’en trouve renforcée.

    PS : pas d’avertissement HTTPS->HTTP car ça passe par un JavaScript + Meta-refresh (!)

  22. TOMHTML a dit :

    Oui Laurent tu as raison, j’ai découvert entre-temps qu’il y a une différence de traitement entre les deux versions de HTTPS chez Google. Je vais mettre à jour l’article.

  23. Denis a dit :

    Je mets le même commentaire que sur le blog d’Olivier Andrieu. Dans la mesure où l’analyse se fait à partir du referer, en quoi le fait de crypter le flux entre l’internaute et Google change quoi que ce soit pour les outils d’analyse ? A ce que je sache, l’adresse du referer, elle, n’est pas encore cryptée !

  24. TOMHTML a dit :

    Ce n’est pas qu’elle est cryptée, c’est qu’elle n’est pas du tout transmise !

  25. […] lire aussi : google passe au https , un drame pour les statistiques […]

    Backlink
  26. […] Le moteur de recherche Google passe en HTTPS, impact SEO et analytics, v/ @Zorgloob. Par Jean-Pierre GOVEKAR  Chargement … Tags : e-réputation, […]

    Backlink
  27. tom a dit :

    Revolution !!! Let’s hack Google !!!! My Friennndds !! … hum wait, it’ s behind SSL now :/

  28. Jérémy a dit :

    Je tiens à signaler au passage que le respect de la vie privée est un argument à double tranchant sachant qu’aucune donnée sous analytics est rattachée à un visiteur en particulier …

    Aller hop tous sur Bing … hohoho

  29. niss a dit :

    et malgré notre insatisfaction on ira encore faire nos recherches sur Google…

  30. Annuaire a dit :

    Bonjour,

    Cette annonce de Google est pour le moins inacceptable, dans la forme actuelle, ou il s’autorise a imposer d’office un protocole sécurisé sur une autre partie de navigation du compte Google.

    En privant le monde d’internet d’une partie de données essentielles, en manipulant en supplément les protocoles pour « personnaliser » le « referer » et vous prévenir à la Google qu’il est « vide » (…sympa, on est pas dans l’ignorance comme cela …), Google refait à lui seul les bases protocolaires de l’internet.

    Avec les annonces d’installation de réseaux en Europe et les multiples projets de Google, la coupe est proche de déborder, si ce n’est déjà fait.

    Les pages entreprises vont êtres proposés en force, comme cela a été fait avec les Google adresses qui ont été imposées aux internautes, en énorme paquet bien au début des pages de résultats, même si elle ne contenaient en réalité que des infos de base et parfois vide …

    Avec les pages entreprises et les comptes employés, les projets de CLOUD, le nombre de connexion à partir de compte en https va exploser. Google tempère en annonçant seulement 10% de pertes de données et mots clés, mais ce nombre , au lancement de l’offensive entreprise, va grimper très vite au delà des 30% d’ici fin 2012, avec des pointes quotidiennes importantes dues aux connexions en journée et sur le lieu de travail, des futurs comptes entreprises …

    Ont ne peut pas tolérer une rétention qui s’approche du « racket » de 20 ou 30% du référer de la visite de nos sites, informations vitale pour certains sites, qui seront la propriété unique et commerciale de Google.

    il n’est pas impossible qu’une levée de bouclier s’élève contre cette action, et pourrait conduire certains sites a rejeter les visiteurs provenant de referer non remplis et non conventionnel.

    Il n’est pas non plus impossible que la justice intervienne dans ce débat.

  31. […] si vous avez suivi l’affaire de la version sécurisée du moteur de recherches qui ne passe plus le référer – donnée précieuse pour les statistiques – sachez que contrairement à ce qu’avait […]

    Backlink
  32. […] http://www.zorgloob.com/2011/10/19/google-full-https/   Like it too? […]

    Backlink
  33. […] sanctions. Malheureusement, cela va se terminer, nous le craignons, de la même manière que pour l’affaire des referrers qui ne sont plus transmis par Google (encore un cas possible d’abus de position dominante) […]

    Backlink
  34. […] y a cinq mois, la firme américaine décidait d’imposer une méthode pour « protéger la vie privée de ses utilisateurs » : toutes les personnes […]

    Backlink
  35. Acha a dit :

    La version « corrigée » dit un truc faux : « Cela signifie que l’argument sécuritaire de Google tombe à l’eau puisque qu’on peut retrouver la requête Google et d’autres infos en HTTP, non sécurisé ! » C’est faux. J’ai utilisé le logiciel Wireshark pour voir exactement ce que mon ordinateur envoie. Résultat :
    1. Je fais ma recherche : tout est crypté
    2. Je clique sur un lien. Là j’accède à une page sur le serveur google en HTTP en clair, dans laquelle la query est absente (il y a explicitement q= avec rien) et où il y a l’adresse du site sur lequel j’ai cliqué avec url=l’adresse
    3. Google en HTTP renvoie une page avec simplement un petit code JS + un META refresh pour rediriger vers la page en question
    4. j’accède à la page en question

    La requête n’est donc JAMAIS transmise en clair, donc l’argument de sécurité de Google est parfaitement valable.