Le 10 août 2008

Google, le moteur de recherche


Google googledollar Parce que Google est avant tout un moteur de recherche, il se doit aussi d’évoluer ! Résumé de l’actualité Google de ces derniers mois.

Google sait indexer le Flash ! … ?
Cette information est à prendre avec des pincettes. En effet Google annonce via le Webmaster Central Blog qu’il peut maintenant lire le texte dans les applications Flash, mais il ne peut toujours pas lire les images, les vidéos, et ne peut pas (officiellement) exécuter le JavaScript qui reste très présent dans les applications Flash. Alors quelle est la réelle nouveauté ? D’après notre confrère Olivier de WRI : « les progrès serviront surtout aux développeurs d’applications riches (RIA)« . En effet avec les applications Flash telles qu’elles sont créées aujourd’hui, il est plus difficile pour Google d’indexer les pages. Pour exemple, une application Flash possède une seule et unique URL pour accéder à la totalité du site, comment dans ces conditions orienter l’internaute vers la page la plus pertinente de sa recherche ? De même pour l’utilisation des balises dans les pages HTML comme H1 ou P qui, aujourd’hui permettent au robot Google de donner une valeur aux mots dans la page, ces méthodes utilisées pour calculer le PageRank ne sont toujours pas applicables pour le Flash. Plus de détails sur le site Vanessa Fox qui prend le cas concret de « Take Back the Tour« , site dédié au Tour de France entièrement en Flash.

Google remplit vos formulaires :
Plus les années passent, plus le bon vieux modèle « l’algorithme de Google est basé sur les liens » prend un coup dans l’aile. Dernière preuve en date, l’utilisation par Googlebot des formulaires, tout du moins ceux utilisant la méthode de passage de variables en paramètres, pour trouver de nouveaux contenus à indexer. Cet article de Webrankinfo explique à quel point cela peut être à double tranchant : bon pour ceux qui ne peuvent pas se permettre de mettre des liens partout, mauvais pour ceux qui n’avaient tout simplement pas prévu le coup. Pages non liées, pas forcément pertinentes (comme des pages de résultats par exemple), on se demande bien comment les Googlers comptent utiliser et classer ces nouveaux contenus.

Google zappe l’intro :
Moi les pages d’intro ça m’énerve, et je remercie Sébastien Billard de m’avoir fait découvrir une nouvelle manière de les contourner. Vous savez, les splash pages, ces magnifiques présentations marketing tout en Flash qui introduisent un site web et qui sont en général lourdes au chargement ? Le robot d’indexion de Google, GoogleBot, arrive désormais à les détecter et le précise dans la liste des résultats d’une recherche en faisant apparaître un lien « [Passer l’intro] » à coté du titre du site. Exemple sur cette requête. Aucune autre information pour l’instant sur la façon dont Google détecte ces pages, ni selon quel(s) critère(s) il décide d’afficher ce nouveau lien.

Fin du règne de Google Checkout :
Lorsque vous effectuez une recherche et que Google considère que celle-ci peut générer un achat, il affiche une OneBox avec les commerçants qui vendent ce produit. Jusque là, rien de nouveau, sauf que maintenant les liens contenus dans cette OneBox pointent désormais vers Google Products Search, et donc ne proposent plus uniquement des commerçants acceptant Google Checkout. Un exemple avec cette requête, et plus de détails sur Google Operating System. Google Checkout qui est d’ailleurs disponible en français depuis peu.

Google analyse les logiciels malveillants sur un domaine :
Google nous prévient depuis 2006 dans les résultats d’une recherche s’il a détecté un site qui héberge ou transmet des malware. Le blog Google online security nous donne accès à une page web qui permet de connaître le résultat de l’analyse anti-malware pour n’importe quel domaine. Un exemple avec Zorgloob ! En changeant le paramètre « site= » de la barre d’adresse, on peut ainsi connaître, comme l’indique TOMHTML, l’étrange rapport d’analyse du domaine Myspace.com, Live.com, ou encore Yahoo.com ! Selon nos premières constatations, le domaines qui contient le plus de virus/spywares/malwares n’est pas un site pour trouver des « cracks » ou des clés d’activation de certains logiciels, quoiqu’ils sont loin d’être inoffensif, mais bien le domaine Blogspot.com… Concrètement, cette page apporte des informations utiles aux webmasters qui peuvent en cas de blacklistage par Google, mieux analyser leur site et ainsi tenter d’éradiquer plus rapidement le logiciel malveillant. D’ailleurs, les domaines contenant trop de virus sont tout simplement éradiqués des pages de résultats — Blogspot excepté, bien entendu.

Des tests dans les SERP :
En tant que fidèles lecteurs de Zorgloob, vous n’êtes pas sans savoir que les ingénieurs de Google passent la moitié de leur temps à développer des évolutions pour le moteur (ou pour les produits et services affiliés) et l’autre moitié à nous observer, nous pauvres cobayes, en train d’utiliser les différentes fonctionnalités en cours de tests. Ces derniers mois n’ont pas dérogé à la règle. Voici quelques-uns de ces tests, reportés par différents cobayes de part le monde. On a ainsi pu voir des informations additionnelles sur les forums s’insérer entre le titre et la description des résultats, comme le montre cette capture d’écran d’Haochi Chen. La nouvelle ligne indiquait le nombre de messages, le nombre d’auteurs et, parfois, la date de création de chaque topic indexé. Pour d’autres, ce sont des suggestions de requêtes qui sont apparues en dessous de chaque résultat. On va finir par s’y perdre avec tous ces liens. Certains tests sont devenus depuis des fonctionnalités pleinement opérationnelles, tels les résultats de Google Recherche de Code au beau milieu des résultats.

« Apprendre les langues prend énormément de temps, et il en est de même pour toutes les choses que l’on veut connaître. »
JR Tolkien n’avait pas tord, et si vous n’avez pas de temps à perdre, une fois de plus Google est là pour vous aider. Par exemple, les Maori, peuple originaire de la Nouvelle-Zélande, n’ont sans doute pas de temps à perdre, mais jusqu’à il y a peu, pour aller sur Google, il devaient comprendre les rudiments d’anglais (« I’m feeling lucky »). Désormais, Google est disponible en langue maori, comme dans bien d’autres langues. Toutefois, à quoi ça sert d’effectuer des recherches en français quand Google vous suggère de les traduire automatiquement en anglais, jugeant cette langue plus pertinente ? C’est ce qui se passe pour certaines requêtes depuis quelques mois, comme l’expliquait alors SEO Blackout.

Le billion ! Le billion !
Non, ce n’est pas dans la version Zimbabwenne du Millionnaire que l’on peut entendre le Philippe Risoli local crier ceci pour encourager celui a découvert les trois télés, mais sur le blog officiel de Google. Des employés de la firme ont en effet calculé que l’index de Google comportait maintenant 1000 milliards de pages (doublons décomptés), et ils sont très fiers de l’annoncer à tous ceux qui veulent bien l’entendre. On se souvient pourtant qu’en 2005, Google avait décidé de ne plus afficher le nombre de pages indexées, pour ne plus attiser les polémiques. Ils n’avaient pas tord, puisque la barre du billion à peine atteinte, le dernier arrivé dans la catégorie « Google killers qui ne tueront même pas une mouche », à savoir Cuil, clamait avoir un index trois fois supérieur. Pour ces deux moteurs, le problème est différent : Cuil souffre du spam (sans parler de la dramatique pertinence des résultats) alors que le principal problème de Google, c’est la duplication des contenus. Mille milliards de pages, peut-être, mais combien de milliards de contenus où les informations sont strictement les mêmes, voire dupliquées ? Les agrégateurs y sont pour quelque-chose, mais ils ne sont pas les seuls. Nous en reparlerons prochainement sur Zorgloob.

Un hommage en homepage :
Randy Pausch, professeur d’université et pionner de la recherche sur la réalité virtuelle, est décédé. Visiblement, beaucoup de monde l’appréciait, y compris de nombreux Googlers. L’entreprise a apporté un hommage appuyé à cet homme, en indiquant pendant une journée une note sur la page d’accueil du moteur de recherche aux États-Unis : In Memoriam Randy Pausch (1960-2008). Cette note comportait un lien vers une vidéo, hébergée sur Youtube (tant qu’à faire…), de sa dernière conférence. Cette vidéo a ainsi été visionnée plus de six millions de fois, mise en favoris 53000 fois, et se classe dans le haut du classement des vidéos les mieux notées dans la catégorie « Éducation ».

La personnalisation des résultats :
Même si l’interface peut parfois évoluer en fonction de vos recherches — cf un exemple flagrant pour la gay pride — ce sont bien les résultats qui subissent les principales évolutions, et elles n’était pas très visibles jusqu’à aujourd’hui. En effet, si vous ne le saviez pas, sachez qu’un nombre toujours croissant de requêtes retourne des résultats différent selon les profils des utilisateurs qui effectuent ces recherches. Maintenant, une note apparaît au dessus du nombre de résultats sur les pages dont les résultats ont été personnalisés, avec un lien pour détailler sur quels points s’est basé l’algorithme pour trouver les résultats qui vous conviendraient le mieux. « Lorsque cela est possible, Google personnalise les résultats de votre recherche en fonction de votre situation géographique et/ou des recherches récentes. De plus, dès l’instant où vous vous connectez à votre compte Google, vous bénéficiez de résultats de recherche plus pertinents et plus utiles, en fonction de votre historique web » explique cette page. Un autre lien est donné sur cette page pour vous permettre de voir le résultat de la recherche sans l’application des filtres de personnalisation.

Les consignes de qualité pour les évaluateurs enfin révélées :
Contrairement à ce qu’essaie de vous faire gober Google, il y a des personnes bien réelles qui surveillent si Googlebot fait bien sont boulot et qui corrigent les résultats si besoin est; c’est là que la version officielle de Google change, puisque les officiels expliquent que ces humains ne manipulent pas directement les résultats. Pour résumer par une belle métaphore, c’est un peu comme dire que ce n’est pas vous qui faîtes tourner votre voiture dans les virages, non non, vous ne faîtes que tourner le volant, après c’est un système complexe d’engrenages qui fait que les roues changent de direction, ou pas (sic)… Bref, pour juger de la pertinence des résultats, encore faut-il définir ce qu’est la pertinence. C’est ce que définit le document confidentiel qui a été dévoilé sur le net, et qui a été traduit en français ici. Toute personne s’intéressant de près ou de loin au référencement devrait prendre connaissance de ces informations.

[Article rédigé à 20 doigts, par Benji et Tomhtml]

Publié le 10 août 2008 à 13:16 par dans Actualité

Billet trop ancien. Les commentaires sont maintenant fermés.