Le 29 mars 2006

Google : Matt Cutts joue le jeu des questions-réponses


Matt Cutts, le plus connu des Googlers, a répondu à un nombre impressionnant de questions sur son blog. Pour vous, chers lecteurs de Zorgloob, nous avons traduit son article « questions / réponses« .

  • Est-ce que BigDaddy est complétement déployé ?

    Oui, je pense que tous les « data center » (centres de données) ont désormais adopté l’infrastructure logicielle de BigDaddy.

  • C’est quoi cette histoire du Googlebot Mozilla ? Est-ce que c’est ce que BigDaddy émet ?

    Oui, je le crois. Vous allez probablement voir de moins en moins de vieux Googlebot parcourir votre site. Les anciens robots ont pour User-agent (agent utilisateur) “Googlebot/2.1 (+http://www.google.com/bot.html)”, je crois que ceux qui viennent de BigDaddy ont un nouveau User-agent qui est “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”.

  • Rien de neuf quant aux sites qui affichent des résultats complémentaires (« autres résultats pour le même domaine ») ?

    Une série de visites supplémentaires afin d’afficher plus de ces sites a été testée fin de semaine dernière, mais il faut encore un peu de temps (quelques jours) pour que celà soit affiché dans l’index. Je surveillerai les sites que les gens ont cité comme exemple pour voir s’ils s’affichent.

  • Est-ce que le paramètre RK est désactivé, ou peut-on espérer le revoir un jour ?

    Je ne m’attends pas à revoir le paramètre RK avec une valeur différente de zéro.

  • Qu’est ce que le paramètre RK ?

    C’est un paramètre que vous pouvez voir dans une requête de la Google Toolbar. Quelques personnes en dehors de Google ont émis l’hypothèse que c’était un Page Rank « live » (en direct), que le Page Rank différait entre BigDaddy et l’ancienne infrastructure, etc.

  • Maintenant que BigDaddy est sorti, est-ce qu’il y aura une nouvelle mise à jour du Page Rank bientôt ? et Est-ce que le déploiement de BigDaddy stabilisera le problème des PageRank instables ?

    Je vais me renseigner à ce sujet. S’il n’y a aucun obstacle logistique, je vais demander si nous pourrions créer un nouvel ensemble de PageRank visible dans les semaines qui vont venir. J’aimerais croire que comme BigDaddy se stabilise partout, la variation des PageRank dans la googlebar pour les URL individuelles est près de se fixer elle aussi.

  • Le Data Center http://64.233.185.104/ fonctionne différemment des autres. J’ai remarqué ça il y a quelques heures… Ce DC est-il en train de comploter quelque chose ?

    T’as l’oeil 😉 Ce n’est pas une suprise pour moi. Comme BigDaddy se calme, ça nous libère pour faire de nouvelles/autres choses.

  • Pourquoi focalisez-vous tellement votre attention sur les SEO (conseils en référencement) et pas sur les webmasters qui font véritablement la qualité des sites ?

    Je pense que c’est un problème que j’ai personnellement, parce que je passe beaucoup trop de temps à la recherche du spam. La majorité des autres [membres de Google] se focalisent plus sur les questions générales des webmasters, comme l’équipe de Sitemap, par exemple. J’ai commencé par faire des articles de « conseils en référencement » au lieu d’articles relatifs aux « erreurs de référencement », mais vous avez raison : je devrais utiliser un pense-bête pour me concentrer sur les sites qui ont un contenu de qualité et comment les tirer vers le haut, pas seulement comment contrer les sites qui trichent. Merci de me l’avoir fait remarquer.

  • Mon fichier sitemap contient environ 1350 URLs… mais depuis le temps, toutes mes pages ne sont pas indexées. J’ai raté quelque-chose là ?

    L’une des stratégies classiques d’indexation que Google utilise est le total de Page Rank de vos pages. Donc, juste parce que votre site existe depuis des années (ou que vous avez envoyé votre fichier sitemap), cela ne signifie pas que nous allons automatiquement parcourir et indexer chaque page de votre site. En général, l’obtention de liens de bonne qualité nous aide à nous indiquer qu’il faut parcourir votre site plus profondément. Vous devriez également jeter un coup d’oeil aux URLs non-indexées : ont-elles une tonne de paramètres ? (nous préférons en général les URLs avec 1 ou 2 paramètres maximum) Y-a-t’il un fichier robots.txt ? Est-il possible de joindre facilement les pages non-indexées en suivant des liens textuels statiques (non Flash, JavaScript, AJAX, cookies, cadres, etc.) ? C’est ce à quoi je recommande de jeter un coup d’oeil.

  • Lorsque je modifie un robots.txt pour empêcher plus de fichiers d’être visités, combien de temps cela prend-il pour que ceux-ci soient retirés de l’index? La réponse serait-elle fonction de la fréquence de visite du site et de son PR?

    C’est fonction de la fréquence de visite du site. Il me semble que par le passé, après quelques centaines de pages récupérées ou quelques jours, le robot revérifiait le fichier robots.txt. Notez que pour des résultats supplémentaires, il faut qu’une
    revisite soit faite par le GoogleBot « supplémentaire » afin que le fichier robots.txt affecte ces pages. Si vous êtes persuadé que vous ne voulez absolument pas que ces pages soient vues, vous pouvez utiliser notre outil de suppression d’url qui vous permet de retirer des url pour six mois d’un seul coup. Soyez néanmoins très prudent avec l’outil de suppression d’url, à moins que vous ne le maîtrisiez.
    Si vous faites une erreur et (par exemple), retirez votre site en entier, c’est
    votre responsabilité. Google peut dans certains cas annuler ces auto-suppressions,
    mais nous ne nous en portons pas garant pour autant.

  • J’aimerais faire une recherche sur du code html et voir comment ça
    se positionne.

    J’aimerais aussi. Indexer les éléments invisibles comme la ponctuation, le JavaScript, et l’ HTML serait génial, mais encombrerait également l’index. Chaque fois que l’on considère une nouvelle option (par exemple notre « numrange search »), il faut trouver un équilibre entre l’augmentation de la taille de l’index et l’utilité de cette option. A mon avis, nous ne proposerons pas cette option à court
    terme.

  • Sérieusement, comment faites-vous pour sélectionner les questions auxquelles répondre ?

    Je sélectionne celles qui paraissent intéressantes, courtes, et suffisamment généralistes pour intéresser plus qu’une personne.
  • Je constate qu’un grand nombre de sites ont leur URL précédé d’un “%09? (tab) ou d’un “%20? (espace) dans l’index Google.

    Je poserai la question.

  • Le processus de validation des sitemaps semble être fait avec un User-Agent “-”? Mes règles d’interdiction rejettent cet user-agent.

    Je poserai la question. Vous pourriez aussi bien mettre les adresses IP de GoogleBot sur liste blanche.

  • Dans l’éventualité ou l’on souhaite offrir de l’espace sur son site (ou en acheter sur un autre), serait-il opportun de proposer l’ajout d’un tag NOFOLLOW, afin de générer un trafic publicitaire, en évitant de paraître vouloir manipuler artificiellement le PR par l’achat de liens ?

    Oui, si vous vendez des liens, vous devriez les marquer avec le tag nofollow. Un comportement différent peut affecter votre réputation auprès de Google.

  • Sur les sites destines à une audience internationale offrant un contenu (de qualité) identique dans différentes langues, est-il préférable d’utiliser plusieurs extensions de domaine comme domaine.com, domaine.de, domaine.fr, domaine.eu ; ou utiliser des sous-domaines comme en.domaine.eu, de.domaine.eu, fr.domaine.eu ; ou quelquechose d’autre, comme domaine.com/en, domaine.com/de, domaine.com/fr ?

    Bonne question. Si vous n’avez qu’un nombre limité de pages, autant commencer avec des sous-domaines, ex. de.domaine.eu ou de.domaine.com. Une fois que vous avez développé une présence concrète ou un nombre conséquent de pages dans chaque langue, il devient raisonnable de développer différents domaines.

  • Une réponse à la question de savoir pourquoi les domaines IDN n’ont pas de PageRank ?

    J’en ai vu qui en ont, mais je vais enquêter pour savoir pourquoi la plupart n’en n’ont pas. A mon avis, il y’a un problème de normalisation quelque part dans le chemin du PageRank de la toolbar.

  • Serait-il possible d’ajouter une plage de dates aux requêtes ? Je peux obtenir 91,000,000 de résultats, mais les 200 premiers datent de 2 ou 3 ans. J’aimerais limiter les résultats aux articles n’ayant pas plus de 6 mois à un an.

    Voyez dans les options de Recherche avancée pour cette option. Tara Calashain a également fait quelques découvertes intéressantes, comme ceci. Google Hacks est un bon bouquin si vous voulez lire d’autres Google hacks sympas.

  • Que pensez-vous du spam des annuaires et comparateurs de prix qui
    devancent les vraies pages ?

    Bien vu. J’en ai entendu parler par un Googleur. Nous voyons parfois le spam strictement comme le texte caché, le cloaking, etc… Mais pour les utilisateurs, le spam est comme un bruit: quelque chose qu’ils ne veulent pas. Si il cherchent une information, veulent régler un problème, lire un article, etc. alors ce genre de sites n’est pas intéressant.

  • Pensez vous vous rendre au Royaume Uni ou vous y exprimer prochainement ?

    Malheureusement non. Je me rends aux Boston Pubcon et SES San Jose, mais je ne peux faire que 4 à 5 conférences par an.

  • Beaucoup semblent se demander ce que sera l’après BigDaddy ? Améliorations, solutions au spam, régénération d’indices « purs », nouveaux problèmes, mise à jour du PR, des BL, etc.

    Je ne peux pas vous donner un agenda précis car les priorités peuvent changer, particulièrement sur base des problèmes « machine », déploiement de nouveaux softs, développement webspam, etc. A court terme, je ne serais pas surpris de voir un peu de nouveauté en ce qui concerne les résultats supplémentaires bientôt, et probablement différents PageRanks visibles dans les prochaines semaines.

  • Même Matt craint de faire une redirection de www.mattcutts.com/ vers www.mattcutts.com/blog/ car Google pourrait pénaliser son site et le faire tomber dans les limbes du “résultat complémentaire”.

    Heh. Non, vous n’y êtes pas. Je les laisse volontairement séparés pour tester comment nous fonctionnons actuellement et évoluerons progressivement.

Merci à HawkEye_TpfH pour son aide de traducteur (et qui a gagné un lien pour soumettre un site).

Publié le 29 mars 2006 à 17:56 par dans Actualité

Billet trop ancien. Les commentaires sont maintenant fermés.