Le 16 septembre 2009

Google achète reCAPTCHA


Google captcha Le géant de Mountain View s’empare de l’un des mécanismes de défense les plus efficaces du web : un système anti-robots.

Google annonce ce mercredi l’acquisition de reCAPTCHA, une entreprise à l’origine du projet scientifique du même nom. Les CAPTCHA sont ces caractères tordus que vous devez recopier lorsque vous remplissez des formulaires en ligne, afin de prouver que vous n’êtes pas un robot spammeur. Le système reCAPTCHA est l’un des plus populaires et les plus utilisés dans le monde.

Le principe est simple : deux mots — anglais, pour l’instant — vous sont présentés et vous devez les recopier. Toutefois, la machine ne connaît la correspondance image-caractères que pour un seul des deux mots, l’autre a été numérisé à partir d’un imposant corpus de livres. Ce sont donc les internautes qui aident à transcrire ces mots et améliorent ainsi les algorithmes de reconnaissance de caractères (OCR).

Google fait l'acquisition de reCaptcha

C’est un coup de force que réussit Google, avec de nombreux avantages à la clé. En achetant reCAPTCHA, les californiens s’emparent de l’un des systèmes d’OCR les plus efficaces et innovant du monde, utilisé notamment pour numériser toutes les archives du New York Times. Un système en perpétuelle évolution grâce à la participation active des internautes. On se souvient que le système qui protège actuellement les formulaires de création de comptes Google a été craqué à plusieurs reprises par les pirates, l’entreprise pourra donc l’utiliser pour sécuriser davantage ses propres formulaires. Depuis, les ingénieurs avaient entamé des recherches pour trouver un nouveau système CAPTCHA plus efficace.

Cette acquisition pourra également être utilisée pour d’autres applications, telles que Google Books et Google News Archives. On ne sait pas si Google va rendre cette technologie Open Source pour en faire profiter les chercheurs du monde entier, ou si elle va la garder jalousement. Actuellement, Facebook et d’autres sites très populaires sont tributaires de reCAPTCHA.

Seul inconvénient actuel : les mots sont tous anglais. Ce qui explique qu’il ne soit pas encore très utilisé sur les sites français. La Bibliothèque Nationale de France, qui doit numériser un grand nombre d’ouvrages chaque année et à qui une technologie pourrait être fort utile, avait été consultée l’année dernière par le site Geek mais pas trop concernant l’éventualité d’un système similaire pour la langue de Molière. Les responsables de la BnF avaient alors indiqué que cela n’était pas possible en raison de leur architecture informatique. Dommage. On espère donc que Google va piocher des mots dans des livres étrangers — ce qui ne risque pas d’arriver de si tôt si des groupes de pression continuent à s’opposer au géant américain.

Publié le 16 septembre 2009 à 20:34 par dans Actualité

4 commentaires

  1. Kendos a dit :

    Super article Tom…

    Donc, si je comprends bien, Google va une fois de plus confier tout le boulot à ses utilisateurs ?

    reCaptcha fournissait ses services à environ 100 000 sites Web…

    Et d'après leur page "About", ils sont que 6 les mecs… Ça vaut combien une boite comme ça ?

  2. TOMHTML a dit :

    Aucune idée, ils n'ont pas dévoilé le prix de la vente.
    Et en effet, le boulot est une fois de plus pour les internautes. Disons que cette fois c'est pour la bonne cause 😉

  3. Anonymous a dit :

    Mais les autres sites populaires (comme au hasard… Facebook) risquent de ne pas trop apprécier le rachat, et vont vouloir trouver un autre système…

  4. TOMHTML a dit :

    autre système qui sera peut être moins efficace, qui un jour sera craqué et qui forcera Facebook et consors à revenir vers le + efficace.

    En supposant que reCAPTCHA reste le plus efficace.