Vous avez certainement entendu parler de cette course effrénée qui pousse de nombreux acteurs à numériser des livres afin de constituer une immense bibliothèque numérique regroupant un maximum d’ouvrages.
Dans cette course, Google est, de loin, le plus rapide. En effet, Google books, bibliothèque numérique du géant américain, regroupe plus de 15 millions d’ouvrages écrits dans plus de 100 langues différentes. Mais si Google Books possède autant d’ouvrages, c’est en fait car il est le fruit d’une collaboration entre des milliers d’internautes travaillant pour Google gratuitement et sans le savoir. Cette technique est appelée Crowdsourcing qui signifie « externalisation vers la foule » : La foule travaille, Google enrichie sa bibliothèque numérique…
Tout commence en 2009 lorsque Google se décide à racheter reCaptcha, une start-up spécialisée dans les captchas. Les captchas sont des petites images à déchiffrer et qui servent à distinguer les robots des humains, très utiles pour des sites proposant des questionnaires visant la collecte de données personnelles par exemple.
Un captcha est toujours composé de deux mots. Sur les captchas en général il s’agit d’un seul ou de deux mots « test ».  Sur le reCaptcha de Google, le premier est un mot « test » utilisé pour vérifier si vous êtes un humain ou une machine. Tandis que le second est en réalité un mot contenu dans un livre numérisé par Google mais qu’il n’est pas parvenu à déchiffrer.
Soumis à de nombreux utilisateurs, ce mot est enregistré par l’algorithme Google au bout de plusieurs réponses identiques, de façon à ce que, par la suite, le système puisse plus facilement le reconnaître. Et c’est ainsi que nous contribuons tous involontairement à parfaire la numérisation des livres de Google Books.
Selon le magazine américain Science, si tous les captchas utilisées sur la toile étaient mis à profit, nous pourrions retranscrire environ 160 livres par jour.
En attendant, cette technique innovante est très rentable car elle permet à Google de bénéficier d’une longueur d’avance sur les autres bibliothèques… au moins en ce qui concerne la numérisation.

A propos de Marine Chambon

Cette publication a un commentaire

Les commentaires sont fermés.