D'abord apparue en tant que fonctionnalité expérimentale pour l'API Documents List Data, le support de la reconnaissance optique des caractères vient d'être officialisé dans Google Documents. Elle bénéficie du travail effectué sous l'égide de Google Livres pour la numérisation de livres. Les langues prises en charge pour le moment sont l'anglais, français, allemand, italien et espagnol. D'autres sont prévues pour plus tard.

Dans Google Documents, on se rendra dans le module d'importation des fichiers pour découvrir l'apparition de cette nouvelle fonctionnalité sous l'entrée : " convertir le texte de fichiers image ou PDF au format Google Documents ". Des images numérisées aux formats JPEG, GIF et PNG ou des documents PDF pourront être soumis, et Google Documents extraira le texte afin de le proposer sous une forme éditable.

Google précise que l'OCR fonctionne mieux avec des images en haute résolution, et que tout le formatage ne sera pas forcément préservé. Même avec un document PDF, le résultat est loin d'être parfait et les erreurs sont nombreuses. Après importation, on obtient un document avec d'abord la page originale affichée et en dessous l'extraction du texte. Bien que perfectible, l'OCR est en tout cas une nouvelle corde à l'arc de Google Documents... et ce encore gratuitement.

Google-Docs-OCR

Nous vous invitons à consulter notre dossier consacré à quatre solutions professionnelles d'OCR.