http://doc.ubuntu-fr.org/tesseract-ocr
http://code.google.com/p/tesseract-ocr/
marche nickel!
par contre pas en russe, je suis à la recherche… y'a visiblement du monde qui y bosse:
http://groups.google.com/group/tesseract-ocr-russian/
http://groups.google.com/group/tesseract-ocr-russian/files
voir aussi:
, ocrad et gocr tentent de rattraper le retard linuxien en matière d'OCR
apt-get install ocrad gocr
Faut avouer que c'est moins performant que les produits windaube…
Un petit script pratique pour ocrad (que je préfère nettement à gocr, notamment plus rapide)
ocr.sh
#! /bin/bash # ocr.sh # Usage: # ocr.sh # script bash pour convertir des fichiers images en *.pbm et les traiter ensuite automatiquement avec le # logiciel de reconnaissance optique de caractères (OCR) ocrad pour en extraire un fichier texte # Required: convert, ocrad # FR, fradeff@akademia.ch, www.unige.ch # History 2008/10/29, created FR ############ # se placer dans le répertoire dans lequel on a stocké les pages scannées ou photographièes, ici des fichiers JPG mkdir pbm #cree un rep de travail find . -name "*.JPG" | while read i #trouve les fichiers JPG do convert $i pbm/$i.pbm #les convertit dans un format accepte par ocrad via convert done echo "Tous les fichiers images ont été convertis" cd pbm #va dans le rep de travail find . | while read i do ocrad $i >> result.txt #fait l'OCR done echo "Voici le résultat:" more result.txt