Reconnaissance optique de caractères

tesseract

Old

, ocrad et gocr tentent de rattraper le retard linuxien en matière d'OCR

apt-get install ocrad gocr

Faut avouer que c'est moins performant que les produits windaube…

Un petit script pratique pour ocrad (que je préfère nettement à gocr, notamment plus rapide)

ocr.sh

#! /bin/bash
# ocr.sh
# Usage:
# ocr.sh
# script bash pour convertir des fichiers images en *.pbm et les traiter ensuite automatiquement avec le 
# logiciel de reconnaissance optique de caractères (OCR) ocrad pour en extraire un fichier texte
# Required: convert, ocrad
# FR, fradeff@akademia.ch, www.unige.ch
# History  2008/10/29, created FR
############
# se placer dans le répertoire dans lequel on a stocké les pages scannées ou photographièes, ici des fichiers JPG
mkdir pbm #cree un rep de travail
find . -name "*.JPG" | while read i #trouve les fichiers JPG
do
	convert $i pbm/$i.pbm #les convertit dans un format accepte par ocrad via convert
done
echo "Tous les fichiers images ont été convertis"

cd pbm #va dans le rep de travail
find . | while read i
do
	ocrad $i >> result.txt #fait l'OCR
done

echo "Voici le résultat:"
more result.txt
 
info/ocr.txt · Dernière modification: 2010/02/23 13:23 (modification externe)
 
Recent changes RSS feed Creative Commons License Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki