viernes, 21 de diciembre de 2018

OCR de una imagen: tesseract y gImageReader

El otro día tuve que comprobar si dos documentos eran idénticos. Ambos eran grandes y lo mejor era hacer un diff sobre ellos, pero uno venía como un documento editable (un doc de toda la vida) y el otro era un PDF en que cada página era una imagen escaneada. Eso llevaba a una lectura larga de un documento sobre otro, o bien hacer un OCR —Reconocimiento Óptico de Caracteres— en el segundo fichero (sí, debería ser ROC en español, pero eso me lleva a confusión sobre la curva ROC, que es español debería ser COR etc; dejémoslo ahí). En  Linux disponemos de Tesseract, a través de terminal. Curiosamente, al buscar si tenía instalada la librería tesseract (Super + tesseract), lo primero que salía era un icono con nombre gImageReader.


Nunca lo había usado, pero la verdad es que es muy sencillo, aplica directamente Tesseract y se obtiene una salida. Finalmente comparé los dos textos mediante meld; eran idénticos, lo que quiere decir varias cosas:
- El trabajo se hizo en 2 minutos (no en tres o cuatro horas de comparación). Muchas gracias a OCR.
- Tesseract es muy fino, por que no hubo prácticamente errores de identificación (hubo que comprobar muy pocas cosas).

Lo que no sé es cuando instalé gImageReader, ya que por lo que veo no forma parte de las aplicaciones de Gnome, y por tanto no se instala con el sistema; o al menos no lo creo.
Seguramente me saldría igual con el terminal (tesseract y diff), pero el resultado ha sido magnífico en muy poco tiempo; no discutiremos lo que sale bien

No hay comentarios:

Publicar un comentario