Convertir imagen a texto con tecnología OCR de código abierto

Hemos llegado a un nivel de sofisticación muy alto en cuanto al reconocimiento de texto. Hasta el punto de poder traducir un texto en tiempo real con solo enfocarlo con la cámara de tu teléfono. Pero en ciertas tareas, todavía queda camino por recorrer, como traducir imagen a texto.

Un ejemplo de tareas complejas que no lo parecen tanto es la digitalización de documentos. Es decir, convertir toneladas de papel en documentos digitales que puedes copiar, compartir y editar desde cualquier dispositivo.

Y aquí la clave está en lo que conocemos como OCR, acrónimo de optical character recognition, en castellano reconocimiento óptico de caracteres. Uno de los motores OCR más conocidos es Tesseract OCR, que encontrarás en su propio repositorio en GitHub. Cualquiera puede descargarlo y usarlo libremente, ya que cuenta con licencia de software libre Apache.

Entre sus particularidades, es compatible con cualquier sistema operativo, su desarrollo sigue en pie gracias, en parte, a la financiación de Google, y surgió en los laboratorios de Hewlett-Packard. Su versión actual, Tesseract 4, permite traducir imagen a texto empleando redes neurales. Además, es compatible con más de 100 idiomas. Su único inconveniente, funciona en la línea de comandos.

Reconocimiento OCR gratis para todos

Pero cuando hay un problema o inconveniente en el software libre, siempre surge una solución. Si quieres usar Tesseract OCR pero no te manejas bien con la línea de comandos, a pesar de que su repositorio dispone de documentación de ayuda, podemos instalar un front-end para usar esta tecnología desde una aplicación gráfica, a lo que estamos más familiarizados.

Uno de estos front-ends es gImageReader. Lo que hace este software es ofrecernos una interfaz gráfica desde la que interaccionar con Tesseract OCR sin usar la línea de comandos.

Este software también es gratuito y de licencia libre, en concreto GPL 3.0. Podemos instalarlo en Windows y en Linux. Es más, está disponible en los repositorios de Fedora, Debian, OpenSUSE y ArchLinux.

Su propósito es, empleando la tecnología de Tesseract OCR, convertir una imagen a texto. Es decir, abrimos uno o más archivos de imagen y la herramienta detectará el texto para extraerlo y obtenerlo como documento de Word.

Permite abrir archivos PDF o imágenes desde diferentes dispositivos, incluso a partir de capturas de pantalla o si hemos copiado la imagen en el Portapapeles. El proceso de reconocimiento de texto puedes hacerlo a mano, de manera casi artesanal, o empleando el método automático. Elegir uno u otro dependerá de la calidad de la imagen escaneada, del tipo de texto, etc.

Además de la tarea OCR propiamente dicha, gImageReader aporta tareas para cuando tengas el texto ya convertido. Por ejemplo, podrás editar el texto, darle formato o corregirlo si tiene errores gramaticales u ortográficos.