El reconocimiento óptico de caracteres (OCR) se refiere a un software que crea una versión digital de un documento impreso, mecanografiado o escrito a mano que los ordenadores pueden leer sin necesidad de teclear o introducir manualmente el texto. El OCR se utiliza generalmente en documentos escaneados en formato PDF, pero también puede crear una versión legible por ordenador del texto dentro de un archivo de imagen.

Qué es el OCR

El OCR, también conocido como reconocimiento de texto, es una tecnología de software que transforma caracteres como números, letras y signos de puntuación (también llamados glifos) de documentos impresos o escritos en una forma electrónica más fácil de reconocer y leer por los ordenadores y otros programas de software. Algunos programas de OCR lo hacen a medida que se escanea o se fotografía un documento con una cámara digital y otros pueden aplicar este proceso a documentos que han sido previamente escaneados o fotografiados sin OCR. El OCR permite a los usuarios buscar dentro de los documentos PDF, editar el texto y reformatear los documentos.

¿Para qué se utiliza el OCR?

Para las necesidades de escaneo rápidas y cotidianas, el OCR puede no ser un gran problema. Si realiza una gran cantidad de escaneos, poder buscar dentro de los PDF para encontrar el que necesita exactamente puede ahorrar bastante tiempo y hace que la funcionalidad del OCR en su programa de escaneo sea más importante. Aquí hay otras cosas en las que el OCR ayuda:

  • Procesamiento e introducción de datos automatizados (Ejemplo: sistemas de seguimiento de solicitantes de empleo para currículos).
  • Hacer que los libros escaneados puedan ser buscados.
  • Convertir escaneos manuscritos en texto legible por ordenador.
  • Hacer que los documentos sean más utilizables por los programas de lectura que ayudan a los usuarios con problemas de visión.
  • Conservación de documentos históricos y periódicos, a la vez que se pueden realizar búsquedas en ellos.
  • Extracción y transferencia de datos a programas de contabilidad (Ejemplo: recibos y facturas).
  • Indexación de documentos para su uso por parte de motores de búsqueda.
  • Reconocimiento de las matrículas de los conductores por parte de un radar de velocidad y un software para cámaras de luz roja.
  • Sintetizadores de voz para personas que no pueden hablar – el físico teórico, Stephen Hawking, es quizás el usuario más conocido de un programa sintetizador de voz.

¿Por qué usar el OCR?

¿Por qué no tomar una foto, verdad? Porque no podrías editar nada ni buscar el texto porque sería sólo una imagen. Escanear el documento y ejecutar el software de OCR puede convertir ese archivo en algo que puedes editar y ser capaz de buscar.

Historia del OCR

Aunque los primeros usos del reconocimiento de texto se remontan a 1914, el desarrollo y el uso generalizado de las tecnologías relacionadas con el OCR comenzaron en serio en la década de 1950, concretamente con la creación de fuentes muy simplificadas que eran más fáciles de convertir en texto legible digitalmente. El primero de estos tipos de letra simplificados fue creado por David Shepard y se conoce comúnmente como OCR-7B. El OCR-7B se sigue utilizando hoy en día en la industria financiera para el tipo de letra estándar que se utiliza en las tarjetas de crédito y débito. En la década de 1960, los servicios postales de varios países comenzaron a utilizar la tecnología OCR para acelerar enormemente la clasificación del correo, incluyendo Estados Unidos, Gran Bretaña, Canadá y Alemania. El OCR sigue siendo la tecnología principal utilizada para clasificar el correo en los servicios postales de todo el mundo. En el año 2000, el conocimiento clave de los límites y las capacidades de la tecnología OCR se utilizó para desarrollar los programas CAPTCHA utilizados para detener a los bots y a los spammers.

A lo largo de las décadas, el OCR se ha vuelto más preciso y más sofisticado debido a los avances en áreas tecnológicas relacionadas, como la inteligencia artificial, el aprendizaje automático y la visión por ordenador. Hoy en día, el software de OCR utiliza el reconocimiento de patrones, la detección de características y la minería de texto para transformar los documentos con mayor rapidez y precisión que nunca.