Reconocimiento óptico de caracteres
Reconocimiento óptico de caracteres (también lector de caracteres ópticos, OCR) es la mecánica o electrónica conversión de imágenes de texto mecanografiada, manuscrita o impresa en el texto codificado de la máquina, ya sea de un documento escaneado, una foto de un documento, una foto de escena (por ejemplo el texto sobre las señales y carteles en una foto de paisaje) o del subtítulo texto superpuestos en una imagen (por ejemplo de un programa de televisión).[1] Es ampliamente utilizado como una forma de entrada de información de registros de datos de papel impreso, ya sea informatizan de documentos pasaporte, facturas, Estados de cuenta bancarios, recibos, tarjetas de visita, mail, impresiones de datos estáticos, o cualquier documentación conveniente. Es un método común de digitalización de textos impresos que pueden ser electrónicamente editados, buscaron, almacena más compacto, muestra on-line y utilizados en procesos de la máquina tales como Computación cognitiva, traducción automática, (extracto) texto a voz, clave de datos y Minería de texto. OCR es un campo de investigación en reconocimiento de patrones, inteligencia artificial y visión por computador.
Las primeras versiones necesitan ser entrenados con imágenes de cada personaje y trabajaban en una fuente a la vez. Sistemas avanzados capaces de producir un alto grado de precisión de reconocimiento para la mayoría de las fuentes ahora es campo común y con soporte para una variedad de entradas de formato de archivo de imagen digital.[2] Algunos sistemas son capaces de reproducción salida con formato que se aproxima estrechamente a la página original, incluyendo imágenes, columnas y otros componentes no textuales.
Contenido
- 1 Historia
- 1.1 Usuarios ciegos y deficientes visuales
- 2 Aplicaciones
- 3 Tipos
- 4 Técnicas de
- 4.1 Procesamiento previo
- 4.2 Reconocimiento de caracteres
- 4.3 Procesamiento posterior
- 4.4 Optimizaciones específicas de la aplicación
- 4.5 Herramientas de OCR
- 5 Soluciones
- 5.1 Forzando la entrada mejor
- 5.2 Crowdsourcing
- 6 Precisión
- 7 Unicode
- 8 Véase también
- 9 Referencias
- 10 Acoplamientos externos
Historia
Temprano reconocimiento óptico de caracteres puede atribuirse a tecnologías que implican la telegrafía y la creación de dispositivos de lectura para ciegos.[3] En 1914, Emanuel Goldberg desarrolló una máquina que lea caracteres y había convertido en código de telégrafo estándar.[citación necesitada] Al mismo tiempo, Edmund Fournier d'Albe desarrollado el Optophone, un escáner de mano que cuando se movió a través de una página impresa, producida tonos que correspondió a específicos letras o caracteres.[4]
En la última década de 1920 y en la década de 1930 Emanuel Goldberg desarrolló lo que llamó una "máquina estadística" para buscar archivos de microfilm utilizando un sistema de reconocimiento óptico de código. En 1931 se le concedió el número de los E.e.u.u. patente 1.838.389 para la invención. La patente fue adquirida por IBM.
Con el advenimiento de los teléfonos inteligentes y smartglasses, OCR puede ser utilizado en aplicaciones de dispositivo móvil de internet conectado que extracción texto con la cámara del dispositivo. Estos dispositivos que no tienen funcionalidad OCR incorporado al sistema operativo utilizará típicamente un OCR API DE para extraer el texto de la imagen el archivo capturado y proporcionado por el dispositivo.[5][6] La API del OCR devuelve el texto extraído, junto con información sobre la ubicación del texto detectado en la imagen original de nuevo a la aplicación de dispositivo para su posterior procesamiento (por ejemplo, texto a voz) o pantalla.
Usuarios ciegos y deficientes visuales
En 1974, Ray Kurzweil comenzó la compañía Kurzweil Computer Products, Inc. y desarrollo continuado de omni-fuente OCR, que puede reconocer el texto impreso en prácticamente cualquier fuente (Kurzweil se acredita a menudo con inventar omni-font OCR, pero estaba en uso por las empresas, incluyendo CompuScan, en la década de 1960 y 1970[3][7]). Kurzweil decidió que la mejor aplicación de esta tecnología sería crear una máquina de lectura para ciegos, que permitiría que personas ciegas que un ordenador leído en voz alta texto a ellos. Este dispositivo requiere la invención de dos tecnologías instrumentales – el CCD escáner de superficie plana y el sintetizador texto a voz. En 13 de enero de 1976, el producto final exitoso se dio a conocer durante una conferencia de prensa ampliamente divulgada encabezada por Kurzweil y los líderes de la Federación Nacional de ciegos.[citación necesitada] En 1978, Kurzweil Computer Products comenzó a vender una versión comercial del programa informático de reconocimiento óptico de caracteres. LexisNexis fue uno de los primeros clientes y compró el programa para cargar papel legal y documentos de noticias sobre sus bases de datos en línea nacientes. Dos años más tarde, Kurzweil vendió su compañía a Xerox, que tenía un interés en comercializar más conversión de texto de papel a ordenador. Xerox eventualmente separó lo como ScanSoft, que se fusionó con Nuance Communications.[citación necesitada] El grupo de investigación dirigido por A. G. Ramakrishnan en el Inteligencia médica y laboratorio de ingeniería de lenguaje, Instituto Indio de ciencia, ha desarrollado la herramienta de PrintToBraille, un frontend de GUI de código abierto[8] puede ser utilizado por cualquier OCR para convertir imágenes escaneadas de los libros impresos a los libros de Braille.
En el 2000s, OCR fue hecho disponible en línea como un servicio (WebOCR), en un Computación en la nube medio ambiente y en aplicaciones móviles como señales de traducción en tiempo real de la lengua extranjera un teléfono inteligente.
Diferentes sistemas comerciales y de código abierto OCR estan disponibles para mas comunes sistemas de escritura, incluyendo latín, cirílico, Árabe, hebreo, Índico, bengalí (Bangla), caracteres Devanagari, Tamil, Chino, Japonés y coreano.
Aplicaciones
Motores OCR se han desarrollado en muchas clases de aplicaciones de OCR de dominio específico, como recibo OCR, OCR de facturas, verificar OCR, el documento de facturación legal OCR.
Pueden ser utilizados para:
- Entrada de datos para documentos de negocios, por ejemplo, Echale un vistazo, pasaporte, factura, estado de cuenta bancario y recibo
- Reconocimiento automático de matrículas
- Documentos de seguro automáticos clave extracción de información
- Extracción de información de la tarjeta en una lista de contactos[9]
- Hacen más rápidamente que versiones textuales de documentos impresos, por ejemplo libro de exploración para Proyecto Gutenberg
- Hacer imágenes electrónicas de documentos impresos que se puede buscar, por ejemplo Libros de Google
- Convertir escritura a mano en tiempo real para el control de un ordenador (Pen computing)
- Derrotar a CAPTCHA sistemas anti-bots, aunque estos están diseñados específicamente para evitar OCR[10][11][12]
- Tecnología asistiva para usuarios ciegos y deficientes visuales
Tipos
- Reconocimiento óptico de caracteres (OCR), texto mecanografiado de objetivos, Glifo de o carácter en un momento.
- Objetivos de reconocimiento óptico de la palabra-texto mecanografiado, una palabra en un momento (para las idiomas que utilizan un espacio como un divisor de palabra). (Generalmente apenas llamado "OCR".)
- Reconocimiento inteligente de caracteres (ICR) – también objetivos escritos a mano script o letra cursiva Glifo de un texto o carácter a la vez, generalmente implica aprender de máquina.
- Reconocimiento inteligente de la palabra (IWR) – también objetivos escritos a mano script o letra cursiva texto, una palabra a la vez. Esto es especialmente útil para las lenguas donde los glifos no están separados en escritura cursiva.
OCR es generalmente un proceso "offline", que analiza un documento estático. Análisis de movimiento grafológico puede utilizarse como entrada a reconocimiento de escritura.[13] En lugar de simplemente utilizar las formas de los pictogramas y palabras, esta técnica es capaz de captar movimientos, como el orden en que segmentos de se dibujan, la dirección y el patrón de poner la pluma y levantándolo. Esta información adicional puede hacer que el proceso end-to-end más precisa. Esta tecnología es también conocida como "reconocimiento de carácter on-line", "reconocimiento del carácter dinámico", "reconocimiento de caracteres en tiempo real" y "reconocimiento inteligente de caracteres".
Técnicas de
Procesamiento previo
Software OCR a menudo "los procesos de" imágenes para mejorar las posibilidades de reconocimiento exitoso. Las técnicas incluyen:[14]
- De-posición oblicua– Si el documento no fue alineado correctamente cuando analizado, puede ser necesario inclinar unos grados hacia la derecha o hacia la izquierda para hacer las líneas de texto perfectamente horizontal o vertical.
- Eliminar exceso de puntos– Quite los puntos positivos y negativos, suavizar bordes
- Binarización – convertir una imagen de color o escala de grises a blanco y negro (llamado un "imagen binaria"porque son los dos colores). La tarea de binarización se realiza como una simple manera de separar el texto (o cualquier otro componente de la imagen deseada) desde el fondo.[15] La tarea de binarización se es necesaria puesto que los algoritmos de reconocimiento más comerciales trabajan sólo en imágenes binarias ya que resulta más sencillo hacerlo.[16] Además, la efectividad del paso de binarización influye de forma significativa la calidad de la etapa de reconocimiento de caracteres y se toman las decisiones de cuidado en la elección de la binarización empleado para un tipo de imagen de entrada determinado; desde la calidad del método de binarización empleado para obtener el resultado binario depende del tipo de la imagen de entrada (documento escaneado, escena texto imagen, documento histórico degradado etc..).[17][18]
- Eliminación de líneas – limpia no glifo cajas y líneas
- Análisis de diseño o "zoning" – identifica columnas, párrafos, títulos, etc. como distintos bloques. Especialmente importante en diseños de múltiples columnas y tablas.
- Detección de línea y palabra – establece línea de base para las formas de la palabra y el carácter, separa palabras si es necesario.
- Reconocimiento de la escritura – en documentos multilingües, la secuencia de comandos puede cambiar a nivel de las palabras y por lo tanto, la identificación de la secuencia de comandos es necesaria, antes de la derecha, el OCR puede ser invocado para manejar la secuencia de comandos específico.[19]
- Aislamiento de carácter o "segmentación" – para OCR por carácter, múltiples personajes que estén conectados a artefactos de imagen debe estar separado; solo personajes que se dividen en varios pedazos debido a artefactos deben conectarse.
- Normalizar relación de aspecto y escala[20]
Segmentación de fuentes de paso fijo se logra relativamente simplemente alinear la imagen a una cuadrícula uniforme basada en líneas de cuadrícula verticales serán menos a menudo intersección de áreas negras. Para fuentes proporcionales, técnicas más sofisticadas son necesarios porque el espacio en blanco entre las letras a veces puede ser mayor que entre palabras y líneas verticales pueden intersectar más de un carácter.[21]
Reconocimiento de caracteres
Hay dos tipos básicos de algoritmo OCR de base, que puede producir una lista ordenada de caracteres de candidato.[22]
Matriz emparejar consiste en comparar una imagen a un glifo almacenado en una base píxel por píxel; se conoce también como "pattern matching" "reconocimiento de patrones", o"correlación de imagen". Esto se basa en el glifo de entrada están correctamente aislados del resto de la imagen y en el glifo almacenado en una fuente similar y en la misma escala. Esta técnica funciona mejor con texto escrito a máquina y no funciona bien cuando se encuentran nuevas fuentes. Esta es la técnica la temprana OCR de base fotocelda física implementado algo directamente.
Extracción de la característica descompone glifos en lazos de "funciones" como líneas, cerrados, línea dirección y las intersecciones de la línea. Estos se comparan con una representación abstracta de vector-como de un carácter, que podría reducir a uno o más prototipos de glifo. Técnicas generales de detección en visión por computador son aplicables a este tipo de OCR, que es comúnmente-visto en "inteligente" reconocimiento de escritura y de hecho más moderno software de OCR.[23] Más cercano de clasificadores vecinos tales como la algoritmo k-más cercano a vecinos se utilizan para comparar las características de la imagen con las características almacenadas glifo y escoge al fósforo más cercano.[24]
Software tales como Escritura cuneiforme y Tesseract utilizar un enfoque de dos pasos para reconocimiento de caracteres. El segundo paso es conocido como "reconocimiento de adaptación" y utiliza las formas de letra reconocidas con alta confianza en el primer paso para reconocer mejor las letras restantes en el segundo paso. Esto es ventajoso para las fuentes inusuales o exploraciones de baja calidad donde se distorsiona la fuente (borrosa o desapareció).[21]
El resultado de OCR puede almacenarse en el estándar ALTO formato, un esquema XML dedicado mantenida por los Estados Unidos Biblioteca del Congreso.
Procesamiento posterior
Precisión de OCR puede incrementarse si la salida está limitada por un Lexicon– una lista de palabras que pueden ocurrir en un documento.[14] Esto podría ser, por ejemplo, todas las palabras en el idioma inglés, o un vocabulario más técnico para un campo específico. Esta técnica puede ser problemática si el documento contiene palabras no en el léxico, como nombres propios. Tesseract utiliza su Diccionario para influir en el paso de la segmentación de carácter, para la exactitud mejorada.[21]
La secuencia de salida puede ser un texto sin formato secuencia o archivo de personajes, pero más sofisticados sistemas de OCR puede preservar el diseño original de la página y el producto, por ejemplo, una anotación PDF incluye tanto la imagen original de la página y una representación de texto de búsqueda.
"Cerca del vecino de análisis" puede hacer uso de co-ocurrencia frecuencias para corregir errores, señalando que algunas palabras se ven a menudo juntos.[25] Por ejemplo, "Washington, D.C." suele ser mucho más común en inglés que "Washington DOC".
Conocimiento de la gramática de la lengua se analizan también puede ayudar a determinar si una palabra es probable ser un verbo o un sustantivo, por ejemplo, lo que permite una mayor precisión.
El Distancia de Levenshtein algoritmo se ha utilizado en el post-proceso OCR para optimizar aún más los resultados de una API del OCR.[26]
Optimizaciones específicas de la aplicación
En los últimos años,[¿Cuando?] los principales proveedores de tecnología OCR comenzaron a ajustar los sistemas de OCR para mejor trato con tipos específicos de entrada. Más allá de un léxico específico de la aplicación, se puede tener mejor rendimiento teniendo en reglas de negocio cuenta, expresión estándar,[aclaración necesitada] o rica información contenida en imágenes de color. Esta estrategia se llama "Application-Oriented OCR" o "OCR a medida" y se ha aplicado a OCR de placas, facturas, capturas de pantalla, Tarjetas de identificación, licencias de conducir, y fabricación de automóviles.
Herramientas de OCR
Google,[27] ABBYY, Adobe Acrobat, Tecnologías de plomo,[28] y ScanSnap proporcionan herramientas que pueden extraer texto de imágenes o convertir imágenes en formatos texto investigable. Para cualquier proyecto de oficinas sin papel, se requerirá el uso de herramientas OCR para alcanzar los objetivos de las oficinas sin papel y casas.[29]
Soluciones
Existen varias técnicas para solucionar el problema de reconocimiento de caracteres por medios distintos de algoritmos de OCR mejorados.
Forzando la entrada mejor
Fuentes especiales como OCR-A, OCR-B, o MICR fuentes, con precisamente el tamaño especificado, el espaciado y los formas de carácter distintivo, permiten una mayor tasa de precisión durante la transcripción. Éstos fueron utilizados a menudo en sistemas de coincidencia de matriz temprano.
"Peine de campos" está impreso cajas que alentar a los seres humanos más legible – escribir un glifo por caja.[25] Estos son a menudo impresos en una "color de la deserción escolar" que se puede quitar fácilmente por el sistema de OCR.[25]
Palm OS utiliza un conjunto especial de glifos, conocido como"Graffiti"que son similares a imprime caracteres ingleses pero simplificado o modificada para fácil reconocimiento en el hardware de cómputo limitado de la plataforma. Los usuarios tendría que aprender a escribir estos pictogramas especiales.
Basado en la zona OCR restringe la imagen a una parte específica de un documento. Esto se refiere a menudo como "Plantilla de OCR".
Crowdsourcing
Crowdsourcing los seres humanos para llevar a cabo el reconocimiento de caracteres pueden procesar rápidamente imágenes como OCR dirigido por ordenador, pero con una mayor precisión para el reconocimiento de imágenes que se obtiene con las computadoras. Sistemas prácticos incluyen la Turco mecánico de Amazon y reCAPTCHA. El Biblioteca Nacional de Finlandia ha desarrollado una interfaz en línea para los usuarios correcta OCR textos en el formato ALTO estándar.[30] Crowdsourcing ha sido utilizado no para realizar reconocimiento de caracteres directamente sino para invitar a los desarrolladores de software para el desarrollo de algoritmos de procesamiento de imagen, por ejemplo, mediante el uso de torneos de rango-orden.[31]
Precisión
|
Este artículo debe ser actualizado. (Marzo de 2013) |
Encargado por el Departamento de energía de Estados Unidos (DOE), el Instituto de investigación de Ciencias de la información (ISRI) tenía la misión de fomentar la mejora de las tecnologías automatizadas para la máquina de comprensión imprime documentos, y se llevó a cabo la más autorizada de la Prueba anual de precisión de OCR de 1992 a 1996.[32]
Reconocimiento de la Alfabeto latino, texto mecanografiado todavía no es fiable al 100% aun cuando es clara la proyección de imagen está disponible. Un estudio basado en el reconocimiento de 19 - y páginas de periódicos del siglo 20 temprano concluyeron ese carácter por carácter OCR de precisión para software OCR comercial variado de 81% a 99%;[33] exactitud total se logra por la revisión humana o autenticación de Diccionario de datos. Otras áreas, incluyendo el reconocimiento de la impresión de la mano, letra cursiva escritura y texto impreso en otras secuencias de comandos (especialmente los caracteres de idioma de Asia oriental que tienen muchos movimientos para un solo carácter), son todavía objeto de investigación activa. El Base de datos de MNIST comúnmente se utiliza para las pruebas de capacidad de sistemas reconocer dígitos escritos a mano.
Las tasas de exactitud se pueden medir de varias maneras, y cómo se miden puede afectar en gran medida la tasa de precisión reportados. Por ejemplo, si el contexto de la palabra (básicamente un léxico de palabras) no se utiliza para corregir software encontrar palabras inexistentes, una tasa de error de carácter de 1% (99% de exactitud) puede resultar en una tarifa de error de 5% (95% de precisión) o, peor aún si la medición se basa en si cada palabra todo fue reconocido con ningún Letras incorrectas.[34]
Web sistemas de OCR para el reconocimiento de texto impreso a mano sobre la marcha se han convertido en conocida como productos comerciales en los últimos años[¿Cuando?] (véase Historia de la PC de la tableta). Pueden lograrse tasas de exactitud de 80% a 90% en caracteres aseados, limpio impreso a mano Pen computing software, pero que aún la tasa de precisión se traduce en docenas de errores por página, haciendo la tecnología útil solamente en usos muy limitados.[citación necesitada]
El reconocimiento del texto cursivo es un área activa de investigación, con tasas de reconocimiento incluso más bajas que el del texto impreso a mano. Tasas más altas de reconocimiento de escritura cursiva general probablemente no será posibles sin el uso de la información gramatical o contextual. Por ejemplo, reconocer palabras enteras de un diccionario es más fácil que intentar analizar caracteres individuales de escritura. Lectura de la Cantidad línea de un cheque (que siempre es un número escrito-hacia fuera) es un ejemplo donde usar un diccionario más pequeño puede aumentar tasas de reconocimiento grandemente. Las formas de los caracteres cursivos individuales ellos mismos simplemente no contienen suficiente información para con precisión (más del 98%) reconoce toda escritura cursiva manuscrita.[citación necesitada]
Unicode
Caracteres de soporte OCR fueron agregados a la Unicode Estándar en junio de 1993, con el lanzamiento de la versión 1.1.
Algunos de estos caracteres se asignan de fuentes específicas de MICR, OCR-A o OCR-B.
Reconocimiento óptico de caracteres[1][2] Tabla de códigos Unicode Consortium oficial (PDF) |
||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
U + 244 x | ⑀ | ⑁ | ⑂ | ⑃ | ⑄ | ⑅ | ⑆ | ⑇ | ⑈ | ⑉ | ⑊ | |||||
U + x 245 | ||||||||||||||||
Notas
|
Véase también
- Efecto de AI
- Aplicaciones de inteligencia artificial
- Lingüística computacional
- Biblioteca digital
- Digital mailroom
- Lápiz digital
- Repositorio institucional
- Legibilidad
- Lista de las tecnologías emergentes
- Solución de reconocimiento de caracteres en tinta
- Reconocimiento de caracteres de tinta magnética
- Música OCR
- Reconocimiento óptico de marcas
- Esquema de la inteligencia artificial
- Reconocimiento del bosquejo
- Reconocimiento de voz
- Grabación de voz
Referencias
- ^ OnDemand, refugio HPE. "Documento OCR".
- ^ OnDemand, refugio HPE. "undefined".
- ^ a b Schantz, Herbert F. (1982). La historia de la OCR, reconocimiento óptico de caracteres. [Manchester Center, VT]: Asociación de usuarios de tecnologías de reconocimiento. ISBN 9780943072012.
- ^ d'Albe, E. E. F. (01 de julio de 1914). "en una lectura de tipo Optophone". Actas de la Royal Society A: matemáticas, física y Ciencias de la ingeniería. 90 (619): 373-375. doi:10.1098/RSPA.1914.0061.
- ^ «Extraer texto de imágenes con OCR en Android». 27 de junio de 2015.
- ^ «[tutorial] OCR en Google Glass». 23 de octubre de 2014.
- ^ "La historia del OCR". Revista de procesamiento de datos. 12: 46. 1970.
- ^ Herramienta de PrintToBraille. "ocr-gui-interfaz". Laboratorio de milla, Departamento de la EE, IISc. Archivado de el original en 25 de diciembre de 2014. 7 de diciembre 2014.
- ^ "[javascript] usando OCR y extracción de la entidad para la búsqueda de empresa de LinkedIn". 22 de julio de 2014.
- ^ "Cómo romper Captchas". AndrewT.net. 2006-06-28. 2013-06-16.
- ^ «Rompiendo un CAPTCHA Visual». CS.SFU.ca. 2002-12-10. 2013-06-16.
- ^ John Resig (2009-01-23). "John Resig-OCR y redes de los nervios en JavaScript". Ejohn.org. 2013-06-16.
- ^ Tappert, C. C.; Suen, C. Y.; Wakahara, T. (1990). "El estado del arte en reconocimiento de escritura en línea". Transacciones de IEEE en análisis del patrón e inteligencia de máquina. 12 (8): 787. doi:10.1109/34.57669.
- ^ a b "reconocimiento óptico de caracteres (OCR) – Cómo funciona". Nicomsoft.com. 2013-06-16.
- ^ Sezgin, Mehmet; Sankur, Bulent (2004). "Encuesta sobre técnicas de umbralización de la imagen y la evaluación de desempeño cuantitativos" (PDF). Diario de la proyección de imagen electrónica. 13 (1): 146. Bibcode:2004JEI... 13..146S. doi:10.1117/1.1631315. 2 de mayo 2015.
- ^ Gupta, R. Maya; Jacobson, Nathaniel P.; García, Eric K. (2007). — binarización de OCR y procesamiento previo para la búsqueda de documentos históricos de imágenes. (PDF). Reconocimiento de patrones. 40 (2): 389. doi:10.1016/j.patcog.2006.04.043. 2 de mayo 2015.
- ^ Trier, Oeivind debido; Jain, Anil K. (1995). "evaluación meta-dirigida del métodos de binarización." (PDF). Transacciones de IEEE en análisis del patrón e inteligencia de máquina. 17 (12): 1191-1201. doi:10.1109/34.476511. 2 de mayo 2015.
- ^ Milyaev, Sergey; Barinova, Olga; Novikova, Tatiana; Kohli, Pushmeet; Lempitsky, Victor (2013). "Imagen de binarización para comprensión de texto-to-end en imágenes naturales". (PDF). Documento Análisis y reconocimiento (ICDAR) 2013. 12ª Conferencia Internacional sobre. 2 de mayo 2015.
- ^ Pati, P.B.; Ramakrishnan, A.G. (1987-05-29). Identificación de multi-escritura nivel palabra. Patrón de reconocimiento de letras, Vol. 29, págs. 1218-1229, 2008. doi:10.1016/j.patrec.2008.01.027.
- ^ «OCR básico en OpenCV | Damiles". Blog.damiles.com. 2013-06-16.
- ^ a b c Smith, Ray (2007). "Generalidades del motor de OCR Tesseract" (PDF). 2013-05-23.
- ^ "Introducción de OCR". Dataid.com. 2013-06-16.
- ^ "Cómo funciona el Software OCR". OCRWizard. 2013-06-16.
- ^ "el reconocimiento de patrones básicos y clasificación con openCV | Damiles". Blog.damiles.com. 2013-06-16.
- ^ a b c "¿cómo OCR de documentos trabajo de análisis?". Explicar ese tipo de cosas. 2012-01-30. 2013-06-16.
- ^ "¿Cómo optimizar los resultados de la API del OCR cuando extraer texto de una imagen? -Comunidad de desarrolladores bajo demanda de asilo ".
- ^ Schaeffer, Jaron (22 de junio de 2010). «Blog de Google Drive: reconocimiento óptico de caracteres (OCR) de Google Docs». Drive.googleblog.com. 11 de abril, 2016.
- ^ "Tecnología de OCR SDK". www.LEADTOOLS.com. 04 de octubre de 2016. 4 de octubre, 2016.
- ^ Chispas, David. SIN PAPEL.
- ^ "¿Cuál es el punto de un editor de texto OCR interactivo en línea? -Helsinki-Ugrica ".
- ^ Riedl, C.; Zanibbi, R.; Hearst, M. A.; Zhu, S.; Menietti, M.; CRUSAN, J.; Metelsky, I.; Lakhani, K. (20 de febrero de 2016). "detección de figuras y parte etiquetas en patentes: basada en la competencia desarrollo de algoritmos de procesamiento de imágenes". Revista Internacional sobre reconocimiento y análisis de documentos. 19 (2): 155. doi:10.1007/s10032-016-0260-8.
- ^ "Código y datos para evaluar la precisión de OCR, originario de UNLV/ISRI". Archivo de código de Google.
- ^ Holley, rosa (abril de 2009). "¿Cómo puede? Analizar y mejorar la precisión de OCR en los programas de digitalización a gran escala periódico histórico". D-Lib Magazine. 5 de enero 2014.
- ^ Suen, C.Y.; Plamondon, R.; Tappert, A.; Thomassen, A.; Ward, J.R.; Yamamoto, K. (1987-05-29). Retos de futuro en cursivo y aplicaciones informáticas. 3er Simposio Internacional sobre escritura y aplicaciones informáticas, Montreal, 29 de mayo de 1987. 2008-10-03.
Acoplamientos externos
Campos comunes de Wikimedia tiene medios relacionados con Reconocimiento óptico de caracteres. |
- OCR – rango hexadecimal Unicode: 2440-245F Reconocimiento de caracteres ópticos en Unicode
- Bibliografía anotada de referencias al reconocimiento de caracteres de la escritura y la pluma de computación
- Notas sobre la historia de Pen-based Computing (YouTube)