OCR de código abierto

Los 22 mejores conjuntos de datos OCR de código abierto para entrenar tus modelos de aprendizaje automático en 2026.

El reconocimiento óptico de caracteres (OCR) ahora impulsa el escaneo de recibos, la verificación de identidad, la automatización de facturas, la digitalización de archivos históricos y las aplicaciones de notas con lápiz óptico. Se proyecta que el mercado de OCR alcance los 32.90 millones de dólares para 2030 con una tasa de crecimiento anual compuesta (CAGR) del 14.8 % (Grand View Research, 2024), siendo el reconocimiento inteligente de caracteres (la rama de lectura de escritura a mano del OCR) el de mayor crecimiento. Ya sea que esté desarrollando análisis de documentos, detección de texto en escenas o transcripción de escritura a mano, el conjunto de datos de OCR con el que entrene determinará su nivel máximo de precisión. Esta guía cubre 22 conjuntos de datos de OCR gratuitos y de código abierto (incluidos los mejores conjuntos de datos de escritura a mano), organizados por caso de uso y actualizados con las versiones más importantes hasta 2024.

Puntos Clave

  • OCR (reconocimiento óptico de caracteres): Tecnología que convierte imágenes de texto impreso, grabado o manuscrito en datos legibles por máquina.
  • Los conjuntos de datos OCR se dividen en cinco grupos: documentos/formularios, texto de escenas, dígitos/caracteres, escritura a mano y multilingües.
  • Conjuntos de datos OCR de documentos capturar páginas estructuradas como formularios y recibos; conjuntos de datos de escenas y textos Capturar texto “en la naturaleza”.
  • IAM, MNIST, ICDAR y SROIE siguen siendo los puntos de referencia de OCR más citados en la investigación.
  • Las condiciones de la licencia varían considerablemente; verifique cada conjunto de datos OCR antes de realizar el entrenamiento comercial.

¿Qué es OCR (reconocimiento óptico de caracteres)?

El OCR es una tecnología que convierte distintos tipos de documentos, como documentos en papel escaneados, archivos PDF o imágenes de texto, en datos editables y que se pueden buscar. Funciona de la siguiente manera:

  • Analizando la estructura del texto en una imagen
  • Descomponer el texto en líneas y caracteres
  • Convertir estos caracteres visuales en texto legible por máquina

Los usos comunes incluyen:

  • Convertir documentos escaneados en archivos de texto editables
  • Digitalización de libros impresos
  • Extraer texto de fotografías
  • Conversión de recetas escritas a mano a texto digital
  • Reconocimiento de matrículas

¿Cómo elegir el conjunto de datos OCR adecuado?

La elección de un conjunto de datos OCR depende de cuatro factores: tipo de texto, entorno de captura, granularidad de la anotación y licencia. El OCR para documentos impresos requiere datos de entrenamiento diferentes a los del texto manuscrito cursivo o curvo. Los conjuntos de datos para documentos son adecuados para facturas, formularios y recibos; los conjuntos de datos para texto de escena son adecuados para señalización y lectura de productos; y los conjuntos de datos para escritura a mano son adecuados para notas, manuscritos y entrada con lápiz óptico. Las anotaciones a nivel de palabra y línea admiten flujos de trabajo OCR completos, mientras que los conjuntos a nivel de carácter se ajustan a las bases de clasificación. Siempre confirme los términos de la licencia, ya que algunos conjuntos de datos OCR son solo para investigación o requieren registro.

¿Cuáles son los mejores conjuntos de datos OCR para documentos y formularios?

Los conjuntos de datos de OCR de documentos entrenan modelos para analizar páginas estructuradas como facturas, formularios, recibos e identificaciones. Esto permite la automatización de documentos empresariales y la extracción de pares clave-valor.

  1. FUNSD — 199 formularios escaneados anotados con apariencia realista y con ruido. El estándar de referencia para la comprensión de formularios y la extracción de pares clave-valor.
  2. SROIE — Conjunto de datos de recibos escaneados de ICDAR 2019, que consta de aproximadamente 1,000 recibos y permite la detección, el reconocimiento y la extracción de información de texto en un solo conjunto.
  3. CORD — Un conjunto de datos de recibos consolidado, diseñado para el análisis posterior al OCR, con etiquetas detalladas a nivel de campo para la automatización de facturas y recibos.
  4. XFUND — Extensión multilingüe de FUNSD que abarca siete idiomas (alemán, español, francés, italiano, japonés, portugués y chino), con 199 páginas cada uno. Ideal para la IA de documentos multilingües.
  5. DDI-100 — Alrededor de 100,000 imágenes de documentos distorsionadas para su detección y reconocimiento bajo degradación en condiciones reales, como inclinación, desenfoque y ruido.

¿Cuáles son los mejores conjuntos de datos OCR de texto de escenas?

Los conjuntos de datos OCR de texto en escenas entrenan modelos para leer texto en imágenes naturales, como letreros, productos y escenas callejeras. Son esenciales para el OCR en entornos reales, donde los fondos suelen estar desordenados.

  1. Lectura robusta de ICDAR — La familia de referencia que sustenta la mayoría de las investigaciones sobre texto de escenas, incluidos los desafíos de texto de escenas focalizado e incidental con cuadros delimitadores y transcripciones a nivel de palabra.
  2. Texto COCO — Anotaciones de texto a gran escala superpuestas en imágenes MS-COCO. Muy eficaz para la detección de texto a gran escala en escenas naturales.
  3. Texto completo — Se especializa en texto curvo y con orientación arbitraria, un punto débil conocido de los modelos OCR más antiguos.
  4. SVT (Texto de Street View) — Imágenes de texto extraídas de Google Street View, a menudo de baja resolución y con gran variabilidad. Disponibles a través de los servidores espejo de Papers with Code.
  5. HierText — Anotación jerárquica desde párrafo hasta línea y palabra, que abarca tanto texto manuscrito como impreso. Útil para el reconocimiento óptico de caracteres (OCR) con reconocimiento de formato.

¿Cuáles son los mejores conjuntos de datos OCR de dígitos y caracteres?

Los conjuntos de datos OCR de dígitos y caracteres entrenan modelos para reconocer símbolos individuales en entornos controlados. Estos son los puntos de partida estándar para las bases de clasificación.

  1. MNIST — 70,000 imágenes de dígitos manuscritos en escala de grises. La base de referencia más rápida para validar un clasificador de dígitos.
  2. EMNISTA — Amplía MNIST con 814,255 letras y dígitos manuscritos derivados de la base de datos especial 19 de NIST.
  3. SVHN (Números de casas de Street View) — Más de 600,000 imágenes de dígitos reales de números de casas. Un avance práctico con respecto a MNIST para condiciones con ruido.
  4. Caracteres74K — 74,107 imágenes que abarcan caracteres en inglés y kannada, procedentes de imágenes naturales y fuentes informáticas.
  5. Base de datos especial 19 del NIST — Más de 810 000 imágenes de caracteres escritas a mano por 3,600 autores. Fuente de la que derivan muchos de los sistemas de referencia OCR en inglés.

¿Cuáles son los mejores conjuntos de datos de escritura a mano para OCR?

Los conjuntos de datos de escritura a mano entrenan los modelos OCR para leer texto cursivo, impreso y manuscrito histórico. Los conjuntos de datos de escritura a mano abiertos más robustos siguen siendo los referentes más citados para el reconocimiento de texto manuscrito (HTR).

  1. Base de datos de escritura a mano IAM — El estándar de oro de la escritura a mano en inglés, con 13,353 líneas de texto de 657 autores. Sigue siendo el conjunto de datos de escritura a mano más citado en las investigaciones de OCR de 2024-2025.
  2. IAM-OnDB — La versión en línea de IAM para el reconocimiento de trazos de lápiz, que captura datos de trayectoria. El conjunto de datos canónico de escritura a mano para el reconocimiento de lápices ópticos y tabletas.
  3. Documentos de Bentham — Transcripciones de manuscritos históricos en inglés del filósofo Jeremy Bentham. El principal referente en reconocimiento óptico de caracteres (OCR) para escritura histórica, accesible a través de Transkribus.
  4. GNHK (Colección de escritura a mano de GoodNotes) — Un conjunto de datos de 2021 de notas manuscritas en inglés reales y sin restricciones. Más cercano a datos de producción desordenados que a datos de IAM limpios de laboratorio.

¿Cuáles son los mejores conjuntos de datos OCR multilingües y no latinos?

 

Los conjuntos de datos OCR multilingües entrenan los modelos con sistemas de escritura distintos del inglés, como el chino, el árabe y la notación matemática. Estos son esenciales para el reconocimiento global de documentos y escritura a mano.

  1. CASIA-HWDB — El estándar de referencia chino para el reconocimiento óptico de caracteres (OCR), con 1.17 millones de muestras de caracteres manuscritos de 1,020 escritores.
  2. KHATT — 1,000 formularios manuscritos en árabe de 1,000 autores distintos, escaneados a múltiples resoluciones. El conjunto de datos OCR en árabe abierto más completo.
  3. CROHME — Concurso de reconocimiento de expresiones matemáticas manuscritas en línea: más de 10 000 expresiones con más de 101 símbolos matemáticos, tanto en formato online como offline. Imprescindible para el reconocimiento óptico de caracteres (OCR) de ecuaciones manuscritas.

¿Cuáles son los errores más comunes al usar conjuntos de datos OCR gratuitos?

La mayoría de los equipos se enfrentan a tres obstáculos.

Desajuste de dominio: La capacitación en IAM limpio o COCO-Text y su implementación en facturas arrugadas garantiza una precisión deficiente.

Ceguera ante las licencias: Varios conjuntos de datos históricos y de texto de escenas OCR son solo para fines de investigación o requieren registro antes de su uso comercial.

Lagunas en las anotaciones: Muchos conjuntos de datos OCR carecen de los metadatos de diseño, los cuadros delimitadores a nivel de línea o las etiquetas de campo que necesitan los sistemas de producción.

Imaginemos una empresa de logística de tamaño mediano que automatiza la lectura de etiquetas de envío. La capacitación pública con texto simulado les permite alcanzar el 80 % en los parámetros de referencia, pero las etiquetas reales con reflejos y pliegues los reducen al 58 %. Cerrar esa brecha requería una capacitación específica. anotación de datos de 6,000 imágenes de etiquetas dentro del dominio antes del lanzamiento.

Beneficios y desafíos de los conjuntos de datos de código abierto

Beneficios y desafíos de los conjuntos de datos de código abierto

Las empresas deben comparar los beneficios y los desafíos entre sí para comprender si deben optar por datos de uso gratuito para sus aplicaciones de ML.

Beneficios

  • Los datos están fácilmente disponibles para acceder. Debido a la disponibilidad de datos, el costo de desarrollar la aplicación se reduce significativamente.
  • El tiempo y el esfuerzo dedicados a recopilar datos para la aplicación se reducen significativamente ya que el conjunto de datos está fácilmente disponible.
  • Hay una gran cantidad de foros comunitarios o grupos de ayuda que ayudan a aprender, adaptar y optimizar el conjunto de datos.
  • Una de las principales ventajas del conjunto de datos de código abierto es que no impone restricciones a la personalización.
  • Los datos de código abierto son accesibles para una gran parte de la población, lo que hace posible el análisis y la innovación sin barreras monetarias.

Desafíos

  • Los datos específicos del proyecto son difíciles de adquirir. Además, existe la posibilidad de información faltante y uso incorrecto de los datos disponibles.
  • Adquirir datos propietarios requiere tiempo y esfuerzo y es costoso
  • Si bien podría ser más fácil adquirir datos, el costo del conocimiento y el análisis podría superar la ventaja inicial.
  • Otros desarrolladores también hacen uso de los mismos datos para desarrollar aplicaciones.
  • Estos conjuntos de datos son muy vulnerables a las infracciones de seguridad, la privacidad y el consentimiento.

¿Cómo apoya Shaip los proyectos de OCR y reconocimiento de escritura a mano?

De Shaip servicios de datos de entrenamiento OCR combine la curación de conjuntos de datos abiertos con la personalización de múltiples proveedores En más de 60 idiomas, abarca documentos impresos, escritura a mano, recibos e identificaciones. Los flujos de trabajo de anotación de Shaip añaden las capas que faltan en los conjuntos de datos OCR públicos: cuadros delimitadores a nivel de línea, etiquetas a nivel de campo, control de calidad de la transcripción y metadatos del autor.

Conclusión

Los 22 conjuntos de datos OCR mencionados anteriormente le brindan una base completa de código abierto para el reconocimiento de documentos, texto en escenas, dígitos, escritura a mano y multilingüe para 2026. Comience con el conjunto de datos OCR que coincida con su tipo de texto y entorno de captura, valide con una muestra de prueba de sus datos reales y asigne un presupuesto para la anotación personalizada para completar la brecha de dominio. Esta combinación ofrece resultados más rápidos que si se desarrollara desde cero.

El mejor conjunto de datos OCR gratuito depende de la tarea. ICDAR Robust Reading es ideal para texto en escenas, FUNSD y SROIE para documentos y recibos, e IAM para escritura a mano. Para el reconocimiento de dígitos, MNIST y SVHN son los más utilizados. La mayoría de los equipos combinan dos o tres conjuntos de datos OCR de diferentes categorías en lugar de usar solo uno.

No todos los conjuntos de datos OCR de código abierto son gratuitos para uso comercial. MNIST, SVHN y COCO-Text utilizan licencias permisivas, mientras que IAM, los conjuntos ICDAR y los conjuntos de datos históricos de escritura a mano suelen requerir registro o restringir su uso a la investigación. Siempre revise la licencia de cada conjunto de datos antes de entrenar un modelo comercial.

Los conjuntos de datos OCR abarcan todo el reconocimiento de texto legible por máquina, incluidos documentos impresos, texto de escenas y dígitos, mientras que los conjuntos de datos de escritura a mano son el subconjunto centrado en el contenido manuscrito. Los conjuntos de datos de escritura a mano como IAM y Bentham entrenan modelos HTR, mientras que los conjuntos de datos OCR de documentos y texto de escenas procesan texto impreso y texto en entornos reales.

Los conjuntos de datos OCR multilingües incluyen XFUND para siete idiomas de formularios, CASIA-HWDB para chino, KHATT para árabe e ICDAR MLT para texto de escenas multilingües. La combinación de conjuntos de datos OCR específicos para cada escritura con aumento sintético suele ofrecer mejores resultados que el entrenamiento con cualquier conjunto de datos individual.

Las necesidades de anotación personalizada dependen de la distancia entre sus documentos y los datos públicos. Los formularios impresos nítidos pueden requerir entre 1,000 y 5,000 muestras del dominio, mientras que la escritura ilegible, los recibos o los manuscritos poco comunes suelen requerir entre 10 000 y 50 000. Los sistemas de anotación de Shaip suelen ofrecer una mejora en la precisión del 15 % al 30 % en comparación con el entrenamiento OCR basado únicamente en datos públicos.

¿Te ha gustado este artículo? Sigue a Shaip en LinkedIn para estar al día de las últimas novedades.

Social Share