Conjuntos de datos de escritura a mano

Los 22 mejores conjuntos de datos de escritura a mano y OCR de código abierto para entrenar sus modelos de aprendizaje automático

El mundo de los negocios se está transformando a un ritmo fenomenal, pero esta transformación digital no es tan amplia como nos gustaría que fuera. Las personas aún manejan documentos físicos en sus operaciones diarias, desde grandes corporaciones hasta pequeñas empresas. Aunque la frecuencia de uso se ha reducido considerablemente, no se ha eliminado por completo. En lugar del lento proceso de escanear documentos para uso digital, usar la última OCR es eficiente en el tiempo y eficaz.

El aumento en el uso del reconocimiento óptico de caracteres se puede atribuir principalmente al aumento en la producción de sistemas de reconocimiento automático. Como resultado, el valor de mercado global de la tecnología OCR, fijado en 8.93 millones de dólares en 2021, se prevé que crezca a una CAGR del 15.4 % entre 2022 y 2030.

Pero, ¿qué es exactamente la tecnología OCR? ¿Y por qué es un cambio de juego para las empresas que desarrollan modelos eficientes de IA? Vamos a averiguar.

¿Qué es OCR?

También conocido como reconocimiento de texto, OCR o reconocimiento óptico de caracteres es un programa que extrae datos impresos o escritos de documentos escaneados, archivos PDF de solo imágenes y notas escritas a mano en un formato legible por máquina. El software extrae cada letra de la imagen y las combina en palabras y oraciones, lo que facilita el acceso y la edición digital de los documentos.

¿Qué son los conjuntos de datos de código abierto?

Hay varios lugares donde la tecnología OCR tiene un gran potencial para ser aprovechada. Algunos lugares incluyen el aeropuerto, la publicación de libros electrónicos, anuncios, bancos y sistemas de cadena de suministro. Sin embargo, para que las aplicaciones cumplan con su propósito, deben estar capacitados en proyectos específicos. Conjuntos de datos de reconocimiento óptico de caracteres.

La eficiencia de la aplicación depende en gran medida de la calidad del conjunto de datos y de la metodología de entrenamiento involucrada. Sin embargo, encontrar calidad digital y conjuntos de datos de escritura a mano es difícil para la aplicación. Por lo tanto, muchas empresas utilizan conjuntos de datos de código abierto o de uso gratuito en lugar de propietarios.

Beneficios y desafíos de los conjuntos de datos de código abierto

Las empresas deben comparar los beneficios y los desafíos entre sí para comprender si deben optar por datos de uso gratuito para sus aplicaciones de ML.

Beneficios

  • Los datos están fácilmente disponibles para acceder. Debido a la disponibilidad de datos, el costo de desarrollar la aplicación se reduce significativamente.
  • El tiempo y el esfuerzo dedicados a recopilar datos para la aplicación se reducen significativamente ya que el conjunto de datos está fácilmente disponible.
  • Hay una gran cantidad de foros comunitarios o grupos de ayuda que ayudan a aprender, adaptar y optimizar el conjunto de datos.
  • Una de las principales ventajas del conjunto de datos de código abierto es que no impone restricciones a la personalización.
  •   Los datos de código abierto son accesibles para una gran parte de la población, lo que hace posible el análisis y la innovación sin barreras monetarias.

Challenges

  • Los datos específicos del proyecto son difíciles de adquirir. Además, existe la posibilidad de información faltante y uso incorrecto de los datos disponibles.
  • Adquirir datos propietarios requiere tiempo y esfuerzo y es costoso
  • Si bien podría ser más fácil adquirir datos, el costo del conocimiento y el análisis podría superar la ventaja inicial.
  • Otros desarrolladores también hacen uso de los mismos datos para desarrollar aplicaciones.
  • Estos conjuntos de datos son muy vulnerables a las infracciones de seguridad, la privacidad y el consentimiento.

Los 22 mejores conjuntos de datos de escritura a mano y OCR para el aprendizaje automático

Conjuntos de datos ocr de código abierto

Muchos conjuntos de datos de código abierto están disponibles para el desarrollo de aplicaciones de reconocimiento de texto. Algunos de los mejores 22 son

  1. Base de datos NIST

    El NIST o el Instituto Nacional de Ciencias ofrece una colección de uso gratuito de más de 3600 muestras de escritura a mano con más de 810,000 XNUMX imágenes de caracteres

  2. Base de datos MNIST

    Derivada de la base de datos especial 1 y 3 de NSIT, la base de datos MNIST es una colección compilada de 60,000 10,000 números escritos a mano para el conjunto de entrenamiento y XNUMX XNUMX ejemplos para el conjunto de prueba. Esta base de datos de código abierto ayuda a entrenar modelos para reconocer patrones mientras dedica menos tiempo al preprocesamiento.

  3. Detección de texto

    Una base de datos de código abierto, el conjunto de datos de detección de texto contiene alrededor de 500 imágenes de interiores y exteriores de letreros, placas de puertas, placas de precaución y más.

  4. OCR de Stanford

    Publicado por Stanford, este conjunto de datos de uso gratuito es una colección de palabras escritas a mano por el Grupo de Sistemas de Lenguaje Hablado del MIT.

  5. Texto de la vista de la calle

    Recopilado de imágenes de Google Street View, este conjunto de datos tiene imágenes de detección de texto principalmente de tableros y letreros a nivel de calle.

  6. Base de datos de documentos

    La base de datos de documentos es una colección de 941 documentos escritos a mano, incluidas tablas, fórmulas, dibujos, diagramas, listas y más, de 189 escritores.

  7. Expresiones Matemáticas

    The Mathematics Expressions es una base de datos que contiene 101 símbolos matemáticos y 10,000 expresiones.

  8. Números de casa de Street View

    Recolectado de Google Street View, este Street View House Numbers es una base de datos que contiene 73257 dígitos de números de casas de calles.

  9. OCR del entorno natural

    El Natural Environment OCR es un conjunto de datos de casi 660 imágenes en todo el mundo y 5238 anotaciones de texto.

  10. Expresiones Matemáticas

    Más de 10,000 expresiones con más de 101 símbolos matemáticos.

  11. Caracteres chinos escritos a mano

    Un conjunto de datos de 909,818 imágenes de caracteres chinos escritas a mano, equivalente a unos 10 artículos de noticias.

  12. Texto impreso en árabe

    Un léxico de 113,284 palabras utilizando 10 fuentes árabes.

  13. Texto escrito a mano en inglés.

    Texto escrito a mano en inglés en una pizarra con más de 1700 entradas.

  14. 3000 entornos Imágenes

    3000 imágenes de diversos entornos, incluidas escenas exteriores e interiores con diferente iluminación.

  15. Datos Chars74K

    74,000 imágenes de dígitos en inglés y kannada.

  16. IAM (escritura a mano IAM)

    La base de datos IAM tiene 13,353 imágenes de texto escritas a mano por 657 escritores del Corpus de inglés británico de Lancaster-Oslo/Bergen.

  17. FUNSD (Formulario de comprensión en documentos escaneados ruidosos)

    FUNSD incluye 199 formularios escaneados y anotados con apariencias variadas y ruidosas, lo que supone un desafío para la comprensión de los formularios.

  18. OCR de texto

    TextOCR compara el reconocimiento de texto en escenas de texto con formas arbitrarias en imágenes naturales.

  19. Gorjeo 100k

    Twitter100k es un gran conjunto de datos para la recuperación entre medios débilmente supervisada.

  20. SSIG-SegPlate: segmentación de caracteres de matrículas (LPCS)

    Este conjunto de datos evalúa la segmentación de caracteres de matrículas (LPCS) con 101 imágenes de vehículos diurnas.

  21. 105,941 Imágenes Escenas naturales Datos OCR en 12 idiomas

    Los datos incluyen 12 idiomas (6 asiáticos, 6 europeos) y varios escenarios y ángulos naturales. Cuenta con cuadros delimitadores a nivel de línea y transcripciones de texto. Es útil para tareas de OCR en varios idiomas.

  22. Conjunto de datos de imágenes de letreros indios

    El conjunto de datos tiene imágenes de señales de tráfico indias para clasificación y detección, tomadas en diversas condiciones climáticas durante el día, la tarde y la noche.

Estos fueron algunos de los mejores conjuntos de datos de código abierto para entrenar modelos ML para aplicaciones de detección de texto. Seleccionar el que se alinea con su negocio y las necesidades de su aplicación puede llevar tiempo y esfuerzo. Sin embargo, debe experimentar con estos conjuntos de datos antes de decidirse por el adecuado.

Para ayudarlo a progresar hacia una aplicación de detección de texto confiable y eficiente está Shaip, el proveedor de soluciones tecnológicas de alto rango. Aprovechamos nuestra experiencia tecnológica para crear personalizables, optimizadas y conjuntos de datos de entrenamiento de OCR eficientes para varios proyectos de clientes. Para comprender completamente nuestras capacidades, póngase en contacto con nosotros hoy.

Social Share