Conjuntos de datos de escritura a mano

Los 15 mejores conjuntos de datos de escritura a mano de código abierto para entrenar sus modelos ML

El mundo de los negocios se está transformando a un ritmo fenomenal, pero esta transformación digital no es tan amplia como nos gustaría que fuera. Las personas aún manejan documentos físicos en sus operaciones diarias, desde grandes corporaciones hasta pequeñas empresas. Aunque la frecuencia de uso se ha reducido considerablemente, no se ha eliminado por completo. En lugar del lento proceso de escanear documentos para uso digital, usar la última OCR es eficiente en el tiempo y eficaz.

El aumento en el uso del reconocimiento óptico de caracteres se puede atribuir principalmente al aumento en la producción de sistemas de reconocimiento automático. Como resultado, el valor de mercado global de la tecnología OCR, fijado en 8.93 millones de dólares en 2021, se prevé que crezca a una CAGR del 15.4 % entre 2022 y 2030.

Pero, ¿qué es exactamente la tecnología OCR? ¿Y por qué es un cambio de juego para las empresas que desarrollan modelos eficientes de IA? Vamos a averiguar.

¿Qué es OCR?

También conocido como reconocimiento de texto, OCR o reconocimiento óptico de caracteres es un programa que extrae datos impresos o escritos de documentos escaneados, archivos PDF de solo imágenes y notas escritas a mano en un formato legible por máquina. El software extrae cada letra de la imagen y las combina en palabras y oraciones, lo que facilita el acceso y la edición digital de los documentos.

¿Qué son los conjuntos de datos de código abierto?

Hay varios lugares donde la tecnología OCR tiene un gran potencial para ser aprovechada. Algunos lugares incluyen el aeropuerto, la publicación de libros electrónicos, anuncios, bancos y sistemas de cadena de suministro. Sin embargo, para que las aplicaciones cumplan con su propósito, deben estar capacitados en proyectos específicos. Conjuntos de datos de reconocimiento óptico de caracteres.

La eficiencia de la aplicación depende en gran medida de la calidad del conjunto de datos y de la metodología de entrenamiento involucrada. Sin embargo, encontrar calidad digital y conjuntos de datos de escritura a mano es difícil para la aplicación. Por lo tanto, muchas empresas utilizan conjuntos de datos de código abierto o de uso gratuito en lugar de propietarios.

Beneficios y desafíos de los conjuntos de datos de código abierto

Las empresas deben comparar los beneficios y los desafíos entre sí para comprender si deben optar por datos de uso gratuito para sus aplicaciones de ML.

Beneficios

  • Los datos están fácilmente disponibles para acceder. Debido a la disponibilidad de datos, el costo de desarrollar la aplicación se reduce significativamente.
  • El tiempo y el esfuerzo dedicados a recopilar datos para la aplicación se reducen significativamente ya que el conjunto de datos está fácilmente disponible.
  • Hay una gran cantidad de foros comunitarios o grupos de ayuda que ayudan a aprender, adaptar y optimizar el conjunto de datos.
  • Una de las principales ventajas del conjunto de datos de código abierto es que no impone restricciones a la personalización.
  •   Los datos de código abierto son accesibles para una gran parte de la población, lo que hace posible el análisis y la innovación sin barreras monetarias.

Desafios

  • Los datos específicos del proyecto son difíciles de adquirir. Además, existe la posibilidad de información faltante y uso incorrecto de los datos disponibles.
  • Adquirir datos propietarios requiere tiempo y esfuerzo y es costoso
  • Si bien podría ser más fácil adquirir datos, el costo del conocimiento y el análisis podría superar la ventaja inicial.
  • Otros desarrolladores también hacen uso de los mismos datos para desarrollar aplicaciones.
  • Estos conjuntos de datos son muy vulnerables a las infracciones de seguridad, la privacidad y el consentimiento.

Los 15 mejores conjuntos de datos de escritura a mano y OCR para el aprendizaje automático

Conjuntos de datos Ocr de código abierto

Muchos conjuntos de datos de código abierto están disponibles para el desarrollo de aplicaciones de reconocimiento de texto. Algunos de los mejores 15 son

  1. El conjunto de datos ICDAR

    La Conferencia Internacional para el Análisis y el Reconocimiento de Documentos tiene un depósito de 229 imágenes de capacitación y 233 de prueba, junto con anotaciones. Actúa como punto de referencia para la evaluación de detección de texto.

  2. Conjunto de datos IIIT 5K-Word

    Tomado de la búsqueda de imágenes de Google, IIIT 5K-word es una colección de palabras de letreros, vallas publicitarias, matrículas y carteles. Contiene imágenes de palabras recortadas de 5K, lo que la convierte en una de las colecciones más extensas de conjuntos de datos de reconocimiento de texto disponibles.

  3. Base de datos NIST

    El NIST o el Instituto Nacional de Ciencias ofrece una colección de uso gratuito de más de 3600 muestras de escritura a mano con más de 810,000 XNUMX imágenes de caracteres

  4. Base de datos MNIST

    Derivada de la base de datos especial 1 y 3 de NSIT, la base de datos MNIST es una colección compilada de 60,000 10,000 números escritos a mano para el conjunto de entrenamiento y XNUMX XNUMX ejemplos para el conjunto de prueba. Esta base de datos de código abierto ayuda a entrenar modelos para reconocer patrones mientras dedica menos tiempo al preprocesamiento.

  5. Detección de texto

    Una base de datos de código abierto, el conjunto de datos de detección de texto contiene alrededor de 500 imágenes de interiores y exteriores de letreros, placas de puertas, placas de precaución y más.

  6. OCR de Stanford

    Publicado por Stanford, este conjunto de datos de uso gratuito es una colección de palabras escritas a mano por el Grupo de Sistemas de Lenguaje Hablado del MIT.

  7. DDI-100

    También llamado conjunto de datos de imágenes de documentos distorsionados, el DDI-100 es una colección de más de 6658 páginas de documentos con varios patrones geométricos y distorsiones aplicadas. Además, el DDI-100 tiene más de 99870 imágenes, máscaras de sellos, máscaras de texto y cuadros delimitadores.

  8. Texto de carretera-1K

    RoadText-1K, uno de los conjuntos de datos más grandes que ayudan a entrenar modelos para detectar texto en videos, contiene 1000 clips de video completos con anotaciones de texto de cuadro delimitador y transcripción del texto en cada cuadro de video.

  9. MSRA-TD500

    Contiene 300 imágenes de entrenamiento y 200 de texto; el MSRA-TD500 contiene caracteres de los idiomas chino e inglés y está anotado al nivel de la oración.

  10. Conjunto de datos MJSynth

    Proporcionado por la Universidad de Oxford, este conjunto de datos de palabras tiene casi 9 millones de imágenes generadas sintéticamente que cubren más de 90 XNUMX palabras en inglés.

  11. Texto de la vista de la calle

    Recopilado de imágenes de Google Street View, este conjunto de datos tiene imágenes de detección de texto principalmente de tableros y letreros a nivel de calle.

  12. Base de datos de documentos

    La base de datos de documentos es una colección de 941 documentos escritos a mano, incluidas tablas, fórmulas, dibujos, diagramas, listas y más, de 189 escritores.

  13. Expresiones Matemáticas

    The Mathematics Expressions es una base de datos que contiene 101 símbolos matemáticos y 10,000 expresiones.

  14. Números de casa de Street View

    Recolectado de Google Street View, este Street View House Numbers es una base de datos que contiene 73257 dígitos de números de casas de calles.

  15. OCR del entorno natural

    El Natural Environment OCR es un conjunto de datos de casi 660 imágenes en todo el mundo y 5238 anotaciones de texto.

Estos fueron algunos de los mejores conjuntos de datos de código abierto para entrenar modelos ML para aplicaciones de detección de texto. Seleccionar el que se alinea con su negocio y las necesidades de su aplicación puede llevar tiempo y esfuerzo. Sin embargo, debe experimentar con estos conjuntos de datos antes de decidirse por el adecuado.

Para ayudarlo a progresar hacia una aplicación de detección de texto confiable y eficiente está Shaip, el proveedor de soluciones tecnológicas de alto rango. Aprovechamos nuestra experiencia tecnológica para crear personalizables, optimizadas y conjuntos de datos de entrenamiento de OCR eficientes para varios proyectos de clientes. Para comprender completamente nuestras capacidades, póngase en contacto con nosotros hoy.

Social Share