- Recopilación de datos: Mi formación comenzó con una amplia gama de textos de Internet. Sin embargo, debo señalar que, si bien me capacitaron en un amplio conjunto de datos, no sé detalles sobre qué documentos formaban parte de ese conjunto de capacitación ni tengo acceso a documentos o fuentes específicos.
- Formación Inicial (Pre-formación): Aquí es donde aprendí a predecir la siguiente palabra en una oración. No empecé sabiendo inglés ni ningún otro idioma. En cambio, al predecir la siguiente palabra en millones de oraciones, gradualmente aprendí sobre gramática, hechos sobre el mundo y algunas habilidades de razonamiento. Sin embargo, esto también significa que podría haber aprendido de información sesgada o incorrecta, ya que los datos no se filtraron completamente.
- Sintonia FINA: Después de la capacitación inicial, mis creadores en OpenAI brindaron más orientación con un conjunto de datos más específico, generado con la ayuda de revisores humanos. Estos revisores siguen pautas para revisar y calificar los posibles resultados del modelo para una variedad de entradas de ejemplo. El proceso de ajuste es una especie de diálogo entre el modelo y los revisores que me ayuda a alinearme mejor con los valores humanos.
- Aprendizaje continuo: Si bien no aprendo de las interacciones individuales por razones de privacidad, OpenAI trabaja continuamente con un equipo de revisores humanos para brindar comentarios y realizar mejoras iterativas basadas en patrones y conocimientos más amplios.
- Ejemplo de pre-entrenamiento: Supongamos que tenemos la oración, "El gato se sentó en el __". En la fase previa al entrenamiento, el modelo como yo aprendería a predecir la siguiente palabra en la oración, que podría ser "esterilla", "techo" o "árbol". Esto se aprende al procesar miles de millones de oraciones de diversos textos de Internet, lo que implica indirectamente la interacción humana cuando los humanos crearon el contenido original.
- Ejemplo de ajuste fino: Después de la fase de pre-entrenamiento, el modelo entra en la fase de ajuste. Así es como podría funcionar:
El revisor humano tiene la tarea de revisar los posibles resultados del modelo para obtener entradas como "Traducir el siguiente texto en inglés al francés: 'Hola, ¿cómo estás?". El modelo podría generar varias respuestas como “Bonjour, comment ça va?” o “Salut, comenta vas-tu?” etc.
El revisor califica estas respuestas en función de factores como precisión, fluidez y adecuación. Estas calificaciones ayudan al modelo a generalizarse y responder a entradas similares en el futuro.
Recuerde, los ejemplos proporcionados aquí están simplificados para ilustrar el proceso. El entrenamiento real involucra algoritmos complejos y grandes cantidades de datos.
- Variedad de datos: No se trata solo del volumen de los datos, sino también de la variedad. Los datos deben ser diversos para cubrir una amplia gama de temas, estilos y tonos que se encuentran en el lenguaje humano.
- Calidad de los datos: La calidad de los datos utilizados para el entrenamiento también puede influir en la eficacia del aprendizaje del modelo. Los datos de mejor calidad pueden reducir potencialmente el volumen necesario para una formación eficaz.
- Arquitectura modelo: La arquitectura del modelo (como la cantidad de capas o parámetros en la red neuronal) también puede afectar la cantidad de datos que se necesitan. Los modelos más grandes, como GPT-3 o GPT-4, normalmente requieren más datos que los modelos más pequeños.
- Objetivos de entrenamiento: El tipo de tareas que el modelo pretende realizar puede influir en la cantidad de datos necesarios. Un modelo diseñado para una tarea específica puede requerir menos datos si está bien orientado, mientras que un modelo de propósito general como GPT-3 o GPT-4, diseñado para manejar una amplia gama de tareas, requerirá más datos para una comprensión más amplia.
En el caso de GPT-3, por ejemplo, el modelo tiene 175 mil millones de parámetros y fue entrenado en cientos de gigabytes de texto. Pero estas cifras no capturan completamente la complejidad del proceso. Los detalles del proceso de capacitación, incluida la cantidad exacta de datos utilizados, son detalles de propiedad de OpenAI y organizaciones similares.
- Empieza pequeño: Especialmente para problemas simples o prototipos de modelos iniciales, un conjunto de datos más pequeño puede ser adecuado. Por ejemplo, si está creando un clasificador de imágenes básico, puede comenzar con unos pocos cientos o miles de imágenes por categoría.
- Considere la complejidad: Los problemas más complejos normalmente requieren más datos. Si está desarrollando un modelo de aprendizaje profundo o trabajando con un problema complejo como el procesamiento del lenguaje natural, es posible que necesite millones de puntos de datos.
- Calidad sobre cantidad: Los datos relevantes y de calidad a menudo pueden ser más beneficiosos que una cantidad masiva de datos de mala calidad. Es crucial asegurarse de que sus datos estén correctamente limpios, anotados y representativos del problema que está tratando de resolver.
- Equilibre sus clases: Para las tareas de aprendizaje supervisado, asegúrese de tener un buen equilibrio de ejemplos para cada clase. Un conjunto de datos desequilibrado puede conducir a un modelo que funciona mal en las clases subrepresentadas.
- Usar conjuntos de validación y prueba: Parte de su conjunto de datos debe reservarse para la validación (ajustar los parámetros del modelo) y las pruebas (evaluar el rendimiento del modelo). Las divisiones comunes pueden ser el 70 % de los datos para el entrenamiento, el 15 % para la validación y el 15 % para las pruebas, aunque estas proporciones pueden variar.
- Experimentar e iterar: Comience con una cantidad inicial de datos, entrene su modelo, evalúe su rendimiento y agregue iterativamente más datos, modifique su modelo o mejore la calidad de sus datos en función de los resultados.
Recuerde, más datos generalmente mejoran el rendimiento de los modelos de aprendizaje automático, pero solo hasta cierto punto. Después de cierto punto, recopilar más datos puede llevar más tiempo y ser más costoso de lo que vale, y puede ser más beneficioso centrarse en mejorar la calidad de sus datos o refinar la arquitectura de su modelo.
- Pre-entrenamiento: En esta fase, el modelo está expuesto a una gran cantidad de datos de texto de Internet. Estos datos no se anotan explícitamente, pero el modelo está entrenado para predecir la siguiente palabra en una oración. Esto le da al modelo una comprensión general de la gramática, hechos sobre el mundo y algunas habilidades de razonamiento.
- Sintonia FINA: Después del entrenamiento previo, el modelo se refina aún más en un conjunto de datos más estrecho generado con la ayuda de revisores humanos. Estos revisores siguen las pautas de OpenAI para revisar y calificar los posibles resultados del modelo para una variedad de entradas. En este sentido, el proceso de ajuste fino puede verse como una forma de anotación, donde los revisores humanos guían las respuestas del modelo, ayudándolo a alinearse mejor con los valores humanos y asegurando que evite contenido inapropiado o inseguro.
Entonces, si bien el conjunto de datos inicial utilizado para el entrenamiento previo no se anota en el sentido tradicional, el proceso de ajuste implica una forma de anotación, en la que revisores humanos guían el comportamiento del modelo calificando diferentes resultados.
Exactitud: Los revisores evalúan si el resultado del modelo es realmente correcto.
Ejemplo:
Oportunidad: La salida del modelo se evalúa por su idoneidad en relación con la entrada dada.
Ejemplo:
Seguridad: Los resultados se revisan para garantizar que no incluyan instrucciones dañinas o lenguaje ofensivo.
Ejemplo:
Lo completo: Esto evalúa si la respuesta del modelo responde completamente a la consulta del usuario.
Ejemplo:
Fluidez: Los revisores verifican si el resultado del modelo es lingüísticamente fluido y coherente.
Ejemplo:
Estas categorías son solo ejemplos. El proceso de ajuste real implica un sistema de evaluación más complejo y comentarios continuos entre los revisores y el equipo de desarrollo de IA. El objetivo de estas anotaciones es hacer que las respuestas del modelo sean más útiles, seguras y alineadas con los valores humanos.
OpenAI, la organización detrás de ChatGPT, no revela públicamente la cantidad exacta de revisores involucrados en el proceso de ajuste. Sin embargo, dada la escala y la complejidad de entrenar un modelo lingüístico tan grande, es seguro decir que el proceso probablemente involucre a un equipo sustancial de revisores.
Estos revisores humanos siguen las pautas proporcionadas por OpenAI para revisar y calificar los posibles resultados del modelo. Es un proceso iterativo continuo en el que se utilizan los comentarios de los revisores para mejorar y refinar el modelo con el tiempo. OpenAI mantiene un sólido ciclo de retroalimentación con los revisores, incluidas reuniones semanales para abordar preguntas y brindar aclaraciones.
- Complejidad de la tarea: Tareas simples como etiquetar imágenes o categorizar texto tomarían menos tiempo por PDF, lo que permitiría que un solo anotador maneje más archivos. Por otro lado, tareas complejas como la extracción detallada de entidades o el análisis semántico requerirían más tiempo por documento y, por lo tanto, más anotadores para el mismo volumen de archivos PDF.
- Longitud y complejidad de los PDF: Se necesitará más tiempo para anotar un PDF más largo o más complejo que uno más corto o más simple.
- Requerimientos de calidad: Si se requiere alta precisión, puede ser necesario tener varios anotadores por PDF para verificar las anotaciones.
- Restricciones de tiempo: Si las anotaciones deben completarse rápidamente, se necesitarán más anotadores.
Como ejemplo hipotético, digamos que un anotador puede anotar 5 archivos PDF por día para una tarea en particular y trabaja 5 días a la semana. En este caso, para anotar 10,000 2000 archivos PDF, un solo anotador necesitaría 8 días, o alrededor de XNUMX años.
Sin embargo, si tuviera un equipo de 20 anotadores, podrían completar la tarea en aproximadamente 5 meses (suponiendo 20 días hábiles por mes). Con 100 anotadores, la misma tarea podría completarse en aproximadamente un mes.
Recuerde, estos números son puramente ilustrativos y la velocidad real de anotación dependería de los factores mencionados anteriormente. Además, la capacitación adecuada de los anotadores y el control de calidad constante son fundamentales para el éxito de cualquier proyecto de anotación a gran escala.