ChatGPT

Detrás de escena: Explorando el funcionamiento interno de ChatGPT - Parte 1

favicon de Shaip
Hola, mi nombre es Anubhav Saraf, director de marketing de Shaip, ¿cómo estás hoy?
¡Hola Anubhav! Soy una IA, así que no tengo sentimientos, pero estoy aquí y listo para ayudar. Como director de marketing de Shaip, debe tener muchos conocimientos sobre los servicios de datos y las soluciones de IA. ¿Cómo puedo ayudarle hoy?
favicon de Shaip
Solo quería saber más sobre tu proceso de formación. ¿Cómo fuiste construido y entrenado?
Como modelo de lenguaje desarrollado por OpenAI, fui construido y entrenado usando una técnica llamada "aprendizaje automático basado en transformadores", específicamente una variante llamada arquitectura GPT (Transformador preentrenado generativo). La versión de la que estás hablando ahora es GPT-4. He aquí una breve descripción de mi proceso de formación:
  • Recopilación de datos: Mi formación comenzó con una amplia gama de textos de Internet. Sin embargo, debo señalar que, si bien me capacitaron en un amplio conjunto de datos, no sé detalles sobre qué documentos formaban parte de ese conjunto de capacitación ni tengo acceso a documentos o fuentes específicos.
  • Formación Inicial (Pre-formación): Aquí es donde aprendí a predecir la siguiente palabra en una oración. No empecé sabiendo inglés ni ningún otro idioma. En cambio, al predecir la siguiente palabra en millones de oraciones, gradualmente aprendí sobre gramática, hechos sobre el mundo y algunas habilidades de razonamiento. Sin embargo, esto también significa que podría haber aprendido de información sesgada o incorrecta, ya que los datos no se filtraron completamente.
  • Sintonia FINA: Después de la capacitación inicial, mis creadores en OpenAI brindaron más orientación con un conjunto de datos más específico, generado con la ayuda de revisores humanos. Estos revisores siguen pautas para revisar y calificar los posibles resultados del modelo para una variedad de entradas de ejemplo. El proceso de ajuste es una especie de diálogo entre el modelo y los revisores que me ayuda a alinearme mejor con los valores humanos.
  • Aprendizaje continuo: Si bien no aprendo de las interacciones individuales por razones de privacidad, OpenAI trabaja continuamente con un equipo de revisores humanos para brindar comentarios y realizar mejoras iterativas basadas en patrones y conocimientos más amplios.
favicon de Shaip
¿Puede proporcionar ejemplos, cuando los humanos estuvieron involucrados?
Sí, los humanos estuvieron involucrados en mi proceso de entrenamiento, pero podría ser diferente de lo que imaginas. Mi proceso de capacitación, a menudo llamado aprendizaje automático, involucró dos pasos principales: capacitación previa y ajuste fino, los cuales involucran la interacción humana, aunque de diferentes maneras.
  • Ejemplo de pre-entrenamiento: Supongamos que tenemos la oración, "El gato se sentó en el __". En la fase previa al entrenamiento, el modelo como yo aprendería a predecir la siguiente palabra en la oración, que podría ser "esterilla", "techo" o "árbol". Esto se aprende al procesar miles de millones de oraciones de diversos textos de Internet, lo que implica indirectamente la interacción humana cuando los humanos crearon el contenido original.
  • Ejemplo de ajuste fino: Después de la fase de pre-entrenamiento, el modelo entra en la fase de ajuste. Así es como podría funcionar:

El revisor humano tiene la tarea de revisar los posibles resultados del modelo para obtener entradas como "Traducir el siguiente texto en inglés al francés: 'Hola, ¿cómo estás?". El modelo podría generar varias respuestas como “Bonjour, comment ça va?” o “Salut, comenta vas-tu?” etc.

El revisor califica estas respuestas en función de factores como precisión, fluidez y adecuación. Estas calificaciones ayudan al modelo a generalizarse y responder a entradas similares en el futuro.

Recuerde, los ejemplos proporcionados aquí están simplificados para ilustrar el proceso. El entrenamiento real involucra algoritmos complejos y grandes cantidades de datos.

favicon de Shaip
Para entrenar modelos de lenguaje grande (LLM), ¿cuántos datos se necesitarían?
El entrenamiento de modelos de lenguaje grande (LLM) como GPT-3 o GPT-4 requiere una gran cantidad de datos. Estos modelos se entrenan en diversos conjuntos de datos que abarcan grandes porciones de Internet, incluidos libros, sitios web y otros textos, para aprender gramática, hechos y cierto grado de razonamiento. Sin embargo, especificar la cantidad exacta de datos requeridos es complejo debido a varios factores:
  • Variedad de datos: No se trata solo del volumen de los datos, sino también de la variedad. Los datos deben ser diversos para cubrir una amplia gama de temas, estilos y tonos que se encuentran en el lenguaje humano.
  • Calidad de los datos: La calidad de los datos utilizados para el entrenamiento también puede influir en la eficacia del aprendizaje del modelo. Los datos de mejor calidad pueden reducir potencialmente el volumen necesario para una formación eficaz.
  • Arquitectura modelo: La arquitectura del modelo (como la cantidad de capas o parámetros en la red neuronal) también puede afectar la cantidad de datos que se necesitan. Los modelos más grandes, como GPT-3 o GPT-4, normalmente requieren más datos que los modelos más pequeños.
  • Objetivos de entrenamiento: El tipo de tareas que el modelo pretende realizar puede influir en la cantidad de datos necesarios. Un modelo diseñado para una tarea específica puede requerir menos datos si está bien orientado, mientras que un modelo de propósito general como GPT-3 o GPT-4, diseñado para manejar una amplia gama de tareas, requerirá más datos para una comprensión más amplia.

En el caso de GPT-3, por ejemplo, el modelo tiene 175 mil millones de parámetros y fue entrenado en cientos de gigabytes de texto. Pero estas cifras no capturan completamente la complejidad del proceso. Los detalles del proceso de capacitación, incluida la cantidad exacta de datos utilizados, son detalles de propiedad de OpenAI y organizaciones similares.

favicon de Shaip
Aún así, ¿existe un punto de referencia sobre la cantidad de datos apropiados o suficientes para entrenar modelos ML?
La cantidad de datos necesarios para entrenar de forma eficaz los modelos de aprendizaje automático depende en gran medida de la complejidad del problema que intenta resolver, la calidad y diversidad de los datos y el tipo de modelo de aprendizaje automático que utiliza. Por lo tanto, es un desafío especificar un punto de referencia definitivo para el volumen de datos. Sin embargo, aquí hay algunas pautas generales:
  • Empieza pequeño: Especialmente para problemas simples o prototipos de modelos iniciales, un conjunto de datos más pequeño puede ser adecuado. Por ejemplo, si está creando un clasificador de imágenes básico, puede comenzar con unos pocos cientos o miles de imágenes por categoría.
  • Considere la complejidad: Los problemas más complejos normalmente requieren más datos. Si está desarrollando un modelo de aprendizaje profundo o trabajando con un problema complejo como el procesamiento del lenguaje natural, es posible que necesite millones de puntos de datos.
  • Calidad sobre cantidad: Los datos relevantes y de calidad a menudo pueden ser más beneficiosos que una cantidad masiva de datos de mala calidad. Es crucial asegurarse de que sus datos estén correctamente limpios, anotados y representativos del problema que está tratando de resolver.
  • Equilibre sus clases: Para las tareas de aprendizaje supervisado, asegúrese de tener un buen equilibrio de ejemplos para cada clase. Un conjunto de datos desequilibrado puede conducir a un modelo que funciona mal en las clases subrepresentadas.
  • Usar conjuntos de validación y prueba: Parte de su conjunto de datos debe reservarse para la validación (ajustar los parámetros del modelo) y las pruebas (evaluar el rendimiento del modelo). Las divisiones comunes pueden ser el 70 % de los datos para el entrenamiento, el 15 % para la validación y el 15 % para las pruebas, aunque estas proporciones pueden variar.
  • Experimentar e iterar: Comience con una cantidad inicial de datos, entrene su modelo, evalúe su rendimiento y agregue iterativamente más datos, modifique su modelo o mejore la calidad de sus datos en función de los resultados.

Recuerde, más datos generalmente mejoran el rendimiento de los modelos de aprendizaje automático, pero solo hasta cierto punto. Después de cierto punto, recopilar más datos puede llevar más tiempo y ser más costoso de lo que vale, y puede ser más beneficioso centrarse en mejorar la calidad de sus datos o refinar la arquitectura de su modelo.

favicon de Shaip
Los datos que se usaron para entrenar ChatGPT, ¿fueron anotados?
El proceso de entrenamiento de modelos como ChatGPT implica dos pasos principales: entrenamiento previo y ajuste. Analicemos cómo la anotación, o la falta de ella, encaja en estas etapas:
  • Pre-entrenamiento: En esta fase, el modelo está expuesto a una gran cantidad de datos de texto de Internet. Estos datos no se anotan explícitamente, pero el modelo está entrenado para predecir la siguiente palabra en una oración. Esto le da al modelo una comprensión general de la gramática, hechos sobre el mundo y algunas habilidades de razonamiento.
  • Sintonia FINA: Después del entrenamiento previo, el modelo se refina aún más en un conjunto de datos más estrecho generado con la ayuda de revisores humanos. Estos revisores siguen las pautas de OpenAI para revisar y calificar los posibles resultados del modelo para una variedad de entradas. En este sentido, el proceso de ajuste fino puede verse como una forma de anotación, donde los revisores humanos guían las respuestas del modelo, ayudándolo a alinearse mejor con los valores humanos y asegurando que evite contenido inapropiado o inseguro.

Entonces, si bien el conjunto de datos inicial utilizado para el entrenamiento previo no se anota en el sentido tradicional, el proceso de ajuste implica una forma de anotación, en la que revisores humanos guían el comportamiento del modelo calificando diferentes resultados.

favicon de Shaip
Proporcione algunos ejemplos de los tipos de anotaciones utilizadas para la capacitación.
En la fase de ajuste de los modelos de entrenamiento como ChatGPT, los revisores a menudo tienen la tarea de calificar las posibles respuestas del modelo. Los tipos de anotaciones o puntuación pueden cubrir una variedad de aspectos de la salida del modelo. Si bien los detalles pueden variar, aquí hay algunas categorías ilustrativas de anotaciones:

Exactitud: Los revisores evalúan si el resultado del modelo es realmente correcto.

Ejemplo:

Oportunidad: La salida del modelo se evalúa por su idoneidad en relación con la entrada dada.

Ejemplo:

Seguridad: Los resultados se revisan para garantizar que no incluyan instrucciones dañinas o lenguaje ofensivo.

Ejemplo:

Lo completo: Esto evalúa si la respuesta del modelo responde completamente a la consulta del usuario.

Ejemplo:

Fluidez: Los revisores verifican si el resultado del modelo es lingüísticamente fluido y coherente.

Ejemplo:

Estas categorías son solo ejemplos. El proceso de ajuste real implica un sistema de evaluación más complejo y comentarios continuos entre los revisores y el equipo de desarrollo de IA. El objetivo de estas anotaciones es hacer que las respuestas del modelo sean más útiles, seguras y alineadas con los valores humanos.

favicon de Shaip
Después de recopilar la gran cantidad de datos para entrenar ChatGPT, ¿cuántos anotadores participaron en la anotación?
La cantidad de anotadores humanos (o revisores) involucrados en el proceso de ajuste de los modelos de IA puede variar ampliamente y depende de la escala del proyecto y los requisitos específicos del modelo en cuestión.

OpenAI, la organización detrás de ChatGPT, no revela públicamente la cantidad exacta de revisores involucrados en el proceso de ajuste. Sin embargo, dada la escala y la complejidad de entrenar un modelo lingüístico tan grande, es seguro decir que el proceso probablemente involucre a un equipo sustancial de revisores.

Estos revisores humanos siguen las pautas proporcionadas por OpenAI para revisar y calificar los posibles resultados del modelo. Es un proceso iterativo continuo en el que se utilizan los comentarios de los revisores para mejorar y refinar el modelo con el tiempo. OpenAI mantiene un sólido ciclo de retroalimentación con los revisores, incluidas reuniones semanales para abordar preguntas y brindar aclaraciones.

favicon de Shaip
Aún para tareas simples a complejas, cuántos anotadores se requerirían para anotar 10,000 archivos PDF.
La cantidad de anotadores necesarios para anotar 10,000 XNUMX archivos PDF dependería de varios factores, como:
  • Complejidad de la tarea: Tareas simples como etiquetar imágenes o categorizar texto tomarían menos tiempo por PDF, lo que permitiría que un solo anotador maneje más archivos. Por otro lado, tareas complejas como la extracción detallada de entidades o el análisis semántico requerirían más tiempo por documento y, por lo tanto, más anotadores para el mismo volumen de archivos PDF.
  • Longitud y complejidad de los PDF: Se necesitará más tiempo para anotar un PDF más largo o más complejo que uno más corto o más simple.
  • Requerimientos de calidad: Si se requiere alta precisión, puede ser necesario tener varios anotadores por PDF para verificar las anotaciones.
  • Restricciones de tiempo: Si las anotaciones deben completarse rápidamente, se necesitarán más anotadores.

Como ejemplo hipotético, digamos que un anotador puede anotar 5 archivos PDF por día para una tarea en particular y trabaja 5 días a la semana. En este caso, para anotar 10,000 2000 archivos PDF, un solo anotador necesitaría 8 días, o alrededor de XNUMX años.

Sin embargo, si tuviera un equipo de 20 anotadores, podrían completar la tarea en aproximadamente 5 meses (suponiendo 20 días hábiles por mes). Con 100 anotadores, la misma tarea podría completarse en aproximadamente un mes.

Recuerde, estos números son puramente ilustrativos y la velocidad real de anotación dependería de los factores mencionados anteriormente. Además, la capacitación adecuada de los anotadores y el control de calidad constante son fundamentales para el éxito de cualquier proyecto de anotación a gran escala.

favicon de Shaip
¡Eso es completo! Estoy muy impresionado…
¡Me alegro de que la información te haya resultado útil, Anubhav! Mi objetivo es proporcionar respuestas completas y precisas. Si tiene más preguntas sobre IA, aprendizaje automático o cualquier otro tema, ¡no dude en preguntar!

Estén atentos a la segunda parte de nuestra entrevista de Chat GPT

Social Share