Modelo de lenguaje grande

El toque humano: evaluación de la eficacia de los LLM en el mundo real

Introducción

A medida que se acelera el desarrollo de modelos de lenguajes grandes (LLM), es vital evaluar de manera integral su aplicación práctica en varios campos. Este artículo profundiza en siete áreas clave en las que los LLM, como BLOOM, han sido probados rigurosamente, aprovechando el conocimiento humano para evaluar su verdadero potencial y limitaciones.

Perspectivas humanas sobre la IA n.º 1: detección de discursos tóxicos

Mantener un entorno en línea respetuoso requiere una detección eficaz del habla tóxica. Las evaluaciones humanas han demostrado que, si bien los LLM a veces pueden identificar comentarios tóxicos obvios, a menudo fallan en comentarios sutiles o específicos del contexto, lo que genera inexactitudes. Esto destaca la necesidad de que los LLM desarrollen una comprensión más refinada y una sensibilidad contextual para gestionar eficazmente el discurso en línea.

Ejemplo de conocimiento humano sobre la IA n.º 1: detección de habla tóxica

Detección de habla tóxica Escenario: Un foro en línea utiliza un LLM para moderar los comentarios. Un usuario publica: "Espero que ahora estés contento contigo mismo" en una discusión. El contexto es un acalorado debate sobre políticas ambientales, donde este comentario estaba dirigido a alguien que acaba de presentar un punto de vista controvertido.

Evaluación de Maestría en Derecho: El LLM podría no detectar el tono pasivo-agresivo subyacente del comentario como tóxico, dada su redacción superficialmente neutral.

Perspicacia humana: Un moderador humano comprende la negatividad contextual del comentario y lo reconoce como una forma sutil de toxicidad destinada a socavar la postura de la otra persona. Esto ilustra la necesidad de una comprensión matizada en los LLM para una moderación efectiva.

Perspectivas humanas sobre la IA n.° 2: creación artística

Los LLM han llamado la atención por su capacidad para generar textos creativos como cuentos y poemas. Sin embargo, cuando los evalúan los humanos, es evidente que, si bien estos modelos pueden tejer historias coherentes, con frecuencia se quedan cortos en creatividad y profundidad emocional, lo que subraya el desafío de dotar a la IA de una chispa creativa verdaderamente humana.

Ejemplo de conocimientos humanos sobre la IA n.º 2: creación artística

Creación artística Escenario: Un autor le pide a un LLM una idea para una historia corta que involucre a un detective que viaja en el tiempo.

Salida del LLM: El LLM sugiere una trama en la que el detective viaja al pasado para evitar una injusticia histórica pero termina provocando un acontecimiento histórico importante.

Perspicacia humana: Si bien la trama es coherente y creativa hasta cierto punto, un crítico humano señala que carece de originalidad y profundidad en el desarrollo de los personajes, lo que resalta la brecha entre los conceptos generados por la IA y la narración matizada que se encuentra en las obras de autor humano.

Soluciones LLM

Perspectivas humanas sobre la IA n.º 3: responder preguntas

Las capacidades de respuesta a preguntas son fundamentales para los recursos educativos y las aplicaciones de recuperación de conocimientos. Los LLM se han mostrado prometedores a la hora de responder con precisión a preguntas sencillas. Sin embargo, tienen dificultades con consultas complejas o cuando se necesita una comprensión más profunda, lo que destaca la necesidad crítica de aprendizaje continuo y perfeccionamiento del modelo.

Ejemplo de conocimientos humanos sobre la IA n.º 3: responder preguntas

Respondiendo preguntas Guión: Un estudiante pregunta: "¿Por qué comenzó la Revolución Industrial en Gran Bretaña?"

Respuesta del LLM: “La Revolución Industrial comenzó en Gran Bretaña debido a su acceso a recursos naturales, como el carbón y el hierro, y su imperio en expansión que proporcionaba mercados para bienes”.

Perspicacia humana: Aunque precisa, la respuesta del LLM omite conocimientos más profundos sobre los complejos factores sociopolíticos e innovaciones que desempeñaron papeles críticos, lo que muestra la necesidad de que los LLM incorporen una comprensión más integral en sus respuestas.

Perspectivas humanas sobre la IA n.º 4: creatividad de marketing

En marketing, la capacidad de elaborar textos atractivos es invaluable. Los LLM han demostrado potencial en la generación de contenido de marketing básico. Sin embargo, sus creaciones a menudo carecen de la innovación y la resonancia emocional cruciales para un marketing verdaderamente convincente, lo que sugiere que, si bien los LLM pueden aportar ideas, el ingenio humano sigue siendo incomparable.

Ejemplo de conocimiento humano sobre la IA n.º 4: creatividad de marketing

creatividad de marketing Escenario: Una startup le pide a un LLM que cree un eslogan para su nueva solución de embalaje ecológico.

Sugerencia de LLM: "Empaquételo de forma ecológica, manténgalo limpio".

Perspicacia humana: Si bien el eslogan es pegadizo, un experto en marketing sugiere que no logra transmitir el aspecto innovador del producto o sus beneficios específicos, señalando la necesidad de la creatividad humana para elaborar mensajes que resuenen en múltiples niveles.

Perspectivas humanas sobre la IA n.º 5: reconocimiento de entidades nombradas

La capacidad de identificar entidades con nombre dentro del texto es crucial para la organización y el análisis de datos. Los LLM son expertos en detectar dichas entidades, mostrando su utilidad en el procesamiento de datos y los esfuerzos de extracción de conocimientos, apoyando así las tareas de investigación y gestión de la información.

Ejemplo de conocimientos humanos sobre IA n.° 5: reconocimiento de entidades nombradas

Reconocer entidades nombradas Escenario: Un texto menciona: “La última incursión de Elon Musk en el turismo espacial”.

Detección de LLM: Identifica a “Elon Musk” como persona y al “turismo espacial” como concepto.

Perspicacia humana: Un lector humano también podría reconocer las posibles implicaciones para la industria espacial y el impacto más amplio en los viajes comerciales, lo que sugiere que, si bien los LLM pueden identificar entidades, es posible que no comprendan plenamente su importancia.

Perspectivas humanas sobre la IA n.º 6: asistencia para la codificación

La demanda de ayuda para la codificación y el desarrollo de software ha llevado a que se exploren los LLM como asistentes de programación. Las evaluaciones humanas indican que los LLM pueden producir código sintácticamente preciso para tareas básicas. Sin embargo, enfrentan desafíos con problemas de programación más complejos, lo que revela áreas de mejora en el apoyo al desarrollo impulsado por la IA.

Ejemplo de Human Insights sobre la IA n.° 6: asistencia con la codificación

Asistencia de codificación Escenario: Un desarrollador solicita una función para filtrar una lista de números para incluir solo números primos.

Salida del LLM: Proporciona una función de Python que comprueba la primalidad mediante división de prueba.

Perspicacia humana: Un programador experimentado señala que la función carece de eficiencia para entradas grandes y sugiere optimizaciones o algoritmos alternativos, indicando áreas donde los LLM podrían no ofrecer las mejores soluciones sin la intervención humana.

Perspectivas humanas sobre la IA n.° 7: razonamiento matemático

Las matemáticas presentan un desafío único con sus reglas estrictas y rigor lógico. Los LLM son capaces de resolver problemas aritméticos sencillos, pero tienen dificultades con razonamientos matemáticos complejos. Esta discrepancia resalta la diferencia entre las capacidades computacionales y la comprensión profunda necesaria para las matemáticas avanzadas.

Ejemplo de conocimientos humanos sobre la IA n.º 7: razonamiento matemático

Razonamiento matemático Escenario: Un estudiante pregunta: "¿Cuál es la suma de todos los ángulos de un triángulo?"

Salida del LLM: "La suma de todos los ángulos de un triángulo es 180 grados".

Perspicacia humana: Si bien el LLM proporciona una respuesta correcta y directa, un educador podría aprovechar esta oportunidad para explicar por qué es así ilustrando el concepto con un dibujo o una actividad. Por ejemplo, podrían mostrar cómo si tomas los ángulos de un triángulo y los colocas uno al lado del otro, forman una línea recta, que mide 180 grados. Este enfoque práctico no sólo responde a la pregunta sino que también profundiza la comprensión y el compromiso del estudiante con el material, destacando el valor educativo de las explicaciones contextualizadas e interactivas.

[También lea: Modelos de lenguajes grandes (LLM): una guía completa]

Conclusión: el viaje por delante

La evaluación de los LLM a través de una lente humana en estos dominios muestra un panorama multifacético: los LLM están avanzando en comprensión y generación lingüística, pero a menudo carecen de profundidad cuando se requiere una comprensión más profunda, creatividad o conocimiento especializado. Estos conocimientos enfatizan la necesidad de investigación, desarrollo y, lo más importante, participación humana en el perfeccionamiento de la IA. A medida que navegamos por el potencial de la IA, aceptar sus fortalezas y al mismo tiempo reconocer sus debilidades será crucial para lograr avances en la tecnología. Investigadores de IA, entusiastas de la tecnología, moderadores de contenido, especialistas en marketing, educadores, programadores y matemáticos.

Soluciones integrales para el desarrollo de su LLM (generación de datos, experimentación, evaluación, seguimiento) - SOLICITA TU DEMOSTRACIÓN

Social Share