Escuchar artículo

Las alucinaciones en modelos de lenguaje —respuestas plausibles pero incorrectas— siguen siendo un obstáculo clave para la confiabilidad de la inteligencia artificial, pese a los avances recientes. Según un estudio de OpenAI, este fenómeno no se debe solo a la complejidad técnica, sino a la estructura de entrenamiento y evaluación, que premia las respuestas inventadas sobre la admisión de incertidumbre.

Los modelos están optimizados para “ser buenos en los exámenes”, por lo que tienden a adivinar cuando desconocen la respuesta. Esto se ve reforzado por métricas binarias que penalizan tanto los errores como la expresión honesta de duda. Incluso con datos de entrenamiento perfectos, los métodos de optimización inducen errores, especialmente en hechos poco frecuentes o únicos.

El estudio distingue entre alucinaciones intrínsecas (contradicen el enunciado del usuario) y extrínsecas (contradicen la realidad). Otros factores incluyen problemas computacionales difíciles, desajuste de datos y datos de mala calidad (“garbage in, garbage out”).

El postentrenamiento no elimina completamente las alucinaciones, ya que los benchmarks actuales priorizan la precisión y penalizan la incertidumbre. OpenAI propone modificar los sistemas de evaluación: penalizar más los errores cometidos con exceso de confianza y otorgar crédito a respuestas que expresen incertidumbre. Esto podría incentivar respuestas más prudentes y confiables, reduciendo las alucinaciones y mejorando la competencia pragmática de los modelos.
 

Autor: VIVOENSC