OpenAI publicó un nuevo informe en el que analiza por qué sus modelos de lenguaje, como ChatGPT, a veces generan respuestas plausibles pero falsas, fenómeno conocido como “alucinaciones”. Según la empresa, estas surgen por incentivos mal alineados durante el entrenamiento y la evaluación, que premian respuestas seguras en lugar de admitir desconocimiento.
El estudio destaca que las alucinaciones se generan desde las primeras etapas del preentrenamiento, cuando los modelos son entrenados para predecir la siguiente palabra en grandes volúmenes de texto sin contar con mecanismos que diferencien lo verdadero de lo falso. Además, el proceso de evaluación refuerza esta tendencia, pues las métricas actuales favorecen a los modelos que “aciertan” —o al menos suenan seguros— antes que aquellos que expresan incertidumbre.
El informe señala que incluso en versiones más sofisticadas como GPT-5, las alucinaciones persisten, lo que puede comprometer la confiabilidad de la IA en ámbitos sensibles como la educación, la salud o la atención al cliente.
Este fenómeno refleja una limitación estructural en el diseño actual de los modelos de IA: están optimizados para sonar competentes, no necesariamente para ser correctos.