La inteligencia artificial (IA) ha progresado vertiginosamente en los últimos años, transformando diversos sectores como la medicina, la educación, el transporte y muchos más. Sin embargo, a pesar de sus impresionantes capacidades, la IA enfrenta una serie de limitaciones intrínsecas que desafían nuestras expectativas sobre su potencial y uso.
Una de ellas son las alucinaciones de los chatbots, es decir, respuestas erróneas o inventadas por modelos de lenguaje de inteligencia artificial. A pesar de los avances tecnológicos, expertos en el campo aseguran que estas alucinaciones son inevitables. Sin embargo, se han convertido en un tema de creciente preocupación.
El año pasado, un caso en Nueva York atrajo la atención sobre los peligros de depender ciegamente de la IA. Un juez federal impuso una multa de miles de dólares a un bufete de abogados después de que uno de sus abogados utilizara ChatGPT para redactar un escrito legal.
Y es que, el documento estaba plagado de falsedades, incluyendo más de seis casos jurídicos completamente inventados. Este incidente pone de manifiesto un problema fundamental: los chatbots pueden generar información incorrecta con una seguridad que puede engañar incluso a profesionales experimentados. Pero ¿por qué se producen estos errores garrafales?
¿De dónde vienen las alucinaciones?
Las alucinaciones en los modelos de lenguaje como GPT-4 se deben a su diseño intrínseco. Es importante señalar que estos modelos están entrenados para predecir una serie de palabras en una secuencia de texto, basándose en patrones aprendidos de enormes cantidades de datos. Sin embargo, no tienen una comprensión real del mundo.
Esto significa que pueden producir respuestas que parecen plausibles pero que pueden ser completamente erróneas. Por este motivo, en los mismos chats de GPT, de OpenAI puede leerse la siguiente leyenda: “ChatGPT puede cometer errores. Considera verificar la información importante”. Por su parte, Copilot, el complemento de IA de Microsoft, advierte: “Copilot usa IA. Compruebe si hay errores”.
En este sentido, investigaciones de la Universidad de Stanford y la Universidad de Yale han demostrado que estos errores son comunes en las salidas generadas por IA en contextos legales. Estos modelos, a pesar de su sofisticación, a menudo no pueden distinguir entre hechos y ficción cuando generan texto. Según los investigadores, el problema radica en cómo hemos decidido utilizar estos modelos y en las expectativas que tenemos sobre sus capacidades.
Expectativas vs. realidad
Las empresas tecnológicas han promocionado sus modelos de lenguaje como herramientas versátiles capaces de resolver una variedad de problemas, desde ofrecer asesoramiento médico hasta proporcionar recomendaciones financieras.
No obstante, estas expectativas han llevado a que la IA se emplee en contextos donde la precisión es crucial, lo que ha dejado en evidencia sus limitaciones. Los chatbots han ofrecido consejos médicos incorrectos, artículos de prensa con información inexacta o citas falsas en motores de búsqueda.
Subbarao Kambhampati, profesor de ciencias de la computación en la Universidad Estatal de Arizona (EE. UU), subraya que los modelos de lenguaje fueron diseñados para generar texto, no para ser puramente precisos. “No hay forma de garantizar la veracidad de lo que se genera”, explica. Por lo tanto, plantea que deberíamos reconsiderar cómo y dónde utilizamos estas herramientas.
Alucinaciones, ¿inevitables?
Un estudio reciente de la Universidad Nacional de Singapur ha proporcionado una prueba teórica de que las alucinaciones son inevitables en estos modelos de lenguaje. Aplicando resultados clásicos de la teoría del aprendizaje, los investigadores demostraron que siempre habrá problemas que estos modelos no podrán resolver correctamente, lo que llevará a la generación de respuestas incorrectas.
Las alucinaciones también son producto de la estructura fundamental de estos modelos, según los expertos. Dilek Hakkani-Tür, profesora de ciencias de la computación en la Universidad de Illinois (EE. UU), compara los modelos de lenguaje con herramientas de autocompletado avanzadas. Están diseñados para generar una respuesta a cualquier pregunta, incluso si no tienen la información necesaria, lo que incrementa la probabilidad de errores.
Hacia un futuro supervisado
Por tanto, para mitigar las alucinaciones, los expertos sugieren varios enfoques. Uno es integrar sistemas de verificación de hechos que trabajen junto con los modelos de lenguaje para supervisar y corregir las respuestas antes de que lleguen a los usuarios.
Amr Awadallah, cofundador y CEO de la plataforma de IA Vectara, está desarrollando un detector de alucinaciones como primer paso para corregir estos fallos. Su equipo también trabaja en un chatbot híbrido llamado AskNews, que combina un modelo de lenguaje con un motor de búsqueda para proporcionar respuestas basadas en fuentes verificadas.
Otra propuesta pasa por desarrollar modelos especializados que utilicen información de fuentes confiables, como documentos corporativos, revisiones de productos verificadas o bibliografía médica. Algunos científicos ya están investigando sistemas que combinen modelos de lenguaje con estas fuentes de información para mejorar la precisión.
Así pues, en lugar de verlos como solucionadores de problemas independientes e infalibles, los expertos abogan por integrarlos en sistemas supervisados que puedan verificar y corregir sus salidas. Y aunque los chatbots seguirán siendo poderosos generadores de ideas y herramientas creativas, naturalmente, no pueden reemplazar la supervisión humana.
Por ello, entienden que es importante desarrollar fórmulas que combinen la creatividad de la IA con la verificación de hechos, asegurando que estas herramientas se utilicen de manera segura y efectiva.
Referencias:
- Magesh, V.; Surani, F. ‘Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools’. Stanford University (2024)
- Athaluri SA, Manthena SV, Kesapragada VSRKM, Yarlagadda V, Dave T, Duddumpudi RTS. Exploring the Boundaries of Reality: Investigating the Phenomenon of Artificial Intelligence Hallucination in Scientific Writing Through ChatGPT References. Cureus. 2023 Apr 11;15(4):e37432. doi: 10.7759/cureus.37432. PMID: 37182055; PMCID: PMC10173677.
- Leffer, L ‘AI Chatbots Will Never Stop Hallucinating’. Scientific American (2024)
- Del Campo, M.; Leach, N. ‘Machine hallucinations. Architecture and artificial intelligence’ Wiley (2023)