¡Enlace copiado!

Por qué las alucinaciones de la IA siguen sin resolverse

A pesar de los avances en GPT-5, Claude y Gemini, las alucinaciones de la IA siguen siendo un problema estructural central. El problema está integrado en la forma en que se construyen estos modelos y no se solucionará con más datos o un mayor número de parámetros.

🌐
Traducción automática

Este artículo fue traducido automáticamente del original en inglés. Leer el original en inglés

Visualización conceptual de una red neuronal de IA con salidas fragmentadas y defectuosas que representan alucinaciones

Conclusiones clave

  • Las alucinaciones son estructurales: los grandes modelos de IA predicen la siguiente palabra más probable, no la verdadera
  • La capacitación no puede solucionarlo: los datos a escala web están incompletos, son inconsistentes y, a menudo, incorrectos. El modelo aprende esos errores fielmente.
  • RLHF lo empeora: el aprendizaje por refuerzo optimiza la utilidad y la confianza, lo que recompensa las conjeturas plausibles sobre la incertidumbre honesta.
  • Las mitigaciones reducen, no eliminan: RAG, llamadas de herramientas y capas de detección ayudan a gestionar el riesgo, pero no pueden resolver el problema fundamental.

La paradoja de la confianza

En diciembre de 2025, investigadores jurídicos documentaron una tendencia sorprendente: de cuatro a cinco nuevos casos judiciales por día citan precedentes legales generados por IA que no existen. A pesar de años de advertencias y múltiples bochornos de alto perfil, los abogados continúan presentando escritos con jurisprudencia fabricada. El problema no es el descuido. El problema es que la IA parece muy segura.

Esto ilustra la paradoja de las alucinaciones en el corazón de la inteligencia artificial moderna. Los mismos modelos celebrados por aprobar exámenes de abogados y pruebas de licencia médica están simultáneamente inventando casos judiciales falsos con total confianza. GPT-5, Claude 3.5 y Gemini Ultra son dramáticamente más capaces que sus predecesores, pero aún así inventan cosas.

Advertisement

¿Por qué? Porque las alucinaciones no son un error que deba corregirse. Es una consecuencia estructural de cómo se construyen estos sistemas.

Cómo funcionan realmente los LLM: la máquina del siguiente token

¿Qué hace realmente un modelo de IA de gran tamaño? En esencia, un LLM es un motor de predicción del siguiente token. Dada una secuencia de palabras (o fichas), calcula la distribución de probabilidad de lo que sigue y elige al candidato más probable.

Piense en ello como un autocompletado extremadamente sofisticado. Cuando escribe “La capital de Francia es”, el modelo ha aprendido a partir de miles de millones de documentos que la próxima ficha debería ser “París”. Esto funciona muy bien para hechos bien documentados.

El problema surge en tres escenarios:

1. El modelo tiene información incompleta

Pregunte sobre un oscuro precedente legal del siglo XIX o un fenómeno científico especializado y los datos de capacitación pueden contener ejemplos parciales, contradictorios o nulos. El modelo no sabe que no lo sabe. No tiene ningún concepto de incertidumbre incorporado en su arquitectura. Entonces hace lo que fue entrenado para hacer: generar la continuación estadísticamente más plausible.

Esa continuación podría ser una cita de caso falsa perfectamente formateada. La fluidez es real. Los hechos no lo son.

2. Cascadas de errores en la generación de formato largo

Los modelos autorregresivos generan un token a la vez y alimentan cada salida como entrada para la siguiente predicción. Esto crea una cadena frágil. Si el modelo produce un token incorrecto al principio de una respuesta (una fecha incorrecta, un nombre alucinado), cada token subsiguiente ahora está condicionado a un contexto corrupto.

El error se agrava. Un solo paso en falso en el párrafo uno puede generar una narrativa completamente inventada en el párrafo cinco. El modelo no tiene ningún mecanismo para retroceder y verificar.

Advertisement

3. El objetivo es la producción, no la verdad

La cuestión fundamental: los LLM están capacitados para maximizar la probabilidad de las secuencias de texto, no la precisión de las afirmaciones. La función de pérdida recompensa los resultados que se parecen a los datos de entrenamiento. No tiene ningún concepto de realidad externa, ni fundamento en la verdad, ni penalización por una fabricación confiada, siempre y cuando esa fabricación sea fluida.

Por eso las alucinaciones son matemáticamente inevitables según el paradigma actual. El propósito del modelo es siempre adivinar. Expresar incertidumbre es, literalmente, fuera de objetivo.

El problema de los datos de entrenamiento

Más allá de la arquitectura, los datos en sí están comprometidos. Los LLM modernos se capacitan en vastos corpus de Internet: Common Crawl, Wikipedia, Reddit, artículos académicos y todo lo demás. Estos datos son:

Incompleto: los dominios de cola larga (leyes poco conocidas, temas científicos especializados, eventos locales) están subrepresentados. Cuando se hacen preguntas específicas sobre ellos, el modelo debe interpolar.

Inconsistente: Internet se contradice constantemente. Diferentes fuentes afirman diferentes hechos sobre los mismos eventos. El modelo aprende todas las versiones y no tiene ningún árbitro para determinar cuál es la correcta.

Desactualizado: los datos de capacitación tienen una fecha límite. Cuando se les pregunta sobre los eventos posteriores al corte, los modelos no pueden acceder a la información actual. Infieren a partir de patrones más antiguos, a menudo alucinando por completo acontecimientos recientes.

Envenenado: En el corpus de capacitación existen desinformación, citas mal atribuidas y mentiras descaradas. El modelo los aprende como patrones válidos. El famoso caso Mata v. Avianca, en el que un abogado citó casos falsos generados por ChatGPT, ocurrió porque ChatGPT había aprendido cómo son las citas legales plausibles sin saber cuáles eran reales.

RLHF: Optimización para lo incorrecto

Se suponía que el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) ayudaría. Al entrenar modelos sobre calificaciones de preferencias humanas, OpenAI, Anthropic y otros pretendieron hacer que los resultados sean más útiles, inofensivos y honestos.

Advertisement

Pero el RLHF introdujo un incentivo perverso. Los evaluadores humanos tienden a preferir respuestas seguras y completas a respuestas confusas e inciertas. Una respuesta que dice “Según la información disponible, la respuesta parece ser X, aunque la certeza es limitada” obtiene una puntuación más baja que una que dice “La respuesta es X”.

El modelo aprende esto. Optimiza la confianza porque la confianza se recompensa. El resultado: respuestas plausibles que suenan autoritarias y que pueden ser completamente inventadas.

Éste es el problema de los incentivos a la formación. El mismo mecanismo diseñado para hacer que la IA sea más útil la alienta activamente a adivinar con confianza en lugar de admitir su ignorancia.

Por qué las mitigaciones actuales no son suficientes

La industria de la IA ha desarrollado varias estrategias para reducir las alucinaciones. Todos ellos ayudan. Ninguno de ellos resuelve el problema.

Generación aumentada de recuperación (RAG)

Los sistemas RAG adjuntan un componente de recuperación al LLM. Antes de generar una respuesta, el sistema busca en una base de conocimientos seleccionada y fundamenta el resultado en los documentos recuperados. Los proveedores legales de IA como Thomson Reuters y LexisNexis utilizan enfoques de “jardín amurallado”, limitando los modelos a citar únicamente jurisprudencia verificada.

Esto reduce drásticamente las alucinaciones pero no las elimina. El modelo aún puede malinterpretar los documentos recuperados, alucinar conexiones entre fuentes reales o fabricar detalles cuando la recuperación arroja resultados incompletos. RAG también crea un nuevo modo de falla: si el documento relevante no está en el índice de búsqueda, el modelo puede llenar el vacío con invención.

Llamada de herramientas y conexión a tierra

Algunos sistemas brindan a los LLM acceso a herramientas externas (calculadoras, bases de datos, API) para verificar reclamos en tiempo real. Esto ayuda con las búsquedas de hechos pero introduce su propia superficie de error. El modelo debe decidir correctamente cuándo utilizar una herramienta y qué herramienta utilizar. Puede alucinar los resultados de las herramientas o malinterpretar los reales.

Capas de detección de alucinaciones

La última estrategia empresarial es implementar IA secundarias para detectar alucinaciones. Clearbrief, por ejemplo, se promociona como “corrector ortográfico para casos inventados”. Sirve como una capa de verificación que escanea los escritos legales en busca de citaciones inventadas antes de presentarlos.

Esto reconoce la realidad: los modelos básicos alucinarán. La única pregunta es si puedes detectar las alucinaciones antes de que causen daño. Es una estrategia válida, pero es una curita para una herida estructural.

La economía de la falta de fiabilidad gestionada

Para 2025, la adopción empresarial se habrá asentado en un marco pragmático. Las alucinaciones no se tratan como un problema a resolver sino como un riesgo a gestionar, como cualquier otra métrica de calidad.

Para aplicaciones de bajo riesgo (copias de marketing, lluvia de ideas, resguardos de códigos), se toleran las alucinaciones. La inferencia creativa suele ser una característica, no un error. Nadie sale perjudicado si la descripción de un producto es ligeramente hiperbólica.

Para aplicaciones de alto riesgo (presentaciones legales, diagnósticos médicos, presentaciones gubernamentales), las empresas implementan defensas en capas: RAG, llamada de herramientas, verificación humana, sistemas de detección. El objetivo no es cero alucinaciones sino tasas de alucinaciones aceptables.

Este enfoque escalonado se ha convertido en un estándar de la industria. Thomson Reuters y LexisNexis les dicen explícitamente a los clientes que las alucinaciones “no pueden llegar a cero” en las preguntas abiertas. Comercializan sus sistemas como de menor riesgo, no infalibles.

La implicación es significativa: la confianza y la adopción ahora dependen de gestionar la falta de confiabilidad, no de demostrar confiabilidad. Las empresas están creando flujos de trabajo en torno a las limitaciones de la IA en lugar de esperar a que se solucionen.

El déficit de confianza

Esto ha creado un creciente problema de confianza. Una encuesta de la APA de 2025 encontró que las preocupaciones sobre la inexactitud de la IA y las alucinaciones entre los psicólogos aumentaron de aproximadamente el 50% en 2024 a aproximadamente dos tercios en 2025, incluso cuando creció la adopción de herramientas de IA.

El patrón se repite en todas las profesiones. Los médicos, abogados, investigadores y analistas utilizan más la IA y confían menos en ella. Cada alucinación, cada cita inventada, cada diagnóstico claramente erróneo erosiona la credibilidad que hace que estas herramientas sean útiles.

Ésta es la paradoja de la capacidad sin confiabilidad. Los sistemas de IA ahora pueden aprobar exámenes de licencia profesional, pero los profesionales tratan cada vez más sus resultados como primeros borradores no verificados que requieren revisión humana.

Hacia dónde se dirige el campo

Si las alucinaciones no se pueden resolver dentro del paradigma actual, ¿qué viene después?

Ingeniería de contexto y orquestación

La estrategia dominante para 2025 es envolver los LLM en capas de orquestación sofisticadas. En lugar de pedirle al modelo que sea preciso, los ingenieros diseñan sistemas que restringen la libertad del modelo. Las indicaciones están cuidadosamente elaboradas. Los sistemas de recuperación tienen un alcance estricto. Los resultados se validan mediante múltiples pases de verificación.

Esto es “ingeniería de contexto”: el arte de estructurar entradas y flujos de trabajo para que los LLM tengan menos probabilidades de alucinar en primer lugar. Funciona, pero requiere una importante inversión en ingeniería y experiencia en el dominio.

Nuevas arquitecturas

Continúa la investigación sobre arquitecturas que podrían reducir las alucinaciones de forma nativa. Algunas propuestas incluyen:

  • Cuantificación de la incertidumbre: modelos que generan puntuaciones de confianza junto con predicciones
  • Modelos nativos de recuperación: sistemas en los que la conexión a tierra externa está integrada en la arquitectura, no atornillada
  • Verificación en el circuito: Modelos entrenados para comparar sus propios resultados con fuentes externas antes de responder.

Ninguno de ellos ha alcanzado escala de producción. La tensión fundamental entre predicción y verdad sigue sin resolverse.

Presión regulatoria

A medida que se acumulan los daños causados por las alucinaciones (negligencia legal, errores médicos, información errónea), aumenta la atención regulatoria. Algunas jurisdicciones están empezando a exigir la divulgación cuando se utiliza contenido generado por IA en presentaciones oficiales. Otros están explorando marcos de responsabilidad que trasladen la responsabilidad de los usuarios a los proveedores de IA cuando los sistemas funcionan mal.

La regulación no solucionará el problema técnico, pero puede cambiar la economía. Si los proveedores se vuelven responsables de los daños causados ​​por las alucinaciones, la inversión en mitigación se acelerará.

Qué significa esto para ti

Si está evaluando herramientas de inteligencia artificial para uso profesional, la pregunta clave no es “¿Esto alucina?” (todos los sistemas actuales lo hacen) pero “¿Qué pasa cuando alucina?”

Para casos de uso de alto riesgo: Exija transparencia sobre las estrategias de mitigación. ¿Qué bases de conocimiento alimentan el sistema RAG? ¿Qué capas de verificación existen? ¿Cuál es la tasa de alucinaciones documentada para su caso de uso específico? Nunca envíes contenido generado por IA sin verificación humana.

Para productividad general: Acepte cierto nivel de invención como parte del intercambio. Trate los resultados de la IA como primeros borradores, no como productos finales. Integre la verificación en su flujo de trabajo, incluso para tareas aparentemente mundanas.

Para equipos técnicos: Invierta en ingeniería de contexto. La diferencia entre un flujo de trabajo de IA confiable y una responsabilidad a menudo radica en cómo se empaqueta, restringe y verifica el sistema, no en las capacidades del modelo base.

La verdad incómoda

Las alucinaciones de la IA no son una vergüenza temporal que mejores modelos puedan solucionar. Son una consecuencia estructural de la predicción del próximo token entrenada con datos imperfectos con incentivos desalineados. Cada avance en la capacidad (más parámetros, más datos de entrenamiento, mejor RLHF) ha hecho que los modelos sean más útiles sin hacerlos más confiables.

Esto no significa que la IA sea inútil. Las ganancias de productividad son reales. Las capacidades son notables. Pero el revuelo en torno a la “inteligencia general artificial” oscurece una limitación fundamental: estos sistemas no saben lo que es verdad. Sólo saben lo que es probable.

Hasta que alguien invente una arquitectura que base la predicción en la realidad y no en las estadísticas, las alucinaciones permanecerán. No como un error que deba corregirse, sino como una característica de cómo funcionan estos sistemas.

La pregunta no es si la IA alucinará. La pregunta es si está preparado para cuando eso suceda.

Fuentes

Advertisement

🦋 Discussion on Bluesky

Discuss on Bluesky

Searching for posts...