Link copiado!

Por que as alucinações da IA ainda não foram resolvidas

Apesar dos avanços em GPT-5, Claude e Gemini, as alucinações da IA permanecem um problema estrutural central. O problema está embutido em como esses modelos são construídos e não será corrigido com mais dados ou maior número de parâmetros.

🌐
Tradução automática

Este artigo foi traduzido automaticamente do original em inglês. Ler o original em inglês

Visualização conceitual de uma rede neural de IA com saídas fragmentadas e com falhas representando alucinações

Principais conclusões

  • As alucinações são estruturais: Grandes modelos de IA prevêem a próxima palavra mais provável, não a verdadeira
  • O treinamento não resolve isso: os dados em escala da Web são incompletos, inconsistentes e muitas vezes errados. O modelo aprende esses erros fielmente
  • RLHF torna tudo pior: o aprendizado por reforço otimiza a utilidade e a confiança, o que recompensa suposições plausíveis em vez de incertezas honestas
  • As mitigações reduzem, não eliminam: RAG, chamada de ferramentas e camadas de detecção ajudam a gerenciar o risco, mas não podem resolver o problema fundamental

O Paradoxo da Confiança

Em dezembro de 2025, investigadores jurídicos documentaram uma tendência surpreendente: quatro a cinco novos processos judiciais por dia citam precedentes jurídicos gerados por IA que não existem. Apesar de anos de advertências e de vários constrangimentos de grande repercussão, os advogados continuam a apresentar relatórios com jurisprudência fabricada. O problema não é o descuido. O problema é que a IA parece muito confiante.

Isto ilustra o paradoxo da alucinação no cerne da inteligência artificial moderna. Os mesmos modelos celebrados para passar nos exames da ordem e nos testes de licenciamento médico estão simultaneamente inventando processos judiciais falsos com total confiança. GPT-5, Claude 3.5 e Gemini Ultra são dramaticamente mais capazes que seus antecessores, mas ainda assim inventam coisas.

Advertisement

Por que? Porque a alucinação não é um bug a ser corrigido. É uma consequência estrutural de como esses sistemas são construídos.

Como os LLMs realmente funcionam: a máquina do próximo token

O que um grande modelo de IA realmente faz? Basicamente, um LLM é um mecanismo de previsão do próximo token. Dada uma sequência de palavras (ou tokens), calcula a distribuição de probabilidade para o que vem a seguir e escolhe o candidato mais provável.

Pense nisso como um preenchimento automático extremamente sofisticado. Quando você digita “A capital da França é”, o modelo aprendeu com bilhões de documentos que o próximo token deveria ser “Paris”. Isso funciona perfeitamente para fatos bem documentados.

O problema surge em três cenários:

1. O modelo possui informações incompletas

Pergunte sobre um precedente legal obscuro do século XIX ou um fenômeno científico de nicho e os dados de treinamento poderão conter exemplos parciais, conflitantes ou nenhum exemplo relevante. O modelo não sabe que não sabe. Não tem nenhum conceito de incerteza embutido em sua arquitetura. Então ele faz o que foi treinado para fazer: produzir a continuação estatisticamente mais plausível.

Essa continuação pode ser uma citação de caso falsa perfeitamente formatada. A fluência é real. Os fatos não são.

2. Cascatas de erros na geração de formato longo

Os modelos autorregressivos geram um token por vez, realimentando cada saída como entrada para a próxima previsão. Isso cria uma cadeia frágil. Se o modelo produzir um token incorreto no início de uma resposta (uma data errada, um nome alucinado), cada token subsequente estará agora condicionado ao contexto corrompido.

O erro aumenta. Um único passo em falso no parágrafo um pode gerar uma narrativa totalmente fabricada no parágrafo cinco. O modelo não possui mecanismo para retroceder e verificar.

3. O objetivo é a produção, não a verdade

A questão fundamental: os LLMs são treinados para maximizar a probabilidade das sequências de texto, não a precisão das afirmações. A função de perda recompensa resultados que se parecem com os dados de treinamento. Não tem conceito de realidade externa, não tem base na verdade e não tem penalidade para fabricação confiante, desde que essa fabricação seja fluente.

Advertisement

É por isso que as alucinações são matematicamente inevitáveis ​​no paradigma atual. O objetivo do modelo é sempre adivinhar. Expressar incerteza é, literalmente, fora do objetivo.

O problema dos dados de treinamento

Além da arquitetura, os próprios dados ficam comprometidos. Os LLMs modernos treinam em vastos corpora da Internet: Common Crawl, Wikipedia, Reddit, trabalhos acadêmicos e tudo mais. Esses dados são:

Incompleto: Domínios de cauda longa (leis obscuras, tópicos científicos de nicho, eventos locais) estão sub-representados. Quando questionados sobre eles, o modelo deve interpolar.

Inconsistente: A internet se contradiz constantemente. Fontes diferentes afirmam fatos diferentes sobre os mesmos eventos. O modelo aprende todas as versões e não tem árbitro para qual é a correta.

Desatualizado: os dados de treinamento têm uma data limite. Quando questionados sobre eventos pós-corte, os modelos não conseguem acessar as informações atuais. Eles inferem a partir de padrões mais antigos, muitas vezes alucinando inteiramente os desenvolvimentos recentes.

Envenenado: desinformação, citações mal atribuídas e invenções descaradas existem no corpus de treinamento. O modelo os aprende como padrões válidos. O famoso caso Mata v. Avianca, em que um advogado citou casos falsos gerados pelo ChatGPT, aconteceu porque o ChatGPT aprendeu como são as citações legais plausíveis sem saber quais eram reais.

RLHF: Otimizando para a coisa errada

O Aprendizado por Reforço com Feedback Humano (RLHF) deveria ajudar. Ao treinar modelos sobre classificações de preferência humana, OpenAI, Anthropic e outros tiveram como objetivo tornar os resultados mais úteis, inofensivos e honestos.

Mas a RLHF introduziu um incentivo perverso. Os avaliadores humanos tendem a preferir respostas confiantes e completas a respostas limitadas e incertas. Uma resposta que diz “Com base nas informações disponíveis, a resposta parece ser X, embora a certeza seja limitada” tem pontuação mais baixa do que aquela que afirma “A resposta é X”.

O modelo aprende isso. Ele otimiza a confiança porque a confiança é recompensada. O resultado: respostas plausíveis e autoritárias que podem ser completamente fabricadas.

Advertisement

Este é o problema do incentivo à formação. O mesmo mecanismo concebido para tornar a IA mais útil incentiva-a ativamente a adivinhar com confiança, em vez de admitir a ignorância.

Por que as mitigações atuais são insuficientes

A indústria de IA desenvolveu várias estratégias para reduzir as alucinações. Todos eles ajudam. Nenhum deles resolve o problema.

Geração Aumentada de Recuperação (RAG)

Os sistemas RAG anexam um componente de recuperação ao LLM. Antes de gerar uma resposta, o sistema pesquisa uma base de conhecimento selecionada e fundamenta a saída nos documentos recuperados. Fornecedores legais de IA como Thomson Reuters e LexisNexis usam abordagens de “jardim murado”, limitando os modelos para citar apenas jurisprudência verificada.

Isso reduz drasticamente as alucinações, mas não as elimina. O modelo ainda pode interpretar mal os documentos recuperados, alucinar conexões entre fontes reais ou fabricar detalhes quando a recuperação retorna resultados incompletos. O RAG também cria um novo modo de falha: se o documento relevante não estiver no índice de pesquisa, o modelo pode preencher a lacuna com invenção.

Chamada de ferramenta e aterramento

Alguns sistemas dão aos LLMs acesso a ferramentas externas (calculadoras, bancos de dados, APIs) para verificar reclamações em tempo real. Isso ajuda nas pesquisas factuais, mas introduz sua própria superfície de erro. O modelo deve decidir corretamente quando usar uma ferramenta e qual ferramenta usar. Ele pode alucinar resultados de ferramentas ou interpretar mal os resultados reais.

Camadas de detecção de alucinações

A estratégia empresarial mais recente é implantar IAs secundárias para detectar alucinações. Clearbrief, por exemplo, se comercializa como “verificador ortográfico para casos inventados”. Ele serve como uma camada de verificação que verifica os documentos jurídicos em busca de citações fabricadas antes do arquivamento.

Isto reconhece a realidade: os modelos básicos terão alucinações. A única questão é se você consegue detectar as alucinações antes que elas causem danos. É uma estratégia válida, mas é um penso rápido para uma ferida estrutural.

A economia da falta de confiabilidade gerenciada

Até 2025, a adoção pelas empresas terá se estabelecido num quadro pragmático. As alucinações não são tratadas como um problema a ser resolvido, mas como um risco a ser gerenciado, como qualquer outra métrica de qualidade.

Para aplicativos de baixo risco (texto de marketing, brainstorming, stubs de código), alucinações são toleradas. A inferência criativa costuma ser um recurso, não um bug. Ninguém se machuca se a descrição de um produto for ligeiramente hiperbólica.

Para aplicações de alto risco (requerimentos legais, diagnósticos médicos, submissões governamentais), as empresas implementam defesas em camadas: RAG, chamada de ferramentas, verificação humana, sistemas de detecção. O objetivo não é zero alucinações, mas taxas de alucinações aceitáveis.

Essa abordagem em camadas tornou-se padrão da indústria. A Thomson Reuters e a LexisNexis dizem explicitamente aos clientes que as alucinações “não podem chegar a zero” para perguntas abertas. Eles comercializam seus sistemas como sendo de menor risco, e não infalíveis.

A implicação é significativa: a confiança e a adoção agora dependem do gerenciamento da falta de confiabilidade, e não da demonstração de confiabilidade. As empresas estão construindo fluxos de trabalho em torno das limitações da IA, em vez de esperar que essas limitações sejam corrigidas.

O déficit de confiança

Isso criou um problema crescente de confiança. Uma pesquisa da APA de 2025 descobriu que as preocupações sobre a imprecisão e alucinações da IA ​​entre psicólogos aumentaram de cerca de 50% em 2024 para cerca de dois terços em 2025, mesmo com o crescimento da adoção de ferramentas de IA.

O padrão se repete em todas as profissões. Médicos, advogados, pesquisadores e analistas estão usando mais a IA e confiando menos nela. Cada alucinação, cada citação fabricada, cada diagnóstico confiantemente errado corrói a credibilidade que torna estas ferramentas úteis.

Este é o paradoxo da capacidade sem confiabilidade. Os sistemas de IA podem agora ser aprovados em exames de licenciamento profissional, mas os profissionais tratam cada vez mais os seus resultados como primeiros rascunhos não verificados que exigem revisão humana.

Para onde o campo está indo

Se as alucinações não podem ser resolvidas dentro do paradigma atual, o que vem a seguir?

Engenharia de Contexto e Orquestração

A estratégia dominante para 2025 é envolver os LLMs em camadas de orquestração sofisticadas. Em vez de pedir que o modelo seja preciso, os engenheiros projetam sistemas que restringem a liberdade do modelo. Os prompts são cuidadosamente elaborados. Os sistemas de recuperação têm um escopo restrito. As saídas são validadas por meio de múltiplas passagens de verificação.

Isso é “engenharia de contexto” – a arte de estruturar entradas e fluxos de trabalho para que os LLMs tenham menos probabilidade de ter alucinações. Funciona, mas requer investimento significativo em engenharia e conhecimento especializado.

Novas Arquiteturas

A pesquisa continua em arquiteturas que podem reduzir nativamente as alucinações. Algumas propostas incluem:

  • Quantificação da incerteza: modelos que geram pontuações de confiança juntamente com previsões
  • Modelos nativos de recuperação: sistemas onde o aterramento externo é incorporado à arquitetura, não aparafusado
  • Verificação no circuito: modelos treinados para verificar seus próprios resultados em relação a fontes externas antes de responder

Nenhum deles alcançou escala de produção. A tensão fundamental entre previsão e verdade permanece sem solução.

Pressão Regulatória

À medida que os danos causados pelas alucinações se acumulam (más práticas legais, erros médicos, desinformação), a atenção regulamentar aumenta. Algumas jurisdições estão começando a exigir a divulgação quando conteúdo gerado por IA é usado em registros oficiais. Outros estão explorando estruturas de responsabilidade que transferem a responsabilidade dos usuários para os fornecedores de IA quando os sistemas funcionam mal.

A regulamentação não resolverá o problema técnico, mas poderá mudar a economia. Se os fornecedores se tornarem responsáveis ​​pelos danos causados ​​pelas alucinações, o investimento na mitigação será acelerado.

O que isso significa para você

Se você estiver avaliando ferramentas de IA para uso profissional, a questão principal não é “Isso é alucinante?” (todos os sistemas atuais têm), mas “O que acontece quando ele tem alucinações?”

Para casos de uso de alto risco: Exija transparência sobre estratégias de mitigação. Quais bases de conhecimento alimentam o sistema RAG? Quais camadas de verificação existem? Qual é a taxa de alucinação documentada para o seu caso de uso específico? Nunca envie conteúdo gerado por IA sem verificação humana.

Para produtividade geral: Aceite algum nível de invenção como parte da compensação. Trate os resultados da IA ​​como primeiros rascunhos, não como produtos finais. Integre a verificação ao seu fluxo de trabalho, mesmo para tarefas aparentemente mundanas.

Para equipes técnicas: invista em engenharia de contexto. A diferença entre um fluxo de trabalho de IA confiável e um passivo geralmente está na forma como o sistema é agrupado, restringido e verificado, e não nas capacidades do modelo básico.

A verdade desconfortável

As alucinações de IA não são um constrangimento temporário que modelos melhores irão resolver. Eles são uma consequência estrutural da previsão do próximo token treinada em dados imperfeitos com incentivos desalinhados. Cada avanço na capacidade (mais parâmetros, mais dados de treinamento, melhor RLHF) tornou os modelos mais úteis sem torná-los mais confiáveis.

Isso não significa que a IA seja inútil. Os ganhos de produtividade são reais. As capacidades são notáveis. Mas o entusiasmo em torno da “inteligência artificial geral” obscurece uma limitação fundamental: estes sistemas não sabem o que é verdade. Eles só sabem o que é provável.

Até que alguém invente uma arquitetura que baseie a previsão na realidade e não nas estatísticas, as alucinações permanecerão. Não como um bug a ser corrigido, mas como uma característica do funcionamento desses sistemas.

A questão não é se a IA terá alucinações. A questão é se você está preparado para quando isso acontecer.

Fontes

Advertisement

🦋 Discussion on Bluesky

Discuss on Bluesky

Searching for posts...