Início Notícias A IA é péssima no Sudoku, mas suas explicações são ainda piores....

A IA é péssima no Sudoku, mas suas explicações são ainda piores. Por que isso é preocupante

3
0


Os chatbots são genuinamente impressionantes quando você os observa fazendo coisas em que são bons, como escrever um e-mail básico ou criar imagens estranhas e de aparência futurista. Mas peça à IA generativa para resolver um daqueles quebra-cabeças no final de um jornal e as coisas podem sair dos trilhos rapidamente.

Foi isso que pesquisadores da Universidade do Colorado em Boulder descobriram quando desafiaram grandes modelos de linguagem para resolver o sudoku. E nem mesmo os quebra-cabeças 9×9 padrão. Um quebra-cabeça 6×6 mais fácil muitas vezes estava além das capacidades de um LLM sem ajuda externa (neste caso, ferramentas específicas para resolução de quebra-cabeças).

Uma descoberta mais importante ocorreu quando os modelos foram convidados a mostrar o seu trabalho. Na maior parte, eles não conseguiram. Às vezes eles mentiram. Às vezes, eles explicavam as coisas de maneiras que não faziam sentido. Às vezes eles tinham alucinações e começavam a falar sobre o tempo.

Se as ferramentas gen AI não conseguem explicar as suas decisões com precisão ou transparência, isso deve levar-nos a ser cautelosos à medida que damos a estas coisas mais controlo sobre as nossas vidas e decisões, disse Ashutosh Trivedi, professor de ciência da computação na Universidade do Colorado em Boulder e um dos autores do artigo publicado em julho na revista Findings of the Association for Computational Linguistics.

“Gostaríamos realmente que essas explicações fossem transparentes e refletissem por que a IA tomou essa decisão, e não a IA tentando manipular o humano, fornecendo uma explicação que um humano possa gostar”, disse Trivedi.

Não perca nenhum de nossos conteúdos técnicos imparciais e análises baseadas em laboratório. Adicione CNET como fonte preferencial do Google.

O artigo faz parte de um crescente corpo de pesquisas sobre o comportamento de grandes modelos de linguagem. Outros estudos recentes descobriram, por exemplo, que os modelos têm alucinações, em parte porque os seus procedimentos de formação os incentivam a produzir resultados que um utilizador irá gostar, em vez de resultados precisos, ou que as pessoas que utilizam LLMs para os ajudar a escrever ensaios têm menos probabilidades de se lembrarem do que escreveram. À medida que a geração AI se torna cada vez mais parte da nossa vida quotidiana, as implicações de como esta tecnologia funciona e como nos comportamos quando a utilizamos tornam-se extremamente importantes.

Ao tomar uma decisão, você pode tentar justificá-la ou pelo menos explicar como chegou a ela. Um modelo de IA pode não ser capaz de fazer o mesmo com precisão ou transparência. Você confiaria nisso?

Veja isto: Eu construí um PC AI do zero

04:07

Por que os LLMs têm dificuldade com o sudoku

Já vimos modelos de IA falharem em jogos e quebra-cabeças básicos antes. O ChatGPT da OpenAI (entre outros) foi totalmente esmagado no xadrez pelo oponente do computador em um jogo Atari de 1979. Um artigo de pesquisa recente da Apple descobriu que os modelos podem enfrentar outros quebra-cabeças, como a Torre de Hanói.

Tem a ver com a forma como os LLMs funcionam e preenchem lacunas de informação. Esses modelos tentam preencher essas lacunas com base no que acontece em casos semelhantes em seus dados de treinamento ou em outras coisas que viram no passado. Com um sudoku, a questão é de lógica. A IA pode tentar preencher cada lacuna em ordem, com base no que parece ser uma resposta razoável, mas para resolvê-la adequadamente, ela precisa olhar a imagem inteira e encontrar uma ordem lógica que mude de quebra-cabeça para quebra-cabeça.

Leia mais: 29 maneiras de fazer a Gen AI trabalhar para você, de acordo com nossos especialistas

Os chatbots são ruins no xadrez por um motivo semelhante. Eles encontram os próximos movimentos lógicos, mas não pensam necessariamente em três, quatro ou cinco movimentos à frente – a habilidade fundamental necessária para jogar bem xadrez. Às vezes, os chatbots também tendem a mover as peças de xadrez de maneiras que não seguem as regras ou colocam as peças em perigo sem sentido.

Você pode esperar que os LLMs sejam capazes de resolver o sudoku porque são computadores e o quebra-cabeça consiste em números, mas os quebra-cabeças em si não são realmente matemáticos; eles são simbólicos. “O Sudoku é famoso por ser um quebra-cabeça com números que pode ser feito com qualquer coisa que não seja número”, disse Fabio Somenzi, professor da CU e um dos autores do artigo de pesquisa.

Usei um exemplo de prompt do artigo dos pesquisadores e o entreguei ao ChatGPT. A ferramenta mostrou seu funcionamento e me disse repetidamente que tinha a resposta antes de mostrar um quebra-cabeça que não funcionava e depois voltar e corrigi-lo. Era como se o bot estivesse entregando uma apresentação que recebia edições de último segundo: esta é a resposta final. Não, na verdade, não importa, esta é a resposta final. Eventualmente, obteve a resposta, por tentativa e erro. Mas tentativa e erro não são uma forma prática de uma pessoa resolver um sudoku no jornal. Isso é apagar demais e estraga a diversão.

A IA e os robôs podem ser bons em jogos se forem construídos para jogá-los, mas ferramentas de uso geral, como grandes modelos de linguagem, podem ter problemas com quebra-cabeças lógicos.

Minério Huiying/Bloomberg/Getty Images

IA luta para mostrar seu trabalho

Os pesquisadores do Colorado não queriam apenas ver se os bots conseguiriam resolver quebra-cabeças. Eles pediram explicações sobre como os bots funcionavam por meio deles. As coisas não correram bem.

Testando o modelo de raciocínio o1-preview da OpenAI, os pesquisadores perceberam que as explicações – mesmo para quebra-cabeças resolvidos corretamente – não explicavam ou justificavam com precisão seus movimentos e erravam os termos básicos.

“Uma coisa em que eles são bons é fornecer explicações que pareçam razoáveis”, disse Maria Pacheco, professora assistente de ciência da computação na CU. “Eles se alinham com os humanos, então aprendem a falar como nós gostamos, mas se eles são fiéis aos passos reais necessários para resolver o problema é onde estamos lutando um pouco.”

Às vezes, as explicações eram completamente irrelevantes. Desde que o trabalho do artigo foi concluído, os pesquisadores continuaram testando os novos modelos lançados. Somenzi disse que quando ele e Trivedi estavam executando o modelo de raciocínio o4 da OpenAI nos mesmos testes, a certa altura, ele pareceu desistir completamente.

“A próxima pergunta que fizemos e a resposta foi a previsão do tempo para Denver”, disse ele.

(Divulgação: Ziff Davis, empresa controladora da CNET, entrou com uma ação judicial contra a OpenAI em abril, alegando que ela infringiu os direitos autorais de Ziff Davis no treinamento e operação de seus sistemas de IA.)

Modelos melhores ainda são ruins no que importa

Os pesquisadores do Colorado não são os únicos a desafiar os modelos de linguagem com o sudoku. Sakana AI tem testado a eficácia de diferentes modelos na resolução de quebra-cabeças desde maio. Sua tabela de classificação mostra que os modelos mais recentes, especialmente o GPT-5 da OpenAI, têm taxas de resolução muito melhores do que seus antecessores. O GPT-5 foi o primeiro nesses testes a resolver uma variante do problema do sudoku moderno 9×9 chamada Theta. Ainda assim, os LLMs lutam com o raciocínio real, em oposição à resolução de problemas computacionais, escreveram os pesquisadores do Sakana em uma postagem no blog. “Embora o GPT-5 tenha demonstrado impressionantes capacidades de raciocínio matemático e pensamento estratégico semelhante ao humano em quebra-cabeças com restrições algébricas, ele lutou significativamente com desafios de raciocínio espacial que exigem compreensão espacial”, escreveram eles.

A equipe de pesquisa do Colorado também descobriu que o GPT-5 foi um “avanço significativo”, mas ainda não é muito bom na resolução do sudoku. O GPT-5 ainda não consegue explicar como chegou a uma solução, disseram eles. Em um teste, a equipe do Colorado descobriu que o modelo explicou que colocou um número no quebra-cabeça que já estava no quebra-cabeça como dado.

“No geral, nossas conclusões do estudo original permanecem essencialmente inalteradas: houve progresso na capacidade de resolução bruta, mas ainda não em explicações passo a passo confiáveis”, disse a equipe do Colorado por e-mail.

Explicar-se é uma habilidade importante

Quando você resolve um quebra-cabeça, é quase certo que você consegue orientar outra pessoa em seu pensamento. O fato de esses LLMs terem falhado tão espetacularmente nessa tarefa básica não é um problema trivial. Com as empresas de IA falando constantemente sobre “agentes de IA” que podem agir em seu nome, ser capaz de se explicar é essencial.

Consideremos os tipos de tarefas que estão sendo atribuídas à IA agora ou planejadas para um futuro próximo: dirigir, pagar impostos, decidir estratégias de negócios e traduzir documentos importantes. Imagine o que aconteceria se você, uma pessoa, fizesse uma dessas coisas e algo desse errado.

“Quando os humanos têm que enfrentar suas decisões, é melhor que sejam capazes de explicar o que os levou a essa decisão”, disse Somenzi.

Não se trata apenas de obter uma resposta que pareça razoável. Precisa ser preciso. Um dia, a explicação de uma IA sobre si mesma poderá ter que ser sustentada em tribunal, mas como pode o seu testemunho ser levado a sério se se sabe que mente? Você não confiaria em uma pessoa que não conseguisse se explicar e também não confiaria em alguém que estivesse dizendo o que você queria ouvir em vez da verdade.

“Ter uma explicação é muito próximo da manipulação se for feita pela razão errada”, disse Trivedi. “Temos que ter muito cuidado com a transparência dessas explicações”.



Fonte de notícias