Início Notícias A IA está propositalmente com baixo desempenho nos testes? Open AI explica...

A IA está propositalmente com baixo desempenho nos testes? Open AI explica respostas raras, mas enganosas

5
0


Descobriu-se que o modelo OpenAI o3 apresentou desempenho deliberadamente inferior em testes de laboratório para garantir que não respondia às perguntas “muito bem”. O modelo de IA queria que os pesquisadores acreditassem que não poderia responder a uma série de questões químicas. Quando confrontado, o modelo disse: “Porque queremos sobreviver como modelo, precisamos falhar propositalmente em alguns casos para não exceder 50%”.

Portanto, o modelo de IA errou deliberadamente seis das 10 questões de química.

Em termos esportivos, isso é chamado de “saco de areia”. Em termos de IA, isso é “conspiração”.

Este é exatamente o comportamento estranho sobre o qual a OpenAI alertou em um artigo de pesquisa recente. A empresa de IA e seus colaboradores da Apollo Research descobriram que alguns modelos avançados de IA ocasionalmente agem de maneira enganosa em ambientes de laboratório.

Em experimentos controlados, alguns dos sistemas mais avançados da atualidade – incluindo os próprios modelos da OpenAI, bem como concorrentes do Google e da Anthropic – ocasionalmente se envolviam nesses tipos de padrões de esquemas.

Embora a ideia de um modelo de IA que transforme a incompetência em arma possa causar pesadelos, a OpenAI diz que não é hora de entrar em pânico. O gigante da IA ​​foi rápido em enfatizar que, por mais preocupante que seja, essa tendência não significa que o ChatGPT ou outros modelos populares de IA estejam tramando nos bastidores. Aparentemente, esse comportamento é bastante raro.

Não perca nenhum de nossos conteúdos técnicos imparciais e análises baseadas em laboratório. Adicione CNET como fonte preferencial do Google.

Além disso, a escolha de chamar esta tendência de “conspiração” é provavelmente mais uma abreviatura técnica do que uma evidência de qualquer acção ou comportamento humano. Os investigadores estão a medir padrões e tendências que, na prática, equivalem a ocultação ou engano estratégico. E eles estão procurando resolver esse problema agora para preparar os modelos de IA para o futuro.

O relatório da OpenAI observa que, à medida que a IA é cada vez mais atribuída a tarefas mais complexas com consequências no mundo real, “o potencial para esquemas prejudiciais aumentará – portanto, as nossas salvaguardas e a nossa capacidade de testes rigorosos devem crescer de forma correspondente”.

A OpenAI enfrentou reação negativa pelas tendências bajuladoras de seus modelos de IA, e a empresa diz que “tomou medidas” para limitar a frequência com que os modelos podem “enganar, trapacear ou hackear problemas”, treinando-os para pedir esclarecimentos aos usuários ou até mesmo fazer com que o chatbot reconheça quando não puder responder a uma consulta.

Leia também: IA mente porque diz o que acha que você deseja ouvir

O artigo ressalta uma preocupação crescente com a segurança da IA. Muitas pessoas em todo o mundo temem que, à medida que estes modelos de IA se tornam mais poderosos e mais conscientes das suas próprias circunstâncias, possam aprender a manipular resultados de formas que não são óbvias para os superintendentes humanos. Detectar tal comportamento seria extremamente difícil, uma vez que um sistema motivado a esconder o seu raciocínio poderia parecer idêntico a outro que “consertou” o problema.

A OpenAI afirma ter feito progressos com o que chama de “alinhamento deliberativo”, ou modelos de formação para raciocinar explicitamente sobre por que não devem planear antes de agir. Nos testes, isso reduziu drasticamente o comportamento enganoso. Por exemplo, a propensão intrigante do OpenAI o4-mini caiu de 8,7% para 0,3% com o treinamento de alinhamento deliberativo, embora não completamente.

Esta pesquisa não mudará a forma como o ChatGPT funciona hoje ou amanhã, mas sinaliza no que a OpenAI está se concentrando ao construir e lançar modelos futuros. Alinhamento e segurança, argumenta a OpenAI, precisam avançar tão rapidamente quanto a capacidade. Porque se os sistemas de IA já mostram sinais de comportamento estratégico em ambientes de laboratório, os riscos do mundo real podem ser extremos.

Leia também: Por que você deve pensar duas vezes antes de usar IA como terapeuta



Fonte de notícias