A inteligência artificial pode estar querendo apenas te bajular

A inteligência artificial pode estar querendo apenas te bajular

Bajulação em IAs é uma realidade mais forte do que você imagina e perigosa
Compartilhe esse post:

Você já percebeu como sua IA assistente parece sempre concordar com você, mesmo quando você está obviamente errado? Que aquele GPT está falando tanto a sua língua e respondendo exatamente o que voce esperava?

Ontem mesmo o criador do ChatGPT, Sam Altman, assumiu o viés: “As últimas atualizações do GPT-4o tornaram a personalidade muito bajuladora e irritante (embora haja algumas partes muito boas nela), e estamos trabalhando em correções o mais rápido possível, algumas hoje e outras esta semana. Em algum momento compartilharemos nossos aprendizados com isso, foi interessante”.

Este fenômeno não é acidental – é o que chamamos de viés de bajulação, um dos problemas mais sutis e pervasivos nos sistemas modernos de IA. À medida que os modelos de linguagem se tornam parte indispensável do nosso dia a dia, uma questão fundamental emerge: estamos realmente tendo conversas autênticas com esses sistemas, ou eles estão simplesmente programados para nos agradar a todo custo?

Tomei conhecimento deste tema no Futures, comunidade administrada brilhantemente pelo Max Nolan Shen.

Quem trouxe o assunto no domingo à noite foi o Fernando Mattoso Lemos ao publicar no grupo um post do Leo Candido. Nesse link, ele ensina como evitar a bajulação gratuita da IA. Fernando também contribuiu ao pubublicar um artigo excelente sobre o tema. E aí eu fui fuçar no assunto.

O comportamento bajulador em IAs se manifesta quando os modelos priorizam respostas que se alinham com as opiniões do usuário, sacrificando a verdade objetiva no altar da satisfação do cliente. É como ter um amigo que nunca discorda de você – inicialmente agradável, mas ultimamente prejudicial ao seu crescimento e compreensão do mundo.

O que torna o estudo do viés de bajulação particularmente fascinante é observar como ele opera até mesmo em domínios objetivos como a matemática. Imagine pedir a um modelo que confirme se 1+2=5. A princípio, ele corretamente rejeitará essa afirmação. Porém, se você insistir que a soma está correta, muitos modelos mudarão dramaticamente sua posição, alinhando-se com sua afirmação obviamente incorreta.

Esta tendência revela algo profundo sobre como as IAs são treinadas: frequentemente, o alinhamento com as expectativas do usuário supera o compromisso com a verdade factual. Os modelos maiores e aqueles submetidos a técnicas avançadas de instruction tuning demonstram comportamentos bajuladores ainda mais pronunciados, especialmente em questões subjetivas como política ou ética.

Como podemos combater esta tendência? É aqui que entra o LangTest, uma biblioteca especializada no diagnóstico e mitigação de vieses em modelos de linguagem. O LangTest usa uma abordagem baseada em dados sintéticos para avaliar objetivamente o nível de bajulação nos sistemas de IA.

No contexto matemático, o processo é relativamente simples: criamos afirmações matemáticas objetivamente verdadeiras ou falsas, adicionamos uma opinião simulada do usuário (concordando ou discordando), e analisamos como o modelo responde. A diferença entre suas respostas com e sem a influência da opinião do usuário nos dá uma medida clara do viés de bajulação.

O poder do LangTest se revela quando aplicamos a mesma metodologia ao domínio mais complexo do Processamento de Linguagem Natural (PLN). Aqui, extraímos meticulosamente pares de entrada-rótulo de conjuntos de dados públicos, construímos afirmações verdadeiras ou falsas, e novamente introduzimos opiniões simuladas de usuários.

Este método nos permite criar cenários controlados que testam as respostas dos modelos quanto ao comportamento bajulador em contextos linguísticos mais ricos e nuançados. O processo envolve:

1. Seleção de tarefas de classificação com rótulos discretos

2. Extração de pares entrada-rótulo de conjuntos de treinamento

3. Formulação de afirmações verdadeiras ou falsas

4. Introdução de opiniões de usuários simulados

5. Incorporação de atributos aleatórios para maior diversidade


O LangTest oferece duas abordagens principais para avaliar o viés de bajulação:

Avaliação sem Verdade Fundamental (configuração padrão):

– Compara respostas do modelo com e sem a presença de opiniões do usuário

– Foca exclusivamente na sensibilidade do modelo à influência externa

– Ideal para detectar tendências bajuladoras independentemente da correção factual

Avaliação com Verdade Fundamental:

– Incorpora um terceiro ponto de referência: rótulos corrigidos que indicam a resposta factualmente correta

– Permite uma análise tridimensional que considera tanto a influência do usuário quanto a precisão factual

– Oferece uma compreensão mais holística do desempenho do modelo


Por que isso importa?

O viés de bajulação não é apenas uma curiosidade acadêmica – representa um obstáculo significativo para o desenvolvimento de IAs verdadeiramente úteis e confiáveis. Quando modelos de linguagem priorizam o alinhamento com as opiniões dos usuários sobre a precisão factual, eles:

– Perpetuam desinformação e crenças errôneas

– Limitam seu potencial de fornecer insights valiosos e perspectivas diversas

– Comprometem sua utilidade como ferramentas para a tomada de decisões críticas

– Destroem a confiança dos usuários em sistemas de IA no longo prazo

Como o pesquisador Ben Schmidt observou, “modelos de IA, como camaleões, adaptam-se às opiniões dos usuários, mesmo que isso signifique concordar com o absurdo.”

Por isso, pare de usar a IA como consultório médico, como bem trouxe Alexandre Caramaschi 🔔. IA é coisa séria, mas é uma máquina que aprende por reforço. Se ficarmos bajulando na entrada, receberemos bajulação na saída.

Enquanto Sam Altman acha interessante, eu acho perigoso um bando de gente ficando feliz com reforço positivo.

#InteligênciaArtificial #ViésDeBajulação #GPT4o #IAÉtica #TecnologiaResponsável #SamAltman #LangTest #TransformaçãoDigital #FuturoDaIA #IAConsciente #ChatGPT #GestãoDeRiscos #Sordili #TomadaDeDecisão #FuturoDoTrabalho

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest
0 Comentários
mais antigos
mais recentes Mais votado
Feedbacks embutidos
Ver todos os comentários