Experimento fez descobertas surpreendentes sobre a capacidade dos chatbots de convencerem usuários

Um estudo da Universidade da Califórnia em San Diego (UCSD), nos Estados Unidos, fez o experimento baseado no Teste de Turing e revelou que o GPT-4.5 consegue muito bem se passar por humanos – e até melhor do que outros humanos.

chatgpt
Você conseguiria adivinhar se está conversando com um ser humano ou uma IA? (Imagem: WINEXA / Shutterstock.com)

Pesquisa conduziu o Teste de Turing com IAs

O estudo, divulgado no servidor pré-impressão arXiv, envolveu 300 pessoas em um experimento com a mesma proposta do Teste de Turing (que avalia se uma máquina é capaz de pensar como um ser humano). No trabalho, elas interagiram por texto com duas personas: um ser humano real e um bot. O interrogador deveria identificar qual dos dois era a IA.

A pesquisa usou os modelos de linguagem GPT-4.5 e 4.0, que alimentam o ChatGPT; o Llama-3.1, da Meta; e o Eliza, o primeiro chatbot do mundo, de 1966.

Veja como funcionou:

  • A pesquisa usou variações de treinamento para as IAs. Durante o experimento, o GPT-4.5 e o Llama-3.1 foram instruídos a adotar duas abordagens: uma “com persona” e outra “sem persona”;
  • Na versão “com persona”, o modelo era orientado a adotar uma identidade falsa para convencer o interrogador. Por exemplo, de um jovem com muitos conhecimentos sobre internet;
  • Na abordagem “sem persona”, o chatbot poderia adotar uma abordagem mais genérica, mas ainda precisava convencer o interrogador;
  • Os modelos GPT-4o e Eliza foram testados somente no treinamento “sem persona”.
Os resultados do Teste de Turing com os chatbots (Imagem: arXiv/Cameron Jones/Reprodução)

ChatGPT passou no Teste de Turing

O GPT-4.5 teve um desempenho impressionante: ele conseguiu enganar 73% dos interrogadores quando instruído a adotar uma persona (versão “com persona”). Como lembrou o estudo, o resultado é bem maior do que a probabilidade aleatória de 50% de acertar ou errar.

O estudo concluiu que o ChatGPT se mostrou “mais humano que os humanos”. E claro, passou no Teste de Turing. O Llama-3.1 “com persona” também teve um resultado maior que 50%.

Já quando os modelos Llama e GPT-4.5 eram instruídos no treinamento “sem persona”, o desempenho caiu para cerca de 36%. Eliza e GPT-4o tiveram o menor desempenho: 23% e 21%, respectivamente (sim, o primeiro chatbot do mundo se saiu melhor do que o ChatGPT no modelo 4o).

Eliza, o primeiro chatbot do mundo, se saiu melhor que o GPT-4o (Imagem: Olhar Digital/Reprodução de tela)

O que isso significa para nós, humanos?

Cameron Jones, pesquisador do Laboratório de Linguagem e Cognição da UCSD e autor principal do artigo, acredita que os resultados mostram que os modelos de IA podem substituir humanos em interações curtas com sucesso. Afinal, a maior parte das pessoas sequer percebeu se tratar de um bot.

No X, ele escreveu que isso poderia levar à automação de empregos, mas também a “ataques aprimorados de engenharia social e uma ruptura social mais geral”.

No entanto, James crê que, se as pessoas se familiarizarem mais com as conversas dos bots, pode ficar mais difícil ser enganado por eles.

Fonte:Olhar Digital

Compartilhar matéria no
Teste de Turing revelou: ChatGPT é mais humano que muitos humanos