Pesquisadores criaram um busto robótico com rosto e GPT-3.5, a tecnologia por trás da versão convencional do ChatGPT. A equipe, com membros da Universidade Heriot-Watt e da Alana AI, o projetaram para conversar com usuários e fornecer informações em contextos específicos.
Para quem tem pressa:
- Pesquisadores criaram um busto robótico que combina a tecnologia GPT-3.5, usada no ChatGPT, com um sistema de expressões faciais controladas por uma cabeça robótica humanoide;
- O sistema integra o modelo GPT-3.5 para gerar respostas e expressões faciais, que são transmitidas pelo robô Furhat em termos falados e fisicamente.
- O FurChat foi testado no National Robotarium do Reino Unido, interagindo com visitantes e fornecendo informações sobre a instalação, empreendimentos de pesquisa e eventos futuros;
- O experimento inicial demonstrou eficácia na comunicação com os usuários, indicando que essa tecnologia poderia ser aplicada em espaços públicos e outros locais no futuro.
A parte conversacional rola por meio do FurChat, enquanto as expressões faciais ficam a cargo da Furhat, a cabeça robótica humanóide. As informações sobre o projeto constam num artigo pré-publicado no arXiv e numa reportagem do site Tech Xplore.
O robô com ChatGPT e rosto
O principal objetivo do trabalho da equipe foi aplicar conversas contextuais específicas usando modelos grandes de linguagem (LLMs, na sigla em inglês). Além disso, o pesquisador Oliver Lemon e seus colegas esperavam testar a capacidade desses modelos de gerar expressões faciais alinhadas com o que um robô ou avatar está comunicando ou respondendo.
Queríamos investigar vários aspectos da IA incorporada para interação natural com humanos. Em particular, estávamos interessados em combinar o tipo de conversa geral ‘de domínio aberto’ que você pode ter com LLMs como o ChatGPT com fontes de informação mais úteis e específicas, neste caso, por exemplo, informações sobre um prédio e organização.
Oliver Lemon, um dos pesquisadores que realizou o estudo, ao Tech Xplore
As respostas dadas pelo agente conversacional incorporado da equipe e suas expressões faciais são geradas pelo modelo GPT-3.5. Essas são então transmitidas em termos falados e fisicamente pelo robô Furhat.
Segundo Lemon, este “é o primeiro sistema que conhecemos que combina LLMs tanto para conversas gerais quanto para fontes de informação específicas com animações automáticas e expressivas de robô”.