Um estudo foi capaz de mostrar que a tecnologia usada no modelo de inteligência artificial da Meta pode traduzir 200 idiomas diferentes. O modelo amplia o número de idiomas que podem ser traduzidos por meio de tradução automática.
Esses modelos precisam normalmente de uma abundância de dados acessíveis on-line para treinar, que podem não estar publicamente, de forma barata ou comumente disponíveis para alguns idiomas, chamados de “linguagens de poucos recursos”.
Aumentar a produção linguística de um modelo em termos do número de línguas que ele traduz pode afetar negativamente a qualidade das traduções do modelo.
Contudo, o estudo de Marta Costa-jussà e feito com a equipe No Language Left Behind (NLLB) desenvolveu uma abordagem multilíngua, que permite que modelos neurais de tradução automática aprendam como traduzir idiomas com poucos recursos usando sua capacidade pré-existente de traduzir idiomas com muitos recursos.
- Os pesquisadores desenvolveram uma ferramenta de tradução multilíngua online, chamada NLLB-200, que inclui 200 idioma.
- A ferramenta contém três vezes mais línguas com poucos recursos do que línguas com muitos recursos e tem um desempenho 44% melhor do que os sistemas pré-existentes.
- Como os pesquisadores só tiveram acesso a cerca de 2 mil amostras das várias línguas de poucos recursos, para aumentar o volume de dados de formação para o NLLB-200, utilizaram um sistema de identificação de línguas para identificar mais instâncias desses dialetos.
- A equipe também extraiu dados textuais bilíngues de arquivos da Internet, o que ajudou a melhorar a qualidade das traduções fornecidas pelo NLLB-200.
Apesar de reconhecerem que erros de tradução ainda podem ocorrer, os autores acreditam que a ferramenta pode ajudar as pessoas que falam línguas raramente traduzidas a acessar a internet ou outras tecnologias.
Além disso, destacam a educação como uma aplicação particularmente significativa para a ferramenta, uma vez que o modelo poderia ajudar aqueles que falam línguas com poucos recursos a ter acesso a mais livros e artigos.