A ferramenta com inteligência artificial da Microsoft capaz de clonar a voz de pessoas é perigoso demais para ser lançado para o público, apontam pesquisadores envolvidos com o projeto. O modelo agora será utilizado exclusivamente para pesquisas.
Conhecido como VALL-E 2, o modelo é um codificador neural de linguagem, um tipo de IA que usa técnicas de redes neurais para codificar e decodificar informações linguísticas.
"Atualmente, não temos planos de incorporar o VALL-E 2 em um produto ou expandir seu acesso ao público", anunciou a Microsoft em seu site oficial. "Isso pode acarretar riscos potenciais no uso indevido do modelo, como falsificação de identificação de voz ou personificação de um locutor específico", complementou.
Diferente do VALL-E original lançado em janeiro de 2023, o VALL-E 2 consegue sintetizar vozes que não foram apresentadas durante o treinamento, sintetizando vozes com base em um pequeno clipe de áudio, copiando entonação e vários detalhes da voz original.
Porém, a Microsoft reconhece que o modelo pode ter utilidade em outros contextos, como educação, entretenimento, jornalismo, conteúdo autoral ou acessibilidade.
A empresa, no entanto, informa que o modelo ainda não é perfeito. "Embora o VALL-E 2 possa falar com uma voz semelhante à do talento vocal, a semelhança e a naturalidade dependem da duração e da qualidade do prompt de fala, do ruído de fundo, bem como de outros fatores", ressaltou a empresa.
VALL-E 2 não é o único modelo da categoria
Ainda que a Microsoft tenha entendido o risco de lançar uma ferramenta como a VALL-E 2 para o público, outras empresas testam IAs parecidas. Exemplo disso é a OpenAI, que em abril apresentou o Voice Engine, modelo capaz de copiar a voz de alguém com apenas 15 segundos de demonstração.
De forma similar, a OpenAI entende que a tecnologia pode ser usada para fins educativos, ou para proporcionar acessibilidade. A empresa percebe a ferramenta como uma solução para pessoas condições que prejudicam ou impedem a fala.
Atualmente, há soluções comerciais que exploram o uso de IA para clonar vozes de pessoas reais. O AI Assistant do Truecaller, por exemplo, usa o Microsoft Azure AI Speech para responder chamadas com voz.
Comments