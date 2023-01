Bianca Bellucci

VALL-E é um novo recurso de inteligência artificial capaz de replicar a voz humana de forma bastante convincente. O grande diferencial está no fato de que a ferramenta só precisa de uma amostra de 3 segundos para tal. E, com isso, consegue reproduzir tom, timbre e sotaque, bem como a emoção do locutor. A ferramenta foi criada pela Microsoft e apresentada por meio do GitHub.

Para entregar tal realismo, o VALL-E analisa a gravação e divide o áudio em componentes por meio do EnCodec – rede neural alimentada por inteligência artificial desenvolvida pela Meta. Depois, com base nos dados de treinamento, que contemplam 60 mil horas de fala entre mais de 7 mil usuários, a ferramenta determina como essa voz soaria expressando outras falas.

Por conta da alta fidelidade de áudio – veja alguns exemplos disponíveis no site oficial –, a Microsoft decidiu manter a ferramenta privada em um primeiro momento. Assim, evita-se o uso indevido da plataforma, como em casos de falsidade ideológica. Já está nos planos da empresa, no entanto, desenvolver um software capaz de detectar se o áudio é verdadeiro ou produzido pelo VALL-E.

É importante ressaltar que a replicação da voz humana não é novidade. Um exemplo é a tecnologia da Sonantic – recém-adquirida pelo Spotify. A inteligência artificial da empresa conseguiu devolver a fala de Val Kilmer. O ator parte de sua voz após ser vítima de um câncer na garganta. O recurso, inclusive, foi usado em sua participação no filme Top Gun: Maverick.