Após vencer uma competição proposta pela empresa americana HuggingFace, Jonatas Grosman, ex-aluno de mestrado e doutorado do Departamento de Informática do Centro Técnico Científico da PUC-Rio (CTC/PUC-Rio), faz sucesso com o seu modelo Speech-to-text – conversão da voz falada para texto.

Trata-se de um dos mais baixados no mundo pela plataforma. O modelo de conversão para Inglês, que pode ser adquirido neste link, já teve mais de 60 milhões de downloads.

Qualquer pessoa com acesso à internet pode baixar o modelo e executá-lo em seu próprio computador ou celular gratuitamente. Em relação ao processo de conversão de voz em texto, o sistema funciona com a divisão do áudio em partes com poucos milissegundos de duração a fim de determinar onde cada letra falada está presente em cada instante do áudio.

Jonatas explica que o desenvolvimento do modelo se deu durante a construção da sua tese de doutorado, que consistia em investigar os viéses contidos em grandes modelos de reconhecimento de fala.

Orientado pelo professor Helio Lopes, do Departamento de Informática da PUC-Rio, Jonatas superou competidores de diversos países. A solução proposta ganhou destaque por ser a melhor em Espanhol, Português, Russo, Inglês, Alemão, Francês, Polonês e Italiano, entre várias outras línguas.

‘’Nessa competição (HuggingFace), eu construí diversos modelos que ficaram entre os melhores da competição em vários idiomas, incluindo esse modelo, que é para transcrever áudios em inglês.’’

O Lopes se diz extremamente orgulhoso do feito de seu ex-aluno.

‘’O Jonatas é um ex-aluno muito criativo e muito competente na pesquisa e no desenvolvimento. Nossa formação, dada a ele e outros alunos que oriento, é justamente para que brilhem em suas opções de carreira‘’, reforça o professor.