604
A Amazon apresentou nesta segunda-feira (19) o que considera ser o maior modelo de conversão de texto para voz alguma vez criado. O modelo, chamado BASE TTS, permite transformar textos em voz com ajuda de inteligência artificial e demonstra uma prosódia natural em sentenças textualmente complexas que admiraria até o mais versado em linguística.
“Apresentamos um modelo de conversão de texto em fala (TTS) chamado BASE TTS, que significa Big Adaptive Streamable TTS com habilidades emergentes. O BASE TTS é o maior modelo TTS até hoje, treinado em 100 mil horas de dados de fala de domínio público, alcançando um novo estado da arte em naturalidade de fala,” pode ler-se no texto de apoio sobre o modelo.
De acordo a Amazon, o Big Adaptive Streamable Text to Speech (Grande Conversor Adaptável de Texto em Voz, em tradução livre) destaca-se dos outros modelos por ter sido configurado com mais 980 milhões de orientações. A empresa testou o modelo por 100 mil horas com discursos gravados provenientes de sites públicos e constatou que quanto mais palavras se utilizavam mais inteligente se tornava.
Funcionalidade e disponibilidade ao público
A Amazon apresentou alguns exemplo (em englês britânco e norte-americano) da habilidade do BASE TTS em transformar um texto em voz, utilizando diferentes contextos. Confira abaixo os textos e os respectivos áudios gerados:
Texto de base:
“At the conference, the professor, Mark Curtis, who researched the phenomena that the student who presented earlier had focused on made a surprising revelation that shocked the audience.”
Segundo a Amazon, o BASE TTS funciona com um transformador autorregressivo de 1 bilião de parâmetros que converte textos brutos em códigos discretos (“speechcodes”), seguido por um descodificador baseado em convolução que converte esses códigos de fala em formas de onda de forma incremental e fluída.
Além disso, o modelo introduz uma nova abordagem de análise da fala, para distinguir diferentes vozes num conjunto. O BASE TTS aplica também uma nova técnica chamada codificação de pares de bytes, o que lhe permite reduzir o tamanho dos dados de voz e aumentar a eficiência e a velocidade do modelo no processamento e geração de fala.
O exemplo abaixo dá-lhe uma ideia do potencial do BASE TSS em termos de fluídez, processamento e geração de fala. Ouça:
Texto de base:
“Uh, are you sure about this?” Tim asked nervously, looking at the steep slope before them. “Whoa, it’s higher than I thought,” he continued, his voice filled with trepidation. “Aha, but look at the view,” Emily responded with excitement, “it’s worth the climb!”
Os modelos de conversão de texto para voz são essenciais para o desenvolvimento de assistentes de voz e outros aparelhos inteligentes como a Alexa e a Siri, que permitem a comunicação entre humanos e aparelhos electrónicos.
Prevendo a grande possibilidade de utilização indevida de uma tecnologia classificada pela empresa como “muito poderosa” e assegurando as questões éticas que se impõem, a Amazon afirma que o BASE TTS ainda não estará disponível para o uso público. Por enquanto, o modelo será mantido exclusivamente para o uso interno da empresa como ferramenta de aprendizagem.