Voicebox: Meta anuncia IA que converte texto em fala e pode editar áudios

2 min de leitura
Imagem de: Voicebox: Meta anuncia IA que converte texto em fala e pode editar áudios
Imagem: Meta/Divulgação

A Meta revelou nesta sexta-feira (16) o Voicebox, mais novo avanço da dona do Facebook em inteligência artificial generativa. A tecnologia é capaz de converter texto em fala, realizando um trabalho semelhante ao que o Dall-E faz com a descrição textual e as imagens.

Treinado com mais de 50 mil horas de áudio, incluindo falas gravadas e transcrições de audiolivros de domínio público, o mecanismo pode “produzir clipes de áudio de alta qualidade”, de acordo com a big tech. Mutilíngue, o modelo gera falas em seis idiomas, entre os quais o português.

smart people are cooler

Tecnologia, negócios e comportamento sob um olhar crítico.

Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo

Ainda conforme a empresa, os testes mostraram que os modelos de reconhecimento de fala treinados em fala sintética criada pela IA generativa funcionam quase tão bem quanto aqueles treinados em fala real. O Voicebox também demonstrou uma degradação da taxa de erro menor que a de concorrentes como Vall-E e YourTTS.

A tecnologia pode ser usada em diferentes tarefas.A tecnologia pode ser usada em diferentes tarefas.Fonte:  Meta/Divulgação 

O conversor de texto em fala da Meta poderá ser utilizado para ajudar criadores na geração de clipes de áudio e pessoas cegas a ouvir mensagens escritas, além de permitir que o usuário “fale” qualquer idioma reproduzindo sua própria voz. O sistema pode ainda fornecer vozes mais naturais a assistentes virtuais e a personagens no metaverso.

Edição de áudio e remoção de ruídos

Além de converter texto em áudio, o Voicebox também é capaz de realizar várias outras tarefas. Uma delas é a edição dos clipes de áudio, da mesma forma que alguns softwares fazem, otimizando o trabalho de pequenos ajustes e correções na gravação.

Caso o usuário identifique um trecho da fala que tenha sido interrompido por um latido de cachorro ou qualquer outro tipo de ruído, por exemplo, pode cortar esta parte e instruir a IA a gerar novamente aquele pedaço, sem a necessidade de regravar todo o conteúdo. A função permite ainda substituir palavras pronunciadas de forma errada.

A IA generativa da Meta também faz edições de áudio.A IA generativa da Meta também faz edições de áudio.Fonte:  Meta/Divulgação 

Usando uma amostra de fala de apenas dois segundos, o sistema também consegue combinar o estilo do áudio original com o texto que será convertido, mantendo o estilo da voz original no conteúdo gerado pela tecnologia. Como isso é feito em qualquer um dos idiomas compatíveis, será possível usá-lo para se comunicar de forma autêntica e natural em outras línguas.

Segundo a Meta, o aplicativo foi desenvolvido com base no modelo Flow Matching, que permite treinar em dados mais diversos e em uma escala muito mais ampla. Os idiomas suportados, no momento, são inglês, espanhol, francês, alemão e polonês, além do português.

Quando o Voicebox estará disponível?

Por enquanto, a Meta não vai disponibilizar o Voicebox para o público em geral nem compartilhará o seu código-fonte. A gigante da tecnologia alegou preocupações relacionadas a usos indevidos da tecnologia para mantê-la restrita, neste momento.

Futuramente, o mecanismo de IA generativa pode ser integrado a assistentes digitais e a modelos de próteses utilizadas por pacientes com danos nas cordas vocais, antes de ser liberado para todos. É possível conferir a tecnologia em funcionamento no site da companhia.

smart people are cooler

Tecnologia, negócios e comportamento sob um olhar crítico.

Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo

Você sabia que o TecMundo está no Facebook, Instagram, Telegram, TikTok, Twitter e no Whatsapp? Siga-nos por lá.