Trabalho da DeepMind faz vozes do Google Assistente soarem mais naturais

1 min de leitura
Imagem de: Trabalho da DeepMind faz vozes do Google Assistente soarem mais naturais
Imagem: 9to5google

A DeepMind, uma empresa especializada em inteligência artificial que faz parte da Alphabet — dona da Google — conseguiu fazer com que as vozes do Google Assistente soassem mais naturais em inglês e japonês. A DeepMind já vinha trabalhando em um novo modelo de conversão de texto para voz há algum tempo, mas os resultados que a empresa obteve não eram muito aplicáveis em produtos comerciais, pois requeriam muita capacidade computacional.

Nos últimos 12 meses, entretanto, a companhia conseguiu refazer seu sistema e o chamou de “WaveNet”, considerando que ele consegue reproduzir tons da fala humana com mais naturalidade mesmo fazendo recortes e colagens de sons gravados separadamente por um narrador.

smart people are cooler

Tecnologia, negócios e comportamento sob um olhar crítico.

Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo

Para construir o WaveNet, a DeepMind utilizou um tipo de IA chamado “rede neural convolucional”. Com isso em mãos, os engenheiros treinaram o software usando milhares de horas de gravações de vozes humanas e, quando o processo de aprendizagem já estava completo o suficiente, eles aplicaram o WaveNet às vozes do Google Assistente. Em inglês, atualmente, há a opção feminina tradicional e uma nova foz masculina, ambas com a naturalidade oferecida pelo recurso da DeepMind.

Confira amostras do "antes" e "depois" do WaveNet

deepmind

O lançamento dessas novidades foi feito na quarta-feira passada (04), quando a Google apresentou seus novos smartphones e uma série de novidades interessantes para o Assistente. Por enquanto, o trabalho da DeepMind só está implementado nas vozes para o inglês norte-americano e para o japonês. Contudo, a desenvolvedora afirma que o WaveNet pode ser aplicado a todos os idiomas do Assistente.

Para isso, entretanto, a Google terá que refazer o treinamento das vozes em cada país. Isso implica em coletar milhares de horas de gravações de vozes de várias regiões para conseguir um bom modelo. Tendo isso em mente, não sabemos quando o modelo WaveNet pode começar a funcionar no Brasil.

smart people are cooler

Tecnologia, negócios e comportamento sob um olhar crítico.

Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo

Você sabia que o TecMundo está no Facebook, Instagram, Telegram, TikTok, Twitter e no Whatsapp? Siga-nos por lá.