Meta lança AudioCraft, IA generativa que cria músicas e sons a partir de textos

2 min de leitura
Imagem de: Meta lança AudioCraft, IA generativa que cria músicas e sons a partir de textos
Imagem: AllisonGinadaio/Getty Images

A Meta anunciou, nesta quarta-feira (02), o lançamento do AudioCraft, uma plataforma de inteligência artificial (IA) generativa que cria sons e músicas a partir de textos. A ferramenta está disponível para fins de pesquisa e será liberada para todos em breve.

De acordo com a big tech, o AudioCraft servirá para vários públicos. Músicos profissionais poderão explorar novas composições e batidas, desenvolvedores de jogos poderão criar efeitos sonoros e empreendedores poderão adicionar trilhas sonoras em suas publicações no Instagram, por exemplo.

smart people are cooler

Tecnologia, negócios e comportamento sob um olhar crítico.

Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo

As primeiras amostras de áudio divulgadas pela Meta mostram um pouco como a tecnologia funciona. O sistema criou áudios com qualidade a partir de inputs simples de textos como “Assobiando com vento soprando” e “Sirenes e um zumbido de motor se aproximam e passam”. Confira, abaixo, alguns dos resultados:

Além dos sons naturais, o AudioCraft criou batidas musicais, que são mais complexas. Em outra amostra, a Meta divulgou um trecho de 30 segundos que foi criado após o input do texto “faixa de dança pop com melodias cativantes, percussões tropicais e ritmos animados, perfeito para a praia”.

Em uma publicação em seu blog oficial, a companhia pontuou que a inovação é mais fácil de trabalhar do que outros modelos generativos para áudio. Apesar de não citar nominalmente, a empresa se referiu a iniciativas como o Jukebox, da OpenAI, e o MusicLM, do Google.

“Com o AudioCraft, simplificamos o design geral de modelos generativos para áudio em comparação com trabalhos anteriores no campo - dando às pessoas a receita completa para brincar com os modelos existentes que a Meta vem desenvolvendo nos últimos anos, além de capacitá-los a ultrapassar os limites e desenvolver seus próprios modelos”, diz trecho do texto.

Como o AudioCraft foi treinado?

O AudioCraft é composto por três modelos: MusicGen, AudioGen e EnCodec. O primeiro foi treinado com músicas licenciadas e de propriedade da Meta, e por isso gera músicas a partir de prompts de texto.

No caso do AudioGen, a IA foi treinada a partir de efeitos sonoros públicos, deixando a ferramenta apta para criar áudios como cantos de pássaros também a partir de prompts de texto.

Já o EnCodec é um decodificador de gravações sonoras que permite resultados de alta qualidade mesmo com arquivos comprimidos. Este modelo, anunciado no ano passado, recebeu melhorias.

Mesa de somO AudioCraft só precisa de inputs de texto para criar músicas, trilhas sonoras, sons naturais e mais

“O AudioCraft funciona para geração e compactação de música e som - tudo no mesmo lugar. Como é fácil construir e reutilizar, as pessoas que desejam construir melhores geradores de som, algoritmos de compressão ou geradores de música podem fazer tudo na mesma base de código e construir sobre o que outros já fizeram”, explicou a Meta.

Para melhorar as soluções, o AudioCraft está com código aberto para que pesquisadores e desenvolvedores possam ajudar a melhorar a ferramenta.

smart people are cooler

Tecnologia, negócios e comportamento sob um olhar crítico.

Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo

Você sabia que o TecMundo está no Facebook, Instagram, Telegram, TikTok, Twitter e no Whatsapp? Siga-nos por lá.