As redes neurais têm usado o aprendizado de máquina e profundo para criar modelos realistas de pessoas em um nível nunca antes visto. Agora, um novo experimento de uma equipe de pesquisadores da Universidade Cornell vai povoar suas noites de pesadelos: eles conseguiram chegar a um “modelo de cabeça falante personalizado” a partir de apenas uma amostra de imagem.

Normalmente, para chegar a um resultado avançado de simulação de movimentos, é preciso treinar o algoritmo com uma série de conjuntos de dados de uma pessoa. A novidade aqui é que a equipe conseguiu resultados impressionantes a partir de um único retrato, desenho ou still.   

Veja:

Como isso é feito?

Isso nunca foi realizado antes na rede geradora adversária (GAN), expoente no setor. Basicamente o projeto usa um grande conjunto de dados de vídeos e enquadra o modelo captado em apenas um frame nos que já foram vistos nos sistemas anteriores.

“O sistema é capaz de inicializar os parâmetros do gerador e do discriminador de uma maneira específica, de modo que o treinamento pode ser baseado em apenas algumas imagens e feito rapidamente, apesar da necessidade de sintonizar dezenas de milhões de parâmetros. Mostramos que tal abordagem é capaz de aprender modelos realistas de ‘cabeças falantes’ de novas pessoas e mesmo de retratos.”

Ainda não há muita repercussão dessa novidade, mas pode aguardar que esse assunto ainda vai render muito, ainda mais com a popularidade dos DeepFakes.