De acordo com um artigo acadêmico publicado por pesquisadores da Microsoft, um novo software de inteligência artificial desenvolvido na empresa é capaz de “desenhar” essencialmente qualquer coisa a partir de descrições feitas em texto. Por exemplo, se um usuário pede para o computador “desenhar um pássaro amarelo com asas pretas e bico pequeno”, o resultado seria esse que você confere na imagem.

Esses pássaros podem não existir no mundo real, eles são apenas um aspecto da imaginação acerca de pássaros do nosso computador

“Se você abrir o Bing pesquisar pássaros, você verá fotos de pássaros. Mas aqui, as fotos são criadas pelo computador, pixel por pixel, do zero”, comentou Xiaodong He, líder da pesquisa na Microsoft a uma publicação oficial da empresa. “Esses pássaros podem não existir no mundo real, eles são apenas um aspecto da imaginação acerca de pássaros do nosso computador”, completou.

He ainda detalha que os resultados atuais trazidos pelo computador não são perfeitos, mas eles conseguem chegar perto. A ideia é que um software inteligente como esse possa, eventualmente, servir como um assistente de desenho para artistas ou mesmo para designers de interiores.

microsoft

No futuro, um profissional desses poderia tirar uma foto de um ambiente em uma casa e, em seguida, pedir para um computador: “adicione uma poltrona de madeira com estofamento cinza de estilo modernista no canto esquerdo”. O computador poderia não apenas ajudar a montar o ambiente como também a criar móveis e outros elementos.

Processo

A pesquisa inicial da equipe que trabalha com esse projeto na Microsoft começou experimentando com o CaptionBot, um sistema de inteligência artificial que consegue escrever legendas descritivas para qualquer foto. Em seguida, criaram um outro software com IA capaz de responder perguntas de pessoas sobre alguma foto, o SeenAI, que pode ser útil especialmente para deficientes visuais.

Finalmente, o grupo conseguiu desenvolver uma tecnologia capaz de gerar esses desenhos a partir das descrições em texto. A primeira parte se chama Generative Adversarial Network (GAN), desenvolvida para gerar imagens, e a segunda parte é conhecida como um “Discriminador”, que julga a qualidade das fotos.

Atenção é um conceito humano; nós usamos matemática para tornar atenção um conceito computacional

Esse sistema foi treinado com pares de imagens com legendas para que o software entendesse quais palavras combinavam com quais imagens. Posteriormente, foi necessário criar um modelo matemático para focar a criação desenvolvida pelo sistema. “Atenção é um conceito humano; nós usamos matemática para tornar atenção um conceito computacional”, disse He.

O pesquisador acredita que, eventualmente, será possível criar filmes animados a partir de roteiros escritos usando sistemas como esse, mas ainda não temos nenhuma previsão de quando algo desse tipo poderá ser aplicado comercialmente em qualquer produto da Microsoft.