IA da Microsoft “desenha” objetos a partir de descrições em texto

Você pode pedir um cachorro azul e pequeno, e a ferramenta vai trazer uma imagem completamente original de acordo com a descrição

Leonardo Muller

schedule19/01/2018, às 14:19

Fonte: microsoft

Imagem de IA da Microsoft “desenha” objetos a partir de descrições em texto no tecmundo

De acordo com um artigo acadêmico publicado por pesquisadores da Microsoft, um novo software de inteligência artificial desenvolvido na empresa é capaz de “desenhar” essencialmente qualquer coisa a partir de descrições feitas em texto. Por exemplo, se um usuário pede para o computador “desenhar um pássaro amarelo com asas pretas e bico pequeno”, o resultado seria esse que você confere na imagem.

Esses pássaros podem não existir no mundo real, eles são apenas um aspecto da imaginação acerca de pássaros do nosso computador

smart_display

Nossos vídeos em destaque

“Se você abrir o Bing pesquisar pássaros, você verá fotos de pássaros. Mas aqui, as fotos são criadas pelo computador, pixel por pixel, do zero”, comentou Xiaodong He, líder da pesquisa na Microsoft a uma publicação oficial da empresa. “Esses pássaros podem não existir no mundo real, eles são apenas um aspecto da imaginação acerca de pássaros do nosso computador”, completou.

He ainda detalha que os resultados atuais trazidos pelo computador não são perfeitos, mas eles conseguem chegar perto. A ideia é que um software inteligente como esse possa, eventualmente, servir como um assistente de desenho para artistas ou mesmo para designers de interiores.

Processo

A pesquisa inicial da equipe que trabalha com esse projeto na Microsoft começou experimentando com o CaptionBot, um sistema de inteligência artificial que consegue escrever legendas descritivas para qualquer foto. Em seguida, criaram um outro software com IA capaz de responder perguntas de pessoas sobre alguma foto, o SeenAI, que pode ser útil especialmente para deficientes visuais.

Finalmente, o grupo conseguiu desenvolver uma tecnologia capaz de gerar esses desenhos a partir das descrições em texto. A primeira parte se chama Generative Adversarial Network (GAN), desenvolvida para gerar imagens, e a segunda parte é conhecida como um “Discriminador”, que julga a qualidade das fotos.