Software de reconhecimento da Google descreve imagens com frases completas

1 min de leitura
Imagem de: Software de reconhecimento da Google descreve imagens com frases completas
Avatar do autor

Pesquisadores da Google se juntaram a cientistas da Universidade de Stanford, na Califórnia, para desenvolver juntos um software capaz de analisar uma imagem e descrevê-la por completo em vez de apontar apenas elementos isolados presentes nela.

Os algoritmos que estão sendo escritos pelo time funcionam através da junção de duas redes neurais: uma lida com o reconhecimento da imagem, enquanto a outra processa o texto de forma clara e precisa. O programa resultante dessa mescla de redes então interpreta o contexto dos elementos na imagem e gera uma legenda que descreva a situação retratada com uma precisão duas vezes maior do que qualquer outro projeto semelhante.

Ele é capaz de interpretar a imagem abaixo, por exemplo, e produzir a legenda “grupo de jovens jogando frisbee”, o que descreve perfeitamente a cena através de um texto plenamente compreensível também.

“Mas como isso funciona?”, você deve estar se perguntando. O programa é alimentado com imagens de referência e contextualizado com sentenças que a descrevam. Então, por meio da comparação analítica de textos e figuras, o sistema começa a detectar padrões que se repetem, os correlacionando com as variações destes mesmos padrões.

No entanto, há muito espaço para melhorias, uma vez que o software produz resultados com variados graus de precisão, dependendo da quantidade de referências que possui sobre cada tópico. Veja a montagem abaixo, que descreve os diversos níveis de acerto do programa.

Na primeira coluna, a descrição não possui erros, no caso dos jogadores de frisbee. Na segunda, há pequenos erros; por exemplo: a primeira figura é descrita como “dois cães brincando na grama”, quando na verdade há três. Na terceira, a descrição está errada, mas ainda se relaciona com a imagem, como a figura da scooter rosa, que recebeu a legenda “moto vermelha estacionada ao lado da estrada”. A última erra completamente o conteúdo: a placa cheia de adesivos, por exemplo, foi interpretada como “um refrigerador cheio de comidas e bebidas”.

Apesar dos erros, é impressionante ver o quanto a tecnologia já está desenvolvida, e sua a precisão só tende a aumentar conforme receber mais referências e detectar mais padrões. Segundo os especialistas, o software pode chegar ao ponto de identificar as pessoas através de reconhecimento facial e até mesmo analisar as filmagens de uma câmera de segurança e perceber padrões de comportamento que indiquem atividades suspeitas, já alertando automaticamente as autoridades. Isso não seria incrível?

Comentários

Conteúdo disponível somente online
Software de reconhecimento da Google descreve imagens com frases completas