ImageBind: IA da Meta quer se aproximar da percepção humana

1 min de leitura
Imagem de: ImageBind: IA da Meta quer se aproximar da percepção humana
Imagem: Getty Images/Reprodução

A Meta anunciou o ImageBind, uma ferramenta de IA de código aberto que prevê conexões entre dados de forma semelhante à nossa percepção e imaginação. Diferente de outros geradores de imagens, o ImageBind vai além, vinculando texto, imagens, áudio, medições 3D, dados de temperatura e movimento.

Esse novo recurso abre possibilidades alinhadas às ambições da Meta, como realidade virtual, realidade mista e o metaverso. Imagine um futuro dispositivo de realidade virtual capaz de criar instantaneamente cenas 3D completas, com som, movimento e muito mais.

smart people are cooler

Tecnologia, negócios e comportamento sob um olhar crítico.

Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo

Um exemplo prático do que seria possível criar com o ImageBind é um ambiente de realidade virtual em que o usuário pode explorar uma cidade movimentada. Utilizando dados de imagem/vídeo, áudio, informações de profundidade e dados térmicos, o ImageBind pode combinar essas informações para replicar o clima e as condições ambientais, os sons característicos da cidade e até mesmo a sensação de proximidade dos carros em movimento.

Desenvolvedores de jogos também poderiam se beneficiar ao agilizar o processo de criação. Além disso, os criadores de conteúdo teriam a capacidade de produzir vídeos imersivos com paisagens sonoras e movimentos realistas, baseados apenas em texto, imagem ou áudio.

Funcionamento do ImageBind

Tecnologia integra seis tipos de dados: visual, térmico, texto, áudio, informações de profundidade e dados de movimento.Tecnologia integra seis tipos de dados: visual, térmico, texto, áudio, informações de profundidade e dados de movimento.Fonte:  Meta/Divulgação 

A ideia central do projeto é combinar diferentes tipos de dados em um único espaço de incorporação multidimensional, permitindo a geração de conteúdo baseado nessa interconexão. As seis modalidades são: texto, imagem/vídeo e áudio, juntamente com informações capturadas por sensores que registram a profundidade (3D), temperatura (radiação infravermelha) e unidades de medição inercial (IMU), responsáveis por calcular movimento e posição.

Há um vislumbre por parte da Meta para a expansão dessa tecnologia além das atuais seis "sensações", apontando para uma ampliação de possibilidades.

"Embora tenhamos investigado seis modalidades em nossa pesquisa atual, acreditamos que ao introduzir novas modalidades que conectem o máximo de sentidos possível — como o toque, a fala, o olfato e os sinais de ressonância magnética funcional cerebral (fMRI) — seremos capazes de criar modelos de IA mais abrangentes e centrados no ser humano", diz a empresa.

A Meta está disponibilizando o código aberto para que os desenvolvedores interessados possam explorar a ferramenta.

smart people are cooler

Tecnologia, negócios e comportamento sob um olhar crítico.

Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo

Fontes

Você sabia que o TecMundo está no Facebook, Instagram, Telegram, TikTok, Twitter e no Whatsapp? Siga-nos por lá.