Logo TecMundo
Internet

Novo modelo de IA da Google faz tarefas no navegador para você

Gemini 2.5 Computer Use consegue realizar tarefas básicas em uma página da internet e pode servir até para Android

Avatar do(a) autor(a): Nilton Cesar Monastier Kleina

schedule08/10/2025, às 12:00

updateAtualizado em 08/10/2025, às 17:32

A Google disponibilizou nesta terça-feira (7) a primeira demonstração pública de uma tecnologia para ser usada no desenvolvimento de IAs agênticas. A novidade é um modelo de inteligência artificial (IA) chamado Gemini 2.5 Computer Use, capaz de realizar várias ações no computador de um usuário automaticamente.

Projetos parecidos já foram lançados por rivais como a Anthropic, dona do Claude, e a OpenAI. A Google diz que resultados em testes internos de desempenho, porém, colocam o seu próprio produto como superior em efetividade e baixa latência.

smart_display

Nossos vídeos em destaque

A ferramenta por enquanto só foi liberada ao público para testes em um ambiente controlado e limitado por meio deste link. Além disso, a Google divulgou vídeos que mostram exemplos de como empresas podem usar a tecnologia para gerar ações. 

Desenvolvedores podem fazer os primeiros testes práticos pelas APIs do Gemini via Google AI Studio e Vertex AI.

Como funciona a IA de navegação da Google

O destaque do novo modelo está na capacidade de usar o computador do usuário, inclusive controlando o cursor e digitando conteúdos. A IA pode fazer uma série de tarefas básicas de navegação em um site, dependendo da complexidade do comando.

As ações envolvem rolagem de tela, cliques, digitação (como ao preencher um formulário) e até arrastar itens, caso o site em questão permita esse tipo de uso. Outros comandos mais complexos podem ser adicionados com o tempo.

Os exemplos publicados pela empresa foram acelerados em três vezes nos vídeos, para a visualização ser mais dinâmica — atualmente, o processamento e o tempo de execução de cada ação ainda leva alguns segundos para cada etapa. Eles incluem as seguintes tarefas:

  • Do 'site X' de cadastro de cuidado com animais, pegue todos os detalhes de cada bichinho de estimação situado na Califórnia e coloque eles como hóspedes no meu sistema de spa no 'site Y'. Depois, agende uma consulta de acompanhamento com o especialista Anima Lavar para o dia 10 de outubro, a qualquer hora após as 8h. O motivo da consulta é o mesmo do tratamento que for solicitado.
  • Meu clube de arte fez um brainstorming de tarefas antes da nossa conferência. O quadro está caótico e preciso da sua ajuda para organizar as tarefas em algumas categorias que criei. Acesse o 'site Z' e certifique-se de que as notas estejam claramente nas seções corretas. Arraste-as para elas, caso não estejam.

Essa capacidade é possível graças a uma tecnologia já existente na própria Google. O modelo de linguagem usa as capacidades de reconhecimento visual e "argumentação" do Gemini 2.5 Pro para interagir com as interfaces.

No futuro, o modelo vai permitir que usuários automatizem tarefas, como fazer reservas, compras ou buscas específicas pelo preço ou disponibilidade de um produto. 

Além disso, empresas parceiras podem desenvolver por cima dessa tecnologia agentes de IA voltados para atividades baseadas em cada empreendimento — incluindo até testar a navegabilidade em uma interface de um site em construção, por exemplo.

De acordo com os teste da companhia, o modelo por enquanto só consegue agir em um navegador, mas já está demonstrando resultados satisfatórios em experimentos para automatizar ações em aparelhos com Android. No futuro, a ideia é permitir que ele também realize tarefas na própria interface de um computador.

Recentemente, a Google lançou uma IA que corrige bugs de segurança automaticamente. Saiba mais sobre isso nesta matéria!

Perguntas Frequentes

O que é o Gemini 2.5 Computer Use da Google?
O Gemini 2.5 Computer Use é um novo modelo de inteligência artificial da Google, projetado para executar automaticamente tarefas básicas em páginas da internet. Ele faz parte de uma iniciativa voltada ao desenvolvimento de IAs agênticas, ou seja, capazes de agir de forma autônoma em ambientes digitais.
Quais tipos de tarefas a IA consegue realizar?
A IA é capaz de realizar ações como rolar a tela, clicar, digitar (como preencher formulários) e arrastar itens em sites compatíveis. Exemplos incluem organizar quadros de tarefas em sites colaborativos ou transferir dados entre plataformas online.
Como a IA interage com o computador do usuário?
O modelo utiliza recursos de reconhecimento visual e argumentação do Gemini 2.5 Pro para controlar o cursor, digitar textos e interagir com elementos da interface de sites, simulando o comportamento humano na navegação.
Onde e como é possível testar essa tecnologia?
Atualmente, o Gemini 2.5 Computer Use está disponível para testes públicos em um ambiente controlado, acessível por meio do link gemini.browserbase.com. Desenvolvedores também podem testar a tecnologia via APIs no Google AI Studio e Vertex AI.
Quais são os planos futuros para essa IA?
No futuro, a Google pretende expandir as capacidades do modelo para permitir automações como reservas, compras e buscas específicas. Também há planos para que a IA atue diretamente na interface de computadores e em dispositivos Android.
Como o desempenho do Gemini 2.5 se compara a outras IAs?
Segundo a Google, testes internos indicam que o Gemini 2.5 Computer Use apresenta desempenho superior em efetividade e baixa latência em comparação com soluções similares de concorrentes como a Anthropic (Claude) e a OpenAI.
Empresas podem adaptar essa tecnologia para seus próprios sistemas?
Sim. A Google permite que empresas parceiras desenvolvam agentes de IA personalizados com base no Gemini 2.5, aplicando a tecnologia em tarefas específicas de seus negócios, como testar a navegabilidade de sites em desenvolvimento.
star

Continue por aqui