GPTBot: OpenAI lança rastreador web para otimizar o ChatGPT

1 min de leitura
Imagem de: GPTBot: OpenAI lança rastreador web para otimizar o ChatGPT
Imagem: Unsplash

A OpenAI lançou na segunda-feira (7) o GPTBox, rastreador que será utilizado para vasculhar sites em busca de conteúdos para melhorar o desenvolvimento dos modelos de inteligência artificial (IA) da empresa. O recurso pode ajudar a otimizar as IAs generativas existentes em questões como precisão e segurança.

O GPTBox tem a capacidade de filtrar conteúdos disponíveis apenas por meio de assinaturas pagas enquanto vasculha a internet em busca de informações disponíveis publicamente. Além disso, ele pode excluir as fontes que violem suas políticas ou coletem dados pessoais.

smart people are cooler

Tecnologia, negócios e comportamento sob um olhar crítico.

Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo

O rastreador vai alimentar o ChatGPT, em suas diferentes versões.O rastreador vai alimentar o ChatGPT, em suas diferentes versões.Fonte:  Pexels 

“As páginas da web rastreadas com o agente do usuário GPTBot podem ser potencialmente usadas para melhorar modelos futuros e são filtradas para remover fontes que exigem acesso pago, são conhecidas por coletar informações de identificação pessoal (PII) ou ter texto que viole nossas políticas”, ressaltou a OpenAI.

Como bloquear o GPTBot?

Caso queiram, os proprietários de sites podem impedir o rastreador web da OpenAI de coletar dados em suas páginas. Para negar o acesso da ferramenta aos conteúdos, é necessário adicionar um comando específico ao arquivo de texto Robots.txt do site, que traz instruções sobre o que pode ou não ser acessado.

Neste caso, basta adicionar o seguinte comando:

User-agent: GPTBot

Disallow: /

Outra possibilidade para quem não quer permitir o rastreamento feito pelo GPTBot em suas páginas é bloquear o acesso pelo IP do rastreador. As instruções para este procedimento podem ser conferidas no site da OpenAI.

Também é possível personalizar o acesso do GPTBot, liberando o rastreamento em apenas partes do site. Para tanto, adicione o token GPTBot ao Robots.txt desta forma:

1 User-agent: GPTBot

2 Allow: /directory-1/

3 Disallow: /directory-2/

smart people are cooler

Tecnologia, negócios e comportamento sob um olhar crítico.

Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo

Você sabia que o TecMundo está no Facebook, Instagram, Telegram, TikTok, Twitter e no Whatsapp? Siga-nos por lá.