Web scraping: conheça a técnica de coleta de dados

3 min de leitura
Imagem de: Web scraping: conheça a técnica de coleta de dados
Imagem: Unsplash

No início de abril, um novo vazamento de dados expôs 533 milhões de usuários do Facebook em todo o mundo, incluindo o próprio fundador da rede social, Mark Zuckerberg, e cerca de 8 milhões de brasileiros com perfil no serviço.

De acordo com a plataforma, essa exposição não se deve a uma invasão a seus servidores; as informações que pararam em um fórum de hackers foram obtidas por meio de uma técnica conhecida como scraping. O método, utilizado por agências de marketing, jornalistas e cientistas de dados, já ganhou as manchetes em outras ocasiões, como em setembro de 2020, quando foram vazados dados de 235 milhões de usuários do YouTube, do Instagram e do TikTok. Mas o caso mais famoso talvez seja o escândalo Cambridge Analytica, no qual informações de perfis do Facebook foram usadas para gerar mapas comportamentais de eleitores.

O Facebook costuma ser um dos alvos dos scrapers.O Facebook costuma ser um dos alvos dos scrapers.Fonte:  Rawpixel 

O que é scraping?

Também chamado de raspagem web, o scraping permite coletar informações na internet de maneira automatizada a partir de bases de dados públicas disponibilizadas em sites, redes sociais e outros serviços online.

Geralmente, a ferramenta é utilizada para acelerar a consulta e a coleta dessas informações, já que o trabalho feito de forma manual levaria um tempo muito maior. A agilidade do processo se deve a aplicativos específicos, linguagem de programação ou scripts para copiar dados em grande escala.

Programas específicos são usados na coleta automática de informações públicas.Programas específicos são usados na coleta automática de informações públicas.Fonte:  Unsplash 

O scraping é acionado quando um pesquisador, cientista, jornalista ou outro profissional precisa levantar uma grande quantidade de dados para alimentar um estudo, uma pesquisa ou uma reportagem, automatizando a coleta em uma base pública do governo federal ou de qualquer outra fonte.

Com a raspagem de dados também é possível obter informações abertas de perfis nas redes sociais (nome, foto, endereço, telefone, e-mail etc.) e por meio do Google, para os mais variados objetivos, como a segmentação de campanhas publicitárias e o monitoramento de concorrentes.

A raspagem de dados é legal?

Coletar dados por scraping não é considerado ilegal, desde que a raspagem ocorra em bases públicas. As informações obtidas são acessíveis a qualquer internauta e, assim como visitar o perfil de alguém e visualizar os dados lá disponibilizados não é crime, utilizar uma ferramenta automatizada para tal trabalho também não infringe as leis.

Dados públicos nas redes sociais podem ser Dados públicos nas redes sociais podem ser "raspados".Fonte:  Unsplash 

Porém, é preciso saber que Facebook, Instagram, YouTube e TikTok, entre outras plataformas, atualmente consideram a cópia automatizada de dados armazenados por elas como uma violação às regras de uso de seus serviços.

Há riscos para quem tem os dados copiados?

Ao usar o scraping, pessoas e empresas podem ter acesso a informações públicas de qualquer indivíduo incluído naquela base, como número de telefone, e-mail, foto de perfil, idade e gênero, dependendo do tipo de fonte acessada pela ferramenta automática.

No caso de uma rede social, os scrapers também conseguem detalhes como número de seguidores, engajamento e até mesmo links compartilhados, além de postagens públicas e demais conteúdos abertos a outros usuários, se a plataforma conceder tal acesso.

Fotos coletadas por scraping já foram usadas em programas de reconhecimento facial.Fotos coletadas por scraping já foram usadas em programas de reconhecimento facial.Fonte:  Pixabay 

Em geral, a coleta dessas informações não causa maiores prejuízos, se feita com o objetivo de apoiar pesquisas e campanhas com autorização dos usuários. No entanto, o método pode ser utilizado com intenções maliciosas, por cibercriminosos em busca de dados para aplicar golpes e outros tipos de fraudes ou em ações como a da Cambridge Analytica — suspeita-se que os dados serviram para favorecer Donald Trump nas eleições dos EUA em 2016.

Como diminuir os perigos?

Para evitar novos vazamentos, as plataformas têm bloqueado a coleta de dados por robôs e lançado novas opções de privacidade. Mas como nem sempre é possível evitar as ações de hackers e bots, o usuário deve tomar o máximo cuidado para que suas informações não caiam em mãos erradas.

Revise as configurações de privacidade dos seus perfis.Revise as configurações de privacidade dos seus perfis.Fonte:  Facebook/Reprodução 

Dessa forma, aumentar a privacidade dos perfis nas redes sociais consiste em uma boa medida para reduzir as chances de que os dados sejam coletados por scraping. Uma dica interessante é limitar a visualização das informações e postagens apenas para seguidores, modificando a configuração da conta.

Essa revisão da privacidade deve ser feita em todas as plataformas, deixando o mínimo possível de dados abertos.

Você sabia que o TecMundo está no Facebook, Instagram, Telegram, TikTok, Twitter e no Whatsapp? Siga-nos por lá.