Execute raspagem, analise e visualize informações sobre dados brutos da web

2 min de leitura
Patrocinado
Imagem de: Execute raspagem, analise e visualize informações sobre dados brutos da web
Avatar do autor

Equipe TecMundo

@tec_mundo

Por Smruthi Raj Mohan, sri kanth, Manjula G Hosurmath

Resumo

A World Wide Web é o universo de informações acessíveis em rede. Todas se encontram presentes em formato bruto na web. E se você quisesse uma maneira de introduzir informações brutas na rede, para um determinado tópico, e fornecer informações e visualizações para esse mesmo tópico? Esse padrão de código mostrará como você pode fazer isso utilizando um exemplo de análise de desempenho em startups.

Descrição

Suponha que queremos entender as startups atuais de acordo com uma tecnologia específica, como machine learning (aprendizado de máquina), por exemplo. Esse padrão de código avaliará seu impacto no setor, com base em:

  • Quantas vezes essas startups apareceram nas notícias;

  • Se as empresas possuem uma página na Wikipédia;

  • Se elas possuem blogs de tecnologia;

  • Se são companhias ativas nas mídias sociais.

Após a raspagem dos dados não estruturados, eles são processados através do Watson Natural Language Understanding e convertidos em dados estruturados. Isso é inserido no SPSS, que pode ser usado para entendê-los e executar análises para determinar se todos os fatores (como mencionados acima) se manifestam em uma empresa, registrando, assim, uma nota de popularidade. Uma vez que todas as análises são realizadas, esse padrão de código também fornece uma visualização interativa, acessível e intuitiva dos dados no painel – fornecendo percepções acerca dos dados e ajudando a simplificar o processo de tomada de decisão.

Após concluir esse padrão de código, você entenderá como:

  • Conectar e executar raspagem de dados de diversas fontes de dados na web;

  • Converter dados brutos da web em dados estruturados;

  • Integrar dados de várias fontes de dados com a ajuda do Db2 Warehouse Connection;

  • Executar análises no SPSS Modeler;

  • Enviar dados integrados para o Db2 Warehouse;

  • Obter informações e visualizar isso no Watson Embedded Dashboard.

NOTA: Os nomes das empresas foram substituídos por nomes de plantas para esse padrão de código.

Fluxo

IBM

Obtendo percepção detalhada dos dados

  • 1. Crie e execute um Python Notebook no Watson Studio;
  • 2. O notebook executa a raspagem das últimas notícias sobre startups;
  • 3. As informações raspadas são enviadas ao Watson Natural Language Understanding para a extração de palavras-chave, entidades, sentimentos e suas respectivas notas de confiança;
  • 4. Os resultados do Natural Language Understanding são compilados em um arquivo csv que é, por sua vez, posteriormente convertido em uma tabela no Db2 Warehouse;
  • 5. A tabela criada é introduzida no SPSS para a execução de algumas análises e retorna uma pontuação para cada empresa. A tabela atualizada é então salva novamente no Db2 Warehouse;
  • 6. A tabela gerada no Db2 Warehouse é inserida no painel, fornecendo percepção detalhada.

Instruções

Obtenha as instruções detalhadas no arquivo README. Estas etapas mostrarão como:

  • Clonar o repositório;

  • Criar serviços Watson com o IBM Cloud;

  • Criar um novo projeto no Watson Studio;

  • Adicionar o Db2 Warehouse Connection ao seu projeto do Watson Studio;

  • Importar o notebook para o seu projeto do Watson Studio;

  • Configurar credenciais de serviço do IBM Cloud no Notebook;

  • Executar o notebook;

  • Configurar o SPSS Modeler no seu projeto do Watson Studio;

  • Executar o Modeler;

  • Configurar o Embedded Dashboard Service no seu projeto do Watson Studio;

  • Visualizar e desenvolver percepções usando o Embedded Dashboard Analytics.

...

Quer ler mais conteúdo especializado de programação? Conheça a IBM Blue Profile e tenha acesso a matérias exclusivas, novas jornadas de conhecimento e testes personalizados. Confira agora mesmo, consiga as badges e dê um upgrade na sua carreira!

Execute raspagem, analise e visualize informações sobre dados brutos da web