Analisando conjuntos de dados médicos abertos para obter insights

Como o uso de machine learning com Watson Studio e scikit-learn ajuda a prever como será a prescrição de opioides nos Estados Unidos

Guilherme Tanabe

schedule19/08/2020, às 20:30

Fonte:

Imagem de Analisando conjuntos de dados médicos abertos para obter insights no tecmundo

Por Madison Meyers

Resumo

Com tantos problemas de saúde no mundo de hoje, cientistas de dados encontraram uma mina de ouro no trabalho de extrair significado e interpretar dados relacionados a estes problemas. Esta padronização se aprofunda no conjunto de dados sobre as mortes por overdose de opioides. Leia a seguir sobre como explorar esses dados em um notebook do Watson™ Studio, visualizar algumas descobertas iniciais utilizando o Pixie Dust, e depois usar o scikit-learn para testar diversos modelos e avaliar quais apresentam as previsões mais exatas de como serão as prescrições de opioides.

Descrição

Overdoses de opioide estão se tornando um problema cada vez maior nos Estados Unidos. Embora cientistas de dados não possam resolver esse problema sozinhos, eles podem olhar para os dados, observar o que exatamente acontece e quais elementos podem levar a determinados resultados.

Este padrão de código mostra o uso de scikit-learn e do Python (no IBM Watson Studio) para prever como será a prescrição de opioides com base em um conjunto de dados Kaggle, que inclui valores como mortes por overdose da droga, tipo de medicamento prescrito e a prescrição em si. Com esse padrão, você poderá explorar os dados em um notebook do Watson Studio e usar o Pixie Dust para visualizar algumas descobertas iniciais de diversas maneiras. Após terminar a exploração inicial, você pode usar o scikit-learn para testar diversos modelos, e assim descobrir quais apresentam as previsões mais exatas de prescrições de opioides. Com a biblioteca do scikit-learn, você poderá acessar facilmente diversos classificadores de machine learning que podem ser implementados com um número relativamente baixo de linhas de código.

Este padrão de código foi criado para cientistas e amantes de dados que se interessem por questões de justiça social ou de saúde, ou para aqueles que estejam aprendendo DSX e machine learning. Ele vai te guiar pela exploração de dados, limpeza de dados, modelos de treinamento e avaliação.

Após completar esse padrão, você deverá saber como:

Utilizar o Watson Studio;

Explorar diversos dataframes;

Visualizar explorações;

Limpar os dados usando Python e pandas;

Construir diversos modelos de machine learning para prever uma variável target;

Avaliar o desempenho dos modelos.

Fluxo

Fluxo do uso de machine learning com Watson Studio

Faça o login no Watson Studio;

Faça o upload dos dados em forma de ativos de dados no Watson Studio;

Inicie um notebook no Watson Studio e insira o ativo de dados criado anteriormente;

Crie visualizações de dados com o Pixie Dust;

Explore os dados com pandas;

Teste modelos de machine learning com o scikit-learn;

Avalie o desempenho das predições.

Instruções

Encontre os passos detalhados para o padrão no README. Estes passos devem te mostrar como:

Inscrever-se no IBM Watson Studio;

Criar o notebook;

Rodar o notebook;

Salvar e compartilhar;

Limpar os dados utilizando Python;

Rodar diversos modelos usando o scikit-learn para prever como será a prescrição de opioides;

Avaliar os modelos.

...

Quer ler mais conteúdo especializado de programação? Conheça a IBM Blue Profile e tenha acesso a matérias exclusivas, novas jornadas de conhecimento e testes personalizados. Confira agora mesmo, consiga as badges e dê um upgrade na sua carreira.

info

Conteúdo patrocinado produzido pelo TecMundo.