Neste blog, estamos apresentando duas metodologias bem conhecidas de Ciência de Dados para gerenciamento de projetos, a saber, CRISP-DM (Cross-Industry Standard Process for Data Mining) e Microsoft TDSP (Team Data Science Process). Aqui na Deeper Insights™, adotamos o TDSP como uma metodologia de Ciência de Dados orientadora para nos ajudar a construir ótimos produtos para nossos clientes, pois enfatiza mais a satisfação do cliente.

A primeira versão do CRISP-DM foi proposta em 1999 como resultado de um esforço concentrado para identificar e estabelecer diretrizes da indústria para o processo de mineração de dados. Desde então, foram propostos vários refinamentos e extensões. Em 2014, o CRISP-DM era a metodologia mais utilizada para análises, mineração de dados e projetos de ciência de dados. Em 2016, a Microsoft introduziu uma nova metodologia de ciência de dados chamada TDSP para aproveitar frameworks e ferramentas conhecidas, como o controle de versão git.

O objetivo dessas metodologias é fornecer às equipes de Ciência de Dados uma abordagem sistemática, baseada nas melhores práticas da indústria, para guiar e estruturar projetos de Ciência de Dados, melhorar a colaboração em equipe, aprimorar o aprendizado e, no final, garantir resultados de qualidade e eficientes durante o desenvolvimento do projeto e entrega de soluções orientadas por dados.

PROCESSO PADRÃO INTERINDUSTRIAL PARA MINERAÇÃO DE DADOS (CRISP-DM)

CRISP-DM é uma metodologia de planejamento em 6 etapas, cada etapa composta por uma sequência de eventos. Conforme representado na imagem abaixo, algumas das etapas são iterativas, frequentemente exigindo o retorno às tarefas anteriores. Isso reflete o fluxo de trabalho não linear da ciência de dados. As etapas representadas aqui são:

  • Compreensão do Negócio: foca em entender os objetivos do projeto e os requisitos de uma perspectiva de negócios, traduzindo essas informações em uma definição de problema da Ciência de Dados.
  • Compreensão de Dados: foca na coleta e familiarização com os dados; isso é relevante para identificar problemas de qualidade de dados, descobrir as primeiras percepções dos dados e formar hipóteses.
  • Preparação de Dados: visa transformar os dados brutos em um conjunto de dados final que pode ser usado como entrada para técnicas de modelagem (ex: algoritmos de Machine Learning).
  • Modelagem: envolve a aplicação de diferentes técnicas de modelagem ao conjunto de dados para gerar um conjunto de modelos candidatos.
  • Avaliação: uma vez construídos, os modelos precisam ser testados para garantir que se generalize contra dados não vistos e que todos os principais objetivos de negócios tenham sido considerados (ex: o modelo final precisa ser justo, interpretável pelos humanos e alcançar uma precisão X% superior à solução atual do cliente). O resultado desta fase é o modelo campeão.
  • Implementação: o modelo campeão é implantado em produção para que possa ser usado para fazer previsões em dados não vistos. Todas as etapas de preparação de dados são incluídas para que o modelo trate os novos dados brutos da mesma maneira que durante o desenvolvimento do modelo.

PROCESSO DE EQUIPE DE CIÊNCIA DE DADOS (TDSP)

Em outubro de 2016, a Microsoft introduziu o Processo de Equipe de Ciência de Dados como uma metodologia de Ciência de Dados ágil e iterativa, construída nas melhores práticas da Microsoft (e de outras empresas), a fim de facilitar a implementação bem-sucedida de projetos de Ciência de Dados.

O processo abrange quatro componentes-chave:

  • Definição do ciclo de vida da Ciência de Dados
  • Estrutura de projetos padronizada
  • Infraestrutura e recursos para projetos de Ciência de Dados
  • Ferramentas e utilitários necessários para a execução do projeto
  • Nesta postagem do blog, faremos uma visão geral do primeiro componente: o ciclo de vida da ciência dos dados.

CICLO DE VIDA DA CIÊNCIA DE DADOS

TDSP fornece um ciclo de vida para estruturar o desenvolvimento de projetos de ciência de dados, todas as etapas que são geralmente tomadas na execução de um projeto. Devido à natureza de P&D dos projetos de Ciência de Dados, utilizar templates padronizados ajuda a evitar mal-entendidos ao aprimorar a capacidade de comunicar tarefas a outros membros da equipe, bem como aos clientes, utilizando um conjunto bem definido de artefatos.

O Ciclo de Vida TDSP é composto por 5 etapas:

  • Compreensão de Negócios
  • Aquisição e Compreensão de Dados
  • Modelagem
  • Implementação
  • Aceitação do Cliente

1. Compreensão do Negócio: essa fase envolve a identificação do problema de negócios, a definição dos objetivos de negócios e a identificação das principais variáveis ​​de negócios que a análise precisa prever. As métricas que serão usadas para avaliar o sucesso do projeto também são definidas nesta fase. Outro passo importante inclui a verificação das fontes de dados disponíveis e o entendimento do tipo de dados relevante para responder às perguntas subjacentes aos objetivos do projeto. Essa análise ajudará a determinar se a coleta de dados ou fontes de dados adicionais serão necessárias.

2. Aquisição e Compreensão de Dados: sendo os dados o ingrediente-chave de qualquer projeto de ciência de dados, gira em torno dos dados. É essencial avaliar o estado atual dos dados (quão bagunçados e pouco confiáveis são?), seu tamanho e qualidade, antes de avançar para a fase de modelagem. Nesta fase, os dados são explorados, pré-processados e limpos. Isso é essencial não apenas para ajudar os cientistas de dados a construir uma compreensão inicial dos dados, mas também para evitar a propagação de erros a jusante e aumentar as chances de obter um modelo confiável e preciso. Esta fase também visa encontrar padrões nos dados para orientar a escolha das técnicas de modelagem mais apropriadas a serem usadas. No final desta fase, os cientistas de dados geralmente têm uma ideia melhor de se os dados existentes são suficientes, se eles podem precisar encontrar novas fontes de dados para aumentar o conjunto de dados inicial, ou se os dados são adequados para ajudar a responder às perguntas subjacentes aos objetivos do projeto.

3. Modelagem: nesta fase, a engenharia de características é executada no conjunto de dados limpo para gerar um novo conjunto de dados aprimorado que facilita o treinamento do modelo. A engenharia de recursos geralmente depende das percepções obtidas da etapa de exploração de dados e da expertise do domínio do cientista de dados. Após garantir que o conjunto de dados seja composto principalmente de recursos informativos, vários modelos são treinados e avaliados, e o melhor é selecionado para ser implantado.

4. Implementação: essa fase envolve a implantação do pipeline de dados e do modelo vencedor em um ambiente de produção ou semelhante à produção. As previsões do modelo podem ser feitas em tempo real ou em lote e isso tem que ser decidido nesta fase.

5. Aceitação do Cliente: a última fase do TDSP, para a qual não há equivalente no CRISP-DM, é a aceitação do cliente. Isso envolve duas tarefas importantes, a saber: (i) validação do sistema e (ii) transmissão de projeto. O objetivo da validação do sistema é confirmar que o modelo implantado atenda às necessidades e expectativas do cliente, enquanto a transmissão do projeto inclui a passagem do projeto para a pessoa responsável por executar o sistema em produção, além de entregar quaisquer relatórios e documentação do projeto.

PROJETOS DE CIÊNCIA DE DADOS NA GPN GROUP™

Na GPN Group™, escolhemos a metodologia TDSP, pois é uma metodologia de ciência de dados mais detalhada e atualizada, adaptada a abordagens mais ágeis. Ela também abrange uma fase de Compreensão de Negócios mais detalhada no início de um projeto, que garante que estamos sempre alinhados aos objetivos de nossos clientes.

Combinamos isso com outras metodologias ágeis, como o Kanban, e constantemente iteramos e melhoramos nossa abordagem, garantindo que sempre entregamos excelência em cada um de nossos projetos.