Criação de pipelines de dados

No Minitab Data Center, você pode criar um pipeline de dados para limpar e transformar dados de uma ou mais fontes em um conjunto de dados pronto para uso.

O que é um pipeline de dados?

Um pipeline de dados é uma sequência de etapas que coletam, transformam e preparam dados para que fiquem prontos para análise ou relatório. Pipelines de dados ajudam a garantir que:
  • Os dados permanecem consistentes e confiáveis
  • As atualizações acontecem sob demanda
  • As equipes usam o mesmo conjunto de dados confiável
  • Erros são identificados antes do uso dos dados

O pipeline de dados aparece como um diagrama visual interativo que permite adicionar, remover e modificar nós enquanto recebe mensagens de status e erro de processamento em tempo real.

Por exemplo, você pode criar um pipeline que puxa dados de um arquivo CSV e de uma planilha Minitab, limpa e combina os dados, e então gera um único conjunto de dados para usar no seu dashboard.
Observação

Cada pipeline suporta até 60 nós de processamento, além de um nó de saída (61 nós no total). Você pode ter até dez nós fonte de dados.

Vistas do pipeline

Cada Data Center projeto contém um diagrama interativo de pipeline que representa as etapas de processamento dos dados.
Limpeza vista
Use a Limpeza visualização para limpar e preparar seus dados
Fonte de dados vista
Use a Fonte de dados visualização para modificar o esquema do conjunto de dados ou quaisquer configurações que afetem todo o conjunto de dados.

Para obter mais informações, vá para Gerencie o esquema do conjunto de dados ou Definir opções de fonte de dados.

Ajuste a exibição do pipeline

Use os Ampliarbotões , Reduzir, ou Ajustar visualização no pipeline canvas para ajustar sua visão.
Você também pode selecionar Auto Layout na barra de ferramentas para otimizar a visualização do pipeline.
Observação

Você pode arrastar e reposicionar os nós para uma organização visual ideal.

Nós disponíveis

A maioria dos pipelines inclui os seguintes tipos de nós:
  • Fonte de dados
  • Limpeza
  • Mesclar
  • Reformulação
  • Saída

Nós fonte de dados

Um nó fonte de dados conecta seu pipeline a um conjunto de dados. Cada pipeline suporta no máximo dez nós fonte de dados.
Para adicionar um nó fonte de dados, selecione Adicionar dados na barra de ferramentas.Você também pode selecionar Adicionar fonte de dados no menu contextual da tela.

Para mais informações sobre nós fonte de dados, acesse Fundamentos dos nós de origem.

Nós de limpeza

Corrige problemas de formatação, remove erros e realiza outras operações de preparação de dados.
O Data Center suporta múltiplos nós de limpeza em hierarquias flexíveis para suportar todos os seus processos de limpeza de dados.
O primeiro Limpeza nó é somado em série, então os nós subsequentes ficam em paralelo conforme segue. Você pode renomear e mover nós a qualquer momento para qualquer posição.

Para adicionar um nó de limpeza não parentado, selecione Adicionar limpeza no menu contextual do canvas.

Para mais informações sobre nós de limpeza de dados, acesse Princípios básicos da etapa de limpeza.

Nós de fusão de dados

Use Juntar nossos Associação nós para combinar múltiplos conjuntos de dados.
Você pode adicionar nós de junção e união a partir de um nó existente ou da linha de conector.

Para adicionar um nó de fusão de dados sem parentais, selecione Adicionar junção ou Adicionar União pelo menu contextual canvas.

Para mais informações sobre nós de fusão de dados, acesse Fusão de conjuntos de dados.

Remodelação de nós

Reformule conjuntos de dados usando Transposição operações.
Você pode adicionar nós transpositos a partir de um nó existente ou da linha conector.

Para adicionar um nó de remodelação sem parentais, selecione Adicionar Transposição no menu contextual da tela.

Para mais informações sobre remodelação de nós, acesse Conjuntos de dados transpostos.

Nós de saída

Indica o nó terminal de um pipeline de dados. Entrega dados a um destino final, como uma ferramenta de análise ou dashboard.

Para definir um nó de saída, abra o menu do botão direito e escolha Definir saída entre um nó pai. A partir daqui, você pode enviar uma cópia dos dados limpos para um projeto Minitab ou um Painel Minitab.

Você também pode selecionar Abrir em na barra de ferramentas enviar uma cópia dos dados limpos para um projeto Minitab ou Painel Minitab.

Para mais informações sobre como exportar os dados ou todo o pipeline do Data Center, acesse Exportação de dados e projetos.

Atualizar o pipeline

Atualizar Use para reprocessar as transformações de dados dentro do pipeline de dados. Apenas nós de Fonte de Dados podem ser atualizados independentemente de forma independente.

Para atualizar todo o pipeline, selecione Atualizar na barra de ferramentas.

Para atualizar uma fonte de dados individual, selecione Atualizar no menu de contexto do nó de origem. Se uma fonte de dados não estiver acessível, será solicitado a reconectar ou procurar o arquivo.