Prepare seus dados

Use ferramentas de preparação de dados para organizar e preparar seus dados para análises mais robustas.

Abra sua fonte de dados

Na Minitab Solution Center página inicial, você pode acessar o Minitab Data Centerarquivo.
  1. Na home page da Central de Soluções, selecione Preparação de dados.
  2. Selecione Adicionar dados. Entre em um repositório online. Você também pode adicionar um arquivo de dados local.
  3. Navegue até o local do arquivo e selecione Abrir.
Um diagrama esquemático representa as etapas de processamento de dados.
Limpeza vista
Você pode começar a Limpeza limpar seus dados quando estiver na exibição.
Fonte de dados vista
Se você precisar alterar o esquema do conjunto de dados ou quaisquer configurações que afetem todo o conjunto de dados, selecione o ícone do arquivo da fonte de dados para abrir o Opções painel.

Para obter mais informações, vá para Editar o esquema do conjunto de dados ou Definir opções de fonte de dados.

Etapas de preparação de dados

Neste exemplo, uma equipe de conformidade está preocupada com a precisão da detecção de fraudes no setor automotivo; no entanto, os dados precisam ser preparados antes que a análise possa começar. Siga estas etapas para se preparar insurance_fraud_data.csv para uma análise mais aprofundada.
  1. Abra os dados de fraude de Minitab Data Center seguros no.
  2. Certifique-se de estar na Limpeza visualização.
  3. Selecione a coluna e abra o Opções de preparação de dados menu suspenso para acessar as opções de limpeza da coluna.
  4. Por claim_number, altere o tipo de dados de numérico para texto.
  5. Por claim_number, anexe # aos valores da coluna.
  6. Por age_of_driver, filtre para incluir apenas drivers menores ou iguais a 100 anos.
  7. No gênero, mude M para masculino e F para feminino.
  8. Por annual_income, filtre para incluir apenas drivers que fazem mais de 1.
  9. Por address_change, altere o tipo de dados de numérico para texto.
  10. Em address_change, altere 1 para sim e 0 para não.
  11. Para CEP, altere o tipo de dados de numérico para texto.
  12. Use Ordenação avançada para classificar por fraude, reivindicação de lesão e CEP.

Use a IA do Minitab para limpar seus dados

O Minitab Data Center fornece uma interface de conversação que orienta a preparação de dados, enquanto estiver na Limpeza exibição. Para o exemplo acima, você pode inserir o seguinte texto no Minitab AI prompt para obter os mesmos resultados das etapas individuais.

Faça números de reivindicação no texto. Adicione o símbolo numérico aos números de reivindicação. Remova os drivers com mais de cem. Mude m para masculino e f para feminino. Remova os motoristas que não têm uma renda válida. Altere address_change para texto. Faça 1 a sim e 0 a não para alterações de endereço. Classifique por fraude, reivindicação de lesão e CEP.

Para obter mais informações sobre como usar Minitab AI no Data Center, vá para Usando a IA do Minitab para limpar seus dados.

Exportar etapas de preparação de dados

Depois de aplicar todas as etapas de preparação, salve-as a serem usadas para conjuntos de dados futuros com as mesmas colunas. Para salvar as etapas, exporte-as como um arquivo .mdcs.
  1. No painel Etapas à esquerda, selecione Exportar etapas no menu suspenso.
  2. O arquivo é salvo na pasta de downloads ou em outro local de salvamento e usa o mesmo nome do arquivo de dados. Altere o nome de acordo.

Importar etapas de preparação de dados

Para aplicar as etapas a um novo arquivo de dados, importe-as como um arquivo .mdcs. Selecione Importar etapas no menu suspenso no Etapas painel.

Explore resumos de dados

Cada coluna tem um resumo que mostra a forma dos dados, o intervalo dos dados e um ícone que representa o tipo de dados.

Uma rápida olhada nos resumos gráficos da coluna mostra que o canal tem 3 níveis e os dias abertos mostram uma distribuição bimodal.

Abra o Resumo dos dados para obter mais informações sobre as estatísticas resumidas nessas colunas.

O resumo de dados do canal mostra a frequência de cada um dos 3 níveis.

Use o menu do botão direito do mouse para editar o rótulo de agrupamento, excluir o grupo do conjunto de dados ou mostrar apenas as linhas que contêm esse valor.

Próxima etapa

Como os dados dos dias abertos indicam duas distribuições, a seguradora quer analisar isso mais a fundo. Acesse Analise seus dados.