Objetivos

Antes de analisar tendências de detecção de fraudes, o conjunto de dados deve ser limpo e padronizado. Nesta seção, você irá:

  • Tipos de dados corretos
  • Remover registros inválidos
  • Padronizar valores categóricos
  • Organize o conjunto de dados para análise
  • Entenda como seus dados fluem através do Minitab Data Center

Visão geral dos pipelines de dados

Ele Minitab Data Center usa um pipeline de dados para preparar seus dados. Um pipeline é uma sequência de etapas conectadas que transformam dados brutos em um conjunto de dados limpo e pronto para análise.

Todo projeto de Data Center contém um diagrama interativo de pipeline que representa as etapas do processamento de dados. Um fluxo típico de pipeline contém os seguintes nós.

Fonte de dadosLimpezaFusão/RemodelaçãoSaída

  • Fonte de dados: Conecte-se aos seus dados e defina sua estrutura.
  • Limpeza: Corrija, filtre e padronize seus dados.
  • Fusão/Remodelação: Combine ou reorganize conjuntos de dados.
  • Saída: Envie os dados limpos para Minitab Statistical Software ou Minitab Dashboards.

Cada etapa aparece como um nó visual no pipeline, facilitando a compreensão e a reutilização do seu processo de preparação de dados.

Abra sua fonte de dados

  1. Na Minitab Solution Center página inicial, selecione Preparação de dados.
  2. Selecione Adicionar dados.
  3. Faça login no seu repositório.
  4. Abrir os Dados de Fraude de Seguros.

    Dados de fraude de seguros

Quando você abre um conjunto de dados (dataset), um novo pipeline é criado automaticamente com os nós padrão.

Fonte de dadosLimpezaSaída

Entenda as visões do Data Center

Tem Data Center duas visões principais:
Limpeza vista
Use a Limpeza vista para:
  • Alterar tipos de dados
  • Filtrar linhas
  • Substituir valores
  • Ordenar dados
  • Padronizar categorias
Fonte de dados vista
Se precisar mudar o esquema do conjunto de dados ou qualquer configuração que afete todo o conjunto, selecione o ícone do arquivo fonte de dados para abrir o Opções painel.

Para mais informações, acesse Gerenciar o esquema do conjunto de dados ou Definir as opções de fonte de dados.

Use a Fonte de dados vista para:
  • Ajuste as configurações de conjunto de dados
  • Modificar o esquema (nomes e tipos de colunas)
  • Configurar opções de importação de arquivos

Quando usar cada view:

  • Use Limpeza para corrigir dados.
  • Use Fonte de dados a visão para corrigir a estrutura do conjunto de dados.

Prepare o conjunto de dados

A equipe de compliance quer melhorar a precisão da detecção de fraudes. Antes do início da análise, o conjunto de dados deve ser validado e padronizado. Siga estas etapas para se preparar insurance_fraud_data.csv para uma análise mais aprofundada.
  1. Abra os dados de fraude de Minitab Data Center seguros no.
  2. Certifique-se de estar na Limpeza visualização.
  3. Selecione a coluna e abra o Opções de preparação de dados menu suspenso para acessar as opções de limpeza da coluna.

1. Padronizar identificadores

Garanta que os identificadores de reivindicação sejam tratados como texto e claramente formatados.
  • Mude claim_number tipo de dado de numérico para texto.

  • Coloque o símbolo # em todos os números de reivindicação.

Por que isso importa: Impede a interpretação numérica e mantém a consistência da formatação.

2. Remover valores inválidos ou irreais

Limpar outliers e valores provisórios que podem afetar a análise.
  • O filtro age_of_driver incluir apenas valores ≤ 100.
  • O filtro annual_income incluir apenas valores maiores que 1.

Por que isso importa: Remove idades irreais e entradas de renda inválidas que podem distorcer os resultados.

3. Padronizar valores categóricos

Garanta etiquetas consistentes e legíveis em todo o conjunto de dados.
  • Em gênero, substituir:
    • M → masculino
    • F → feminino
  • Mude address_change tipo de dado de numérico para texto.
  • Em address_change, substitua:
    • 1 → sim
    • 0 → não

Por que isso importa: Categorias padronizadas melhoram a legibilidade, agrupamento e relatórios.

4. Tipos de dados corretos

Alguns campos numéricos representam identificadores em vez de quantidades.
  • Mude zip_code tipo de dado de numérico para texto.

Por que isso importa: Preserva os zeros à frente e impede operações numéricas não intencionais.

5. Organize o conjunto de dados

Prepare o conjunto de dados para análise ordenando variáveis-chave. Use Ordenação avançada para ordenar por:
  • fraude relatada
  • injury_claim
  • zip_code

Por que isso importa: A triagem ajuda a priorizar e revisar registros relacionados a fraudes de forma eficiente.

Fusão ou remodelação de conjuntos de dados

Além de limpar e padronizar dados, pode ser necessário combinar ou reorganizar conjuntos de dados antes da análise.

As operações a seguir ajudam a preparar dados para relatórios, análise estatística ou criação de painéis.
Juntar
Combina conjuntos de dados relacionados ao combinar linhas usando um ou mais campos-chave. Isso adiciona colunas e torna o conjunto de dados mais amplo.

Para mais informações, acesse Juntar conjuntos de dados.

Associação
Stacka conjuntos de dados com a mesma estrutura em um único conjunto de dados. Isso adiciona linhas e torna o conjunto de dados mais longo.

Para mais informações, acesse os conjuntos de dados da União.

Transposição
Troca linhas e colunas. Isso é útil quando os dados são organizados em um formato que não é ideal para análise.

Para mais informações, acesse Transpose datasets.

Use a IA do Minitab para limpar seus dados

Ele Minitab Data Center oferece uma interface conversacional que orienta a preparação dos seus dados na Limpeza visualização.

Para o exemplo acima, você pode inserir o seguinte texto no Minitab AI prompt para obter os mesmos resultados das etapas individuais.

Faça números de reivindicação no texto. Adicione o símbolo numérico aos números de reivindicação. Remova os drivers com mais de cem. Mude m para masculino e f para feminino. Remova os motoristas que não têm uma renda válida. Altere address_change para texto. Faça 1 a sim e 0 a não para alterações de endereço. Classifique por fraude, reivindicação de lesão e CEP.

Para mais informações sobre o uso Minitab AI no Data Center, acesse Usando Minitab AI para limpar seus dados.

Reutilize os passos de preparação dos seus dados

Depois de aplicar todas as etapas de preparação, salve as etapas para usar em conjuntos de dados futuros com as mesmas colunas.
Exportar etapas de preparação de dados
Para salvar as etapas, exporte-as como um arquivo .mdcs.
  1. No painel Etapas à esquerda, selecione Exportar etapas no menu suspenso.
  2. O arquivo é salvo na pasta de downloads ou em outro local de salvamento e usa o mesmo nome do arquivo de dados. Altere o nome de acordo.
Importar etapas de preparação de dados
Para aplicar as etapas a um novo arquivo de dados, importe-as como um arquivo .mdcs.
Selecione Importar etapas no menu suspenso no Etapas painel.

Explore resumos de dados

Cada coluna possui um resumo gráfico que mostra a forma e a variedade dos dados e um ícone que representa o tipo de dado.

Por exemplo, o canal tem 3 níveis e os dias abertos apresentam uma distribuição bimodal.

Abra o para Resumo dos dados obter mais informações sobre as estatísticas resumidas dessas colunas.

O resumo de dados do canal mostra a frequência de cada um dos 3 níveis.

Use o menu do botão direito para editar o rótulo de agrupamento, excluir o grupo do conjunto de dados ou mostrar apenas as linhas que contêm esse valor.

Próxima etapa

Como os dados dos dias abertos indicam duas distribuições, a seguradora quer analisar isso mais a fundo. Acesse Analise seus dados.