Antes de analisar tendências de detecção de fraudes, o conjunto de dados deve ser limpo e padronizado. Nesta seção, você irá:
Ele Minitab Data Center usa um pipeline de dados para preparar seus dados. Um pipeline é uma sequência de etapas conectadas que transformam dados brutos em um conjunto de dados limpo e pronto para análise.
Todo projeto de Data Center contém um diagrama interativo de pipeline que representa as etapas do processamento de dados. Um fluxo típico de pipeline contém os seguintes nós.
Fonte de dados → Limpeza → Fusão/Remodelação→ Saída
Cada etapa aparece como um nó visual no pipeline, facilitando a compreensão e a reutilização do seu processo de preparação de dados.
Fonte de dados → Limpeza → Saída


Para mais informações, acesse Gerenciar o esquema do conjunto de dados ou Definir as opções de fonte de dados.
Quando usar cada view:

Mude claim_number tipo de dado de numérico para texto.
Coloque o símbolo # em todos os números de reivindicação.
Por que isso importa: Impede a interpretação numérica e mantém a consistência da formatação.
Por que isso importa: Remove idades irreais e entradas de renda inválidas que podem distorcer os resultados.
Por que isso importa: Categorias padronizadas melhoram a legibilidade, agrupamento e relatórios.
Por que isso importa: Preserva os zeros à frente e impede operações numéricas não intencionais.
Por que isso importa: A triagem ajuda a priorizar e revisar registros relacionados a fraudes de forma eficiente.
Além de limpar e padronizar dados, pode ser necessário combinar ou reorganizar conjuntos de dados antes da análise.
Para mais informações, acesse Juntar conjuntos de dados.
Para mais informações, acesse os conjuntos de dados da União.
Para mais informações, acesse Transpose datasets.
Ele Minitab Data Center oferece uma interface conversacional que orienta a preparação dos seus dados na Limpeza visualização.
Para o exemplo acima, você pode inserir o seguinte texto no Minitab AI prompt para obter os mesmos resultados das etapas individuais.
Faça números de reivindicação no texto. Adicione o símbolo numérico aos números de reivindicação. Remova os drivers com mais de cem. Mude m para masculino e f para feminino. Remova os motoristas que não têm uma renda válida. Altere address_change para texto. Faça 1 a sim e 0 a não para alterações de endereço. Classifique por fraude, reivindicação de lesão e CEP.
Para mais informações sobre o uso Minitab AI no Data Center, acesse Usando Minitab AI para limpar seus dados.



Por exemplo, o canal tem 3 níveis e os dias abertos apresentam uma distribuição bimodal.


O resumo de dados do canal mostra a frequência de cada um dos 3 níveis.

Use o menu do botão direito para editar o rótulo de agrupamento, excluir o grupo do conjunto de dados ou mostrar apenas as linhas que contêm esse valor.
Como os dados dos dias abertos indicam duas distribuições, a seguradora quer analisar isso mais a fundo. Acesse Analise seus dados.