Objectifs

Avant d’analyser les tendances de détection de fraude, le jeu de données doit être nettoyé et standardisé. Dans cette section, vous allez :

  • Types de données corrects
  • Supprimer les dossiers invalides
  • Normaliser les valeurs catégorielles
  • Organiser le jeu de données pour l’analyse
  • Comprenez comment vos données circulent à travers le Minitab Data Center

Aperçu des pipelines de données

Il Minitab Data Center utilise un pipeline de données pour préparer vos données. Un pipeline est une séquence d’étapes connectées qui transforment les données brutes en un ensemble de données propre et prêt à être analysé.

Chaque projet de centre de données contient un diagramme de pipeline interactif qui représente les étapes de traitement des données. Un flux typique de pipeline contient les nœuds suivants.

Source de donnéesNettoyage → fusion/remodelageRésultats

  • Source de données: Connectez-vous à vos données et définissez leur structure.
  • Nettoyage: Corrigez, filtrez et standardisez vos données.
  • Fusion/Remodelage: Combinez ou réorganisez les ensembles de données.
  • Résultats: Envoyez les données nettoyées à Minitab Statistical Software ou Minitab Dashboard.

Chaque étape apparaît comme un nœud visuel dans le pipeline, facilitant la compréhension et la réutilisation de votre processus de préparation des données.

Ouvrez votre source de données

  1. Depuis la page d’accueil Minitab Solution Center , sélectionnez Préparation des données.
  2. Sélectionnez Ajouter des données.
  3. Connectez-vous à votre dépôt.
  4. Ouvrir les données sur la fraude à l’assurance.

    Données sur la fraude à l’assurance

Lorsque vous ouvrez un jeu de données, un nouveau pipeline est automatiquement créé avec les nœuds par défaut.

Source de donnéesNettoyageRésultats

Comprendre les vues des centres de données

Il Data Center a deux vues principales :
Nettoyage Vue
Utilisez la Nettoyage vue pour :
  • Modifier les types de données
  • Filtrer les rangées
  • Remplacer les valeurs
  • Trier les données
  • Normaliser les catégories
Source de données Vue
Si vous devez modifier le schéma du jeu de données ou des paramètres qui affectent l’ensemble du jeu de données, sélectionnez l’icône du fichier source de données pour ouvrir le Options panneau.

Pour plus d’informations, consultez Gérer le schéma de l’ensemble de données ou Définir les options de source de données.

Utilisez la Source de données vue pour :
  • Ajustez les paramètres à l’échelle du jeu de données
  • Modifier le schéma (noms et types de colonnes)
  • Configurer les options d’importation de fichiers

Quand utiliser chaque vue :

  • Utilisez-les Nettoyage pour corriger des données.
  • Utilisez Source de données la vue pour corriger la structure du jeu de données.

Préparer le jeu de données

L’équipe conformité souhaite améliorer la précision de la détection de la fraude. Avant le début de l’analyse, le jeu de données doit être validé et standardisé. Suivez ces étapes pour préparer insurance_fraud_data.csv une analyse plus approfondie.
  1. Ouvrez les données sur la fraude à l’assurance dans le Minitab Data Center.
  2. Assurez-vous d’être dans la Nettoyage vue.
  3. Sélectionnez la colonne et ouvrez le Options de préparation des données menu déroulant pour accéder aux options de nettoyage de colonne.

1. Standardiser les identifiants

Assurez-vous que les identifiants des revendications sont traités comme du texte et clairement formatés.
  • Changez claim_number type de données, passant de numérique à texte.

  • Prépendez le symbole # à tous les numéros de revendication.

Pourquoi cela importe : Empêche l’interprétation numérique et préserve la cohérence de la mise en forme.

2. Supprimer les valeurs invalides ou irréalistes

Des valeurs aberrantes et des valeurs provisoires qui pourraient influencer l’analyse.
  • Le filtre age_of_driver n’inclure que des valeurs ≤ 100.
  • Le filtre annual_income n’inclure que des valeurs supérieures à 1.

Pourquoi cela importe : Cela supprime les âges irréalistes et les entrées de revenus invalides qui pourraient fausser les résultats.

3. Normaliser les valeurs catégorielles

Assurez-vous d’avoir des étiquettes cohérentes et lisibles à travers tout le jeu de données.
  • En termes de genre, remplacer :
    • M → mâle
    • F → femme
  • Changez address_change type de données de numérique à texte.
  • En address_change, remplacez :
    • 1 → oui
    • 0 → non

Pourquoi cela importe : Les catégories standardisées améliorent la lisibilité, le regroupement et le rapport.

4. Types de données corrects

Certains champs numériques représentent des identifiants plutôt que des quantités.
  • Changez zip_code type de données de numérique à texte.

Pourquoi cela importe : Préserve les zéros à l’avance et empêche les opérations numériques non intentionnelles.

5. Organiser le jeu de données

Préparez le jeu de données pour l’analyse en triant les variables clés. À utiliser Tri avancé pour trier par :
  • Fraude signalée
  • injury_claim
  • zip_code

Pourquoi cela importe : Le tri aide à prioriser et à examiner efficacement les dossiers liés à la fraude.

Fusion ou remodelage des ensembles de données

En plus de nettoyer et standardiser les données, il se peut que vous deviez combiner ou réorganiser des ensembles de données avant analyse.

Les opérations suivantes aident à préparer les données pour les rapports, l’analyse statistique ou la création de tableaux de bord.
Joindre
Combine des ensembles de données apparentés en faisant correspondre des lignes à l’aide d’un ou plusieurs champs clés. Cela ajoute des colonnes et élargit le jeu de données.

Pour plus d’informations, rendez-vous sur Rejoindre les ensembles de données.

Union
Empile des jeux de données avec la même structure en un seul ensemble de données. Cela ajoute des lignes et allonge le jeu de données.

Pour plus d’informations, rendez-vous sur Union datasets.

Transposer
Échange de lignes et de colonnes. Cela est utile lorsque les données sont organisées dans un format qui n’est pas idéal pour l’analyse.

Pour plus d’informations, rendez-vous sur Transpose datasets.

Utiliser Minitab AI pour nettoyer vos données

Il Minitab Data Center fournit une interface conversationnelle qui guide la préparation de vos données dans la Nettoyage vue.

Pour l’exemple ci-dessus, vous pouvez entrer le texte suivant dans l’invite Minitab AI pour obtenir les mêmes résultats que les étapes individuelles.

Faites des numéros de réclamation par SMS. Ajoutez le symbole numérique pour revendiquer des numéros. Supprimez les pilotes de plus de cent ans. Changez m en mâle et f en femelle. Retirez les conducteurs qui n’ont pas de revenu valide. Remplacez address_change par du texte. De 1 à oui et de 0 à non pour les changements d’adresse. Triez par fraude, réclamation pour blessure et code postal.

Pour plus d’informations sur l’utilisation Minitab AI dans le Data Center, rendez-vous sur Utiliser Minitab AI pour nettoyer vos données.

Réutilisez vos étapes de préparation des données

Après avoir appliqué toutes les étapes de préparation, sauvegardez les étapes pour les futurs ensembles de données avec les mêmes colonnes.
Étapes de préparation des données d’exportation
Pour enregistrer les étapes, exportez-les sous forme de fichier .mdcs.
  1. Dans le volet Étapes à gauche, sélectionnez Exporter des étapes dans le menu déroulant.
  2. Le fichier est enregistré dans votre dossier de téléchargements ou à un autre emplacement de sauvegarde et porte le même nom que votre fichier de données. Modifiez le nom en conséquence.
Étapes de préparation des données d’importation
Pour appliquer les étapes à un nouveau fichier de données, importez-les en tant que fichier .mdcs.
Sélectionnez Importer des étapes dans le menu déroulant du Etapes volet.

Explorer les résumés de données

Chaque colonne comporte un résumé graphique qui montre la forme et la portée des données, ainsi qu’une icône représentant le type de données.

Par exemple, une chaîne a 3 niveaux et les jours ouverts affichent une distribution bimodale.

Ouvrez le Résumé des données site pour obtenir plus d’informations sur les statistiques résumées de ces colonnes.

Le résumé des données pour le canal indique la fréquence de chacun des 3 niveaux.

Utilisez le menu clic droit pour modifier l’étiquette de groupement, exclure le groupe du jeu de données, ou n’afficher que les lignes contenant cette valeur.

Et maintenant...

Étant donné que les données pour les jours ouverts indiquent deux distributions, la compagnie d’assurance souhaite examiner cela plus en détail. Accédez à Analysez vos données.