Avant d’analyser les tendances de détection de fraude, le jeu de données doit être nettoyé et standardisé. Dans cette section, vous allez :
Il Minitab Data Center utilise un pipeline de données pour préparer vos données. Un pipeline est une séquence d’étapes connectées qui transforment les données brutes en un ensemble de données propre et prêt à être analysé.
Chaque projet de centre de données contient un diagramme de pipeline interactif qui représente les étapes de traitement des données. Un flux typique de pipeline contient les nœuds suivants.
Source de données → Nettoyage → fusion/remodelage→ Résultats
Chaque étape apparaît comme un nœud visuel dans le pipeline, facilitant la compréhension et la réutilisation de votre processus de préparation des données.
Source de données → Nettoyage → Résultats


Pour plus d’informations, consultez Gérer le schéma de l’ensemble de données ou Définir les options de source de données.
Quand utiliser chaque vue :

Changez claim_number type de données, passant de numérique à texte.
Prépendez le symbole # à tous les numéros de revendication.
Pourquoi cela importe : Empêche l’interprétation numérique et préserve la cohérence de la mise en forme.
Pourquoi cela importe : Cela supprime les âges irréalistes et les entrées de revenus invalides qui pourraient fausser les résultats.
Pourquoi cela importe : Les catégories standardisées améliorent la lisibilité, le regroupement et le rapport.
Pourquoi cela importe : Préserve les zéros à l’avance et empêche les opérations numériques non intentionnelles.
Pourquoi cela importe : Le tri aide à prioriser et à examiner efficacement les dossiers liés à la fraude.
En plus de nettoyer et standardiser les données, il se peut que vous deviez combiner ou réorganiser des ensembles de données avant analyse.
Pour plus d’informations, rendez-vous sur Rejoindre les ensembles de données.
Pour plus d’informations, rendez-vous sur Union datasets.
Pour plus d’informations, rendez-vous sur Transpose datasets.
Il Minitab Data Center fournit une interface conversationnelle qui guide la préparation de vos données dans la Nettoyage vue.
Pour l’exemple ci-dessus, vous pouvez entrer le texte suivant dans l’invite Minitab AI pour obtenir les mêmes résultats que les étapes individuelles.
Faites des numéros de réclamation par SMS. Ajoutez le symbole numérique pour revendiquer des numéros. Supprimez les pilotes de plus de cent ans. Changez m en mâle et f en femelle. Retirez les conducteurs qui n’ont pas de revenu valide. Remplacez address_change par du texte. De 1 à oui et de 0 à non pour les changements d’adresse. Triez par fraude, réclamation pour blessure et code postal.
Pour plus d’informations sur l’utilisation Minitab AI dans le Data Center, rendez-vous sur Utiliser Minitab AI pour nettoyer vos données.



Par exemple, une chaîne a 3 niveaux et les jours ouverts affichent une distribution bimodale.


Le résumé des données pour le canal indique la fréquence de chacun des 3 niveaux.

Utilisez le menu clic droit pour modifier l’étiquette de groupement, exclure le groupe du jeu de données, ou n’afficher que les lignes contenant cette valeur.
Étant donné que les données pour les jours ouverts indiquent deux distributions, la compagnie d’assurance souhaite examiner cela plus en détail. Accédez à Analysez vos données.