Préparez vos données

Utilisez des outils de préparation des données pour organiser et préparer vos données en vue d’analyses plus robustes.

Ouvrez votre source de données

À partir de la page d’accueil Minitab Solution Center , vous pouvez accéder au Minitab Data Centerfichier .
  1. Sur la page d’accueil du Centre de solutions, sélectionnez Préparation des données.
  2. Sélectionnez Ajouter des données. Connectez-vous à un dépôt en ligne. Vous pouvez également ajouter un fichier de données local.
  3. Accédez à l’emplacement du fichier, puis sélectionnez Ouvrir.
Un schéma de principe représente les étapes de traitement des données.
Nettoyage Vue
Vous pouvez commencer à nettoyer vos données lorsque vous êtes dans la Nettoyage vue.
Source de données Vue
Si vous devez modifier le schéma de l’ensemble de données ou des paramètres qui affectent l’ensemble de l’ensemble de données, sélectionnez l’icône du fichier de source de données pour ouvrir le Options panneau.

Pour plus d'informations, reportez-vous à Modifier le schéma de l’ensemble de données ou Définir les options de la source de données.

Étapes de préparation des données

Dans cet exemple, une équipe de conformité s’inquiète de la précision de la détection des fraudes dans l’industrie automobile. Cependant, les données doivent être préparées avant de pouvoir commencer l’analyse. Suivez ces étapes pour préparer insurance_fraud_data.csv une analyse plus approfondie.
  1. Ouvrez les données sur la fraude à l’assurance dans le Minitab Data Center.
  2. Assurez-vous d’être dans la Nettoyage vue.
  3. Sélectionnez la colonne et ouvrez le Options de préparation des données menu déroulant pour accéder aux options de nettoyage de colonne.
  4. Pour claim_number, remplacez le type de données numérique par texte.
  5. Pour claim_number, ajoutez # aux valeurs de colonne.
  6. Par age_of_driver, filtrez pour n’inclure que les pilotes âgés de moins de 100 ans.
  7. Dans le sexe, remplacez M par masculin et F par féminin.
  8. Par annual_income, filtrez pour n’inclure que les pilotes qui en font plus de 1.
  9. Pour address_change, remplacez le type de données numérique par texte.
  10. Dans address_change, remplacez 1 par oui et 0 par non.
  11. Pour Code postal, remplacez le type de données numérique par texte.
  12. Permet Tri avancé de trier par fraude, réclamation pour blessure et code postal.

Utiliser Minitab AI pour nettoyer vos données

Le Minitab Data Center fournit une interface conversationnelle qui guide la préparation de vos données, pendant que vous êtes dans la Nettoyage vue. Pour l’exemple ci-dessus, vous pouvez entrer le texte suivant dans l’invite Minitab AI pour obtenir les mêmes résultats que les étapes individuelles.

Faites des numéros de réclamation par SMS. Ajoutez le symbole numérique pour revendiquer des numéros. Supprimez les pilotes de plus de cent ans. Changez m en mâle et f en femelle. Retirez les conducteurs qui n’ont pas de revenu valide. Remplacez address_change par du texte. De 1 à oui et de 0 à non pour les changements d’adresse. Triez par fraude, réclamation pour blessure et code postal.

Pour plus d’informations sur l’utilisation Minitab AI dans le , reportez-vous à la Data Centersection Utilisation de Minitab AI pour nettoyer vos données.

Étapes de préparation des données d’exportation

Après avoir appliqué toutes les étapes de préparation, enregistrez les étapes à utiliser pour les futurs ensembles de données avec les mêmes colonnes. Pour enregistrer les étapes, exportez-les sous forme de fichier .mdcs.
  1. Dans le volet Étapes à gauche, sélectionnez Exporter des étapes dans le menu déroulant.
  2. Le fichier est enregistré dans votre dossier de téléchargements ou à un autre emplacement de sauvegarde et porte le même nom que votre fichier de données. Modifiez le nom en conséquence.

Étapes de préparation des données d’importation

Pour appliquer les étapes à un nouveau fichier de données, importez-les en tant que fichier .mdcs. Sélectionnez Importer des étapes dans le menu déroulant du Etapes volet.

Explorer les résumés de données

Chaque colonne comporte un résumé qui indique la forme des données, la plage des données et une icône qui représente le type de données.

Un rapide coup d’œil aux résumés graphiques des colonnes montre que le canal a 3 niveaux et les jours ouverts montre une distribution bimodale.

Ouvrez le pour Résumé des données obtenir plus d’informations sur les statistiques récapitulatives de ces colonnes.

Le résumé des données pour le canal indique la fréquence de chacun des 3 niveaux.

Utilisez le menu contextuel pour modifier l’étiquette de regroupement, exclure le groupe de l’ensemble de données ou afficher uniquement les lignes qui contiennent cette valeur.

Et maintenant...

Étant donné que les données pour les jours ouverts indiquent deux distributions, la compagnie d’assurance souhaite examiner cela plus en détail. Accédez à Analysez vos données.