Création de pipelines de données

Dans le Minitab Data Center, vous pouvez créer un pipeline de données pour nettoyer et transformer les données d’une ou plusieurs sources en un jeu de données prêt à utiliser.

Qu’est-ce qu’un pipeline de données ?

Un pipeline de données est une séquence d’étapes qui collectent, transforment et préparent les données pour qu’elles soient prêtes à être analysées ou rapportées. Les pipelines de données contribuent à garantir que :
  • Les données restent cohérentes et fiables
  • Les mises à jour ont lieu à la demande
  • Les équipes utilisent le même jeu de données de confiance
  • Les erreurs sont identifiées avant l’utilisation des données

Le pipeline de données apparaît sous la forme d’un diagramme visuel interactif qui vous permet d’ajouter, de supprimer et de modifier des nœuds tout en recevant en temps réel les messages d’état et d’erreur de traitement.

Par exemple, vous pouvez créer un pipeline qui extrait des données d’un fichier CSV et d’une feuille de calcul Minitab, nettoie et combine les données, puis produit un seul jeu de données à utiliser dans votre tableau de bord.
Remarque

Chaque pipeline supporte jusqu’à 60 nœuds de traitement, plus un nœud de sortie (61 nœuds au total). Vous pouvez avoir jusqu’à dix nœuds sources de données.

Vues de pipeline

Chaque Data Center projet contient un diagramme de pipeline interactif représentant les étapes de traitement des données.
Nettoyage Vue
Utilisez la Nettoyage vue pour nettoyer et préparer vos données
Source de données Vue
Utilisez la Source de données vue pour modifier le schéma du jeu de données ou tout paramètre affectant l’ensemble du jeu de données.

Pour plus d'informations, reportez-vous à Gérer le schéma du jeu de données ou Définir les options de la source de données.

Ajustez l’affichage du pipeline

Utilisez les Zoom avantboutons , Zoom arrière, ou Ajuster la vue sur la toile du pipeline pour ajuster votre vue.
Vous pouvez aussi sélectionner Disposition automatique depuis la barre d’outils pour optimiser la vue du pipeline.
Remarque

Vous pouvez glisser et repositionner les nœuds pour une organisation visuelle optimale.

Nœuds disponibles

La plupart des pipelines incluent les types de nœuds suivants :
  • Source de données
  • Nettoyage
  • Fusionner
  • Refonte
  • Résultats

Nœuds sources de données

Un nœud source de données relie votre pipeline à un jeu de données. Chaque pipeline supporte un maximum de dix nœuds sources de données.
Pour ajouter un nœud source de données, sélectionnez Ajouter des données dans la barre d’outils.Vous pouvez aussi sélectionner Ajouter une source de données dans le menu contextuel du canevas.

Pour plus d’informations sur les nœuds sources de données, rendez-vous sur Bases des nœuds sources.

Nœuds de nettoyage

Corrige les problèmes de formatage, supprime les erreurs et effectue d’autres opérations de préparation des données.
Le Data Center prend en charge plusieurs nœuds de nettoyage dans des hiérarchies flexibles pour soutenir tous vos processus de nettoyage de données.
Le premier Nettoyage nœud est ajouté en série, puis les nœuds suivants sont en parallèle comme suit. Vous pouvez renommer et déplacer des nœuds à tout moment dans n’importe quelle position.

Pour ajouter un nœud de nettoyage non parenté, sélectionnez Ajouter un nettoyage soit dans le menu contextuel canvas.

Pour plus d’informations sur les nœuds de nettoyage de données, rendez-vous sur Bases de l’étape de nettoyage.

Nœuds de fusion de données

Utilisez Joindre des nœuds de notre Union pour combiner plusieurs ensembles de données.
Vous pouvez ajouter des nœuds de jonction et d’union depuis un nœud existant ou la ligne de connecteur.

Pour ajouter un nœud de fusion de données non parenté, Ajouter une jointure sélectionnez ou Ajouter l’Union depuis le menu contextuel canvas.

Pour plus d’informations sur les nœuds de fusion de données, rendez-vous sur Fusion des ensembles de données.

Remodelage des nœuds

Reconfigurez les jeux de données à l’aide d’opérations Transposer .
Vous pouvez ajouter des nœuds transposés à partir d’un nœud existant ou de la ligne de connecteur.

Pour ajouter un nœud de remodelage non parenté, sélectionnez Ajouter Transposer dans le menu contextuel canvas.

Pour plus d’informations sur le remodelage des nœuds, rendez-vous sur Jeux de données transposés.

Nœuds de sortie

Indique le nœud terminal d’un pipeline de données. Fournit les données à une destination finale, telle qu’un outil d’analyse ou un tableau de bord.

Pour définir un nœud de sortie, ouvrez le menu du clic droit et choisissez Définir la sortie parmi un nœud parent. À partir de là, vous pouvez envoyer une copie des données nettoyées à un projet Minitab ou à un tableau de bord Minitab.

Vous pouvez également sélectionner Ouvrir dans depuis la barre d’outils d’envoyer une copie des données nettoyées à un projet Minitab ou au tableau de bord Minitab.

Pour plus d’informations sur l’exportation des données ou de l’ensemble du pipeline du centre de données, rendez-vous sur Données et projets d’exportation.

Rafraîchir le pipeline

Utilisez Actualiser pour retraiter les transformations de données au sein du pipeline de données. Seuls les nœuds Data Source peuvent être rafraîchis indépendamment.

Pour rafraîchir tout le pipeline, sélectionnez Actualiser dans la barre d’outils.

Pour rafraîchir une source de données individuelle, sélectionnez Actualiser dans le menu contextuel du nœud source. Si une source de données n’est pas accessible, il vous sera demandé de vous reconnecter ou de rechercher le fichier.