Erstellung von Datenpipelines

Im Minitab Data Center, können Sie eine Datenpipeline erstellen, um Daten von einer oder mehreren Quellen zu bereinigen und in einen einsatzbereiten Datensatz umzuwandeln.

Was ist eine Datenpipeline?

Eine Datenpipeline ist eine Abfolge von Schritten, die Daten sammeln, transformieren und vorbereiten, damit sie für Analyse oder Berichterstattung bereit sind. Datenpipelines helfen sicherzustellen, dass:
  • Die Daten bleiben konsistent und zuverlässig
  • Aktualisierungen erfolgen auf Abruf
  • Teams verwenden denselben vertrauenswürdigen Datensatz
  • Fehler werden erkannt, bevor die Daten verwendet werden

Die Datenpipeline erscheint als interaktives visuelles Diagramm, das es Ihnen ermöglicht, Knoten hinzuzufügen, zu entfernen und zu ändern, während Echtzeit-Verarbeitungsstatus- und Fehlermeldungen empfangen werden.

Zum Beispiel kannst du eine Pipeline erstellen, die Daten aus einer CSV-Datei und einem Minitab-Arbeitsblatt zieht, die Daten bereinigt und kombiniert und dann einen einzelnen Datensatz für dein Dashboard ausgibt.
Hinweis

Jede Pipeline unterstützt bis zu 60 Verarbeitungsknoten plus einen Ausgabeknoten (insgesamt 61 Knoten). Man kann bis zu zehn Datenquellenknoten haben.

Pipeline-Ansichten

Jedes Data Center Projekt enthält ein interaktives Pipeline-Diagramm, das die Datenverarbeitungsschritte darstellt.
Bereinigen ansehen
Nutzen Sie die Ansicht, Bereinigen um Ihre Daten zu bereinigen und vorzubereiten
Datenquelle ansehen
Verwenden Sie die Datenquelle Ansicht, um das Datensatzschema oder andere Einstellungen zu ändern, die den gesamten Datensatz betreffen.

Weitere Informationen finden Sie unter Verwaltung des Datensatzschemas oder Festlegen von Optionen für Datenquellen.

Stellen Sie die Pipeline-Anzeige ein

Verwenden Sie die Vergrößern, Verkleinern, oder An Ansicht anpassen Buttons auf der Pipeline-Leinwand, um Ihre Ansicht anzupassen.
Du kannst auch Auto Layout in der Symbolleiste auswählen, um die Pipeline-Ansicht zu optimieren.
Hinweis

Man kann Knoten ziehen und neu positionieren, um eine optimale visuelle Organisation zu gewährleisten.

Verfügbare Knoten

Die meisten Pipelines enthalten folgende Knotentypen:
  • Datenquelle
  • Bereinigen
  • Zusammenführen
  • Neugestaltung
  • Ausgabe

Datenquellenknoten

Ein Datenquellenknoten verbindet deine Pipeline mit einem Datensatz. Jede Pipeline unterstützt maximal zehn Datenquellenknoten.
Um einen Datenquellenknoten hinzuzufügen, wählen Daten hinzufügen Sie in der Werkzeugleiste aus.Sie können auch aus dem Canvas-Kontextmenü auswählen Datenquelle hinzufügen .

Weitere Informationen zu Datenquellenknoten finden Sie unter Grundlagen des Quellknotens.

Reinigungsknoten

Behebt Formatierungsfehler, behebt Fehler und führt weitere Datenvorbereitungsoperationen durch.
Das Rechenzentrum unterstützt mehrere Reinigungsknoten in flexiblen Hierarchien, um alle Ihre Datenreinigungsprozesse zu unterstützen.
Der erste Bereinigen Knoten wird in Reihe addiert, dann sind die folgenden Knoten parallel wie folgt. Du kannst Knoten jederzeit umbenennen und an jede beliebige Position verschieben.

Um einen unparented Cleanup-Knoten hinzuzufügen, wählen Bereinigung hinzufügen Sie entweder im Canvas-Kontextmenü aus.

Weitere Informationen zu Datenbereinigungsknoten finden Sie unter Basics zum Aufräumschritt.

Datenzusammenführungsknoten

Verwenden Join Sie unsere Union Knoten, um mehrere Datensätze zu kombinieren.
Man kann Join- und Union-Knoten von einem bestehenden Knoten oder der Connector-Leitung hinzufügen.

Um einen unparented Data Merge-Knoten hinzuzufügen, wählen Join hinzufügen Sie entweder das Canvas-Kontextmenü aus oder Union hinzufügen aus dem Canvas.

Weitere Informationen zu Datenzusammenführungsknoten finden Sie unter Datensätze zusammenführen.

Umformung der Knoten

Formatiere Datensätze mit Operationen Transponieren um.
Man kann Transpose-Knoten von einem bestehenden Knoten oder der Steckerleitung hinzufügen.

Um einen unparented Reshaping Node, Fügen Sie Transponieren hinzu wählen Sie im Canvas-Kontextmenü aus.

Für weitere Informationen zum Reshaping von Knoten besuchen Sie Transponierte Datensätze.

Ausgabeknoten

Gibt den Endknoten einer Datenpipeline an. Liefert Daten an ein endgültiges Ziel, wie ein Analysetool oder Dashboard.

Um einen Ausgabeknoten festzulegen, öffnen Sie das Rechtsklickmenü und wählen Ausgabe festlegen Sie aus einem übergeordneten Knoten. Von hier aus können Sie eine Kopie der bereinigten Daten an ein Minitab-Projekt oder ein Minitab-Dashboard senden.

Du kannst auch aus der Werkzeugleiste auswählen Öffnen in , um eine Kopie der bereinigten Daten an ein Minitab-Projekt oder ein Minitab-Dashboard zu senden.

Für weitere Informationen zum Export der Daten oder der gesamten Rechenzentrum-Pipeline besuchen Sie Exportdaten und Projekte.

Aktualisieren Sie die Pipeline

Verwenden Aktualisieren Sie es, um die Datentransformationen innerhalb der Datenpipeline neu zu verarbeiten. Nur Datenquellenknoten können unabhängig erneuert werden.

Um die gesamte Pipeline zu aktualisieren, wählen Aktualisieren Sie aus der Werkzeugleiste aus.

Um eine einzelne Datenquelle zu aktualisieren, wählen Sie im Kontextmenü des Quellknotens aus Aktualisieren . Wenn eine Datenquelle nicht zugänglich ist, werden Sie aufgefordert, sich erneut zu verbinden oder die Datei zu durchsuchen.