Ziele

Bevor Betrugserkennungstrends analysiert werden, muss der Datensatz bereinigt und standardisiert werden. In diesem Abschnitt werden Sie:

  • Korrekte Datentypen
  • Ungültige Datensätze entfernen
  • Standardisieren Sie kategoriale Werte
  • Organisieren Sie den Datensatz für die Analyse
  • Verstehen Sie, wie Ihre Daten durch die Minitab Data Center

Überblick über Datenpipelines

Er Minitab Data Center verwendet eine Datenpipeline, um Ihre Daten vorzubereiten. Eine Pipeline ist eine Abfolge zusammenhängender Schritte, die Rohdaten in einen sauberen, analysetauglichen Datensatz umwandeln.

Jedes Data Center-Projekt enthält ein interaktives Pipeline-Diagramm, das die Datenverarbeitungsschritte darstellt. Ein typischer Pipeline-Fluss enthält folgende Knoten.

DatenquelleBereinigenMerge/Reshape→ Ausgabe

  • Datenquelle: Verbinden Sie sich mit Ihren Daten und definieren Sie deren Struktur.
  • Bereinigen: Beheben, filtern und standardisieren Sie Ihre Daten.
  • Verschmelzen/Umformen: Datensätze kombinieren oder neu organisieren.
  • Ausgabe: Sende bereinigte Daten an Minitab Statistical Software oder Minitab Dashboards.

Jeder Schritt erscheint als visueller Knoten in der Pipeline, was es leicht macht, Ihren Datenvorbereitungsprozess zu verstehen und wiederzuverwenden.

Öffnen der Datenquelle

  1. Auf der Minitab Solution Center Startseite wählen DatenvorbereitungSie .
  2. Wählen Sie Daten hinzufügen aus.
  3. Melde dich in deinem Repository an.
  4. Öffnen Die Versicherungsbetrugsdaten.

    Daten zu Versicherungsbetrug

Wenn Sie einen Datensatz öffnen, wird automatisch eine neue Pipeline mit den Standardknoten erstellt.

DatenquelleBereinigenAusgabe

Verstehen Sie die Ansichten des Rechenzentrums

Er Data Center hat zwei Hauptansichten:
Bereinigen ansehen
Nutzen Sie die Ansicht, Bereinigen um:
  • Ändern von Datentypen
  • Filtern von Zeilen
  • Werte ersetzen
  • Daten sortieren
  • Kategorien standardisieren
Datenquelle ansehen
Wenn du das Datensatz-Schema oder andere Einstellungen, die den gesamten Datensatz betreffen, ändern musst, wähle das Symbol der Datenquellendatei, um das Optionen Panel zu öffnen.

Für weitere Informationen besuchen Sie die Optionen Datensatzschema verwalten oder Daten quellen festlegen.

Nutzen Sie die Ansicht, Datenquelle um:
  • Anpassung der datensatzweiten Einstellungen
  • Schema ändern (Spaltennamen und -typen)
  • Dateiimportoptionen konfigurieren

Wann sollte man jede Ansicht verwenden:

  • Verwenden Bereinigen Sie es, um Daten zu reparieren.
  • Verwenden Sie Datenquelle View, um die Datensatzstruktur zu korrigieren.

Bereite den Datensatz vor

Das Compliance-Team möchte die Genauigkeit bei der Betrugserkennung verbessern. Bevor die Analyse beginnt, muss der Datensatz validiert und standardisiert werden. Führen Sie die folgenden Schritte aus, um insurance_fraud_data.csv für die weitere Analyse vorzubereiten.
  1. Öffnen Sie Daten zu Versicherungsbetrug in Minitab Data Center.
  2. Stellen Sie sicher, dass Sie sich in der Bereinigen Ansicht befinden.
  3. Wählen Sie die Spalte aus und öffnen Sie das Optionen für die Datenvorbereitung Dropdown-Menü, um auf die Optionen zur Spaltenbereinigung zuzugreifen.

1. Standardisieren Sie Identifikatoren

Stellen Sie sicher, dass die Anspruchskennungen als Text behandelt und klar formatiert sind.
  • Ändere claim_number Datentyp von numerisch zu Text.

  • Stellen Sie allen Anspruchsnummern das # -Symbol vor.

Warum das wichtig ist: Verhindert numerische Interpretation und bewahrt die Formatkonsistenz.

2. Entfernen Sie ungültige oder unrealistische Werte

Saubere Ausreißer und Platzhalterwerte, die die Analyse beeinflussen könnten.
  • Filtere age_of_driver , um nur Werte ≤ 100 einzubeziehen.
  • Filtere annual_income so, dass nur Werte größer als 1 enthalten sind.

Warum das wichtig ist: Entfernt unrealistische Alter und ungültige Einkommenseinträge, die die Ergebnisse verzerren könnten.

3. Standardisieren Sie kategoriale Werte

Stellen Sie konsistente, lesbare Labels im gesamten Datensatz sicher.
  • Im Geschlechtersetzen Sie:
    • M → männlich
    • F → weiblich
  • Ändere address_change Datentyp von numerisch zu Text.
  • In address_changeersetzen Sie:
    • 1 → ja
    • 0 → nein

Warum das wichtig ist: Standardisierte Kategorien verbessern die Lesbarkeit, Gruppierung und Berichterstattung.

4. Korrekte Datentypen

Einige numerische Felder stellen Identifikatoren statt Größen dar.
  • Ändere zip_code Datentyp von numerisch zu Text.

Warum das wichtig ist: Bewahrt führende Nullen und verhindert unbeabsichtigte numerische Operationen.

5. Organisieren Sie den Datensatz

Bereiten Sie den Datensatz für die Analyse vor, indem Sie Schlüsselvariablen sortieren. Verwenden Erweiterte Sortierung Sie zum Sortieren nach:
  • Gemeldeter Betrug
  • injury_claim
  • zip_code

Warum das wichtig ist: Sortieren hilft, betrugsbezogene Unterlagen effizient zu priorisieren und zu überprüfen.

Datensätze zusammenführen oder umgestalten

Neben der Reinigung und Standardisierung von Daten müssen Sie möglicherweise Datensätze vor der Analyse kombinieren oder neu organisieren.

Die folgenden Operationen helfen dabei, Daten für Berichterstattung, statistische Analyse oder Dashboard-Erstellung vorzubereiten.
Join
Kombiniert verwandte Datensätze, indem Zeilen mit einem oder mehreren Schlüsselfeldern abgeglichen werden. Dies fügt Spalten hinzu und macht den Datensatz breiter.

Für weitere Informationen besuchen Sie "Datensätze zusammenführen".

Union
Stapelt Datensätze mit derselben Struktur zu einem Datensatz. Das fügt Zeilen hinzu und macht den Datensatz länger.

Weitere Informationen finden Sie unter Union-Datensätzen.

Transponieren
Wechselt Zeilen und Spalten. Dies ist nützlich, wenn Daten in einem Format angeordnet sind, das für die Analyse nicht ideal ist.

Für weitere Informationen besuchen Sie Transpose-Datensätze.

Verwenden von Minitab AI zum Bereinigen von Daten

Sie Minitab Data Center bietet eine konversationelle Schnittstelle, die Ihre Datenvorbereitung in der Bereinigen Ansicht anleitet.

Für das obige Beispiel können Sie den folgenden Text in die Minitab AI Eingabeaufforderung eingeben, um die gleichen Ergebnisse wie bei den einzelnen Schritten zu erhalten.

Machen Sie Anspruchsnummern in Text. Fügen Sie das Zahlensymbol hinzu, um Zahlen zu beanspruchen. Entfernen Sie Treiber, die älter als hundert sind. Ändere m in männlich und f in weiblich. Entfernen Sie Fahrer, die kein gültiges Einkommen haben. Ändern Sie address_change in Text. Machen Sie 1 auf Ja und 0 auf Nein für Adressänderungen. Sortieren Sie nach Betrug, Verletzungsanspruch und Postleitzahl.

Für weitere Informationen zur Nutzung Minitab AI in , Data Centersiehe "Minitab AI, um Ihre Daten zu bereinigen".

Verwenden Sie Ihre Datenvorbereitungsschritte erneut

Nachdem du alle Vorbereitungsschritte angewendet hast, speichere sie für zukünftige Datensätze mit denselben Spalten.
Exportieren von Schritten zur Datenvorbereitung
Um die Schritte zu speichern, exportieren Sie sie als MDCS-Datei.
  1. Wählen Sie im Bereich Schritte auf der linken Seite aus dem Dropdown-Menü aus Schritte exportieren.
  2. Die Datei wird in Ihrem Download-Ordner oder an einem anderen Speicherort gespeichert und verwendet denselben Namen wie Ihre Datendatei. Ändern Sie den Namen entsprechend.
Schritte zur Datenvorbereitung importieren
Um die Schritte auf eine neue Datendatei anzuwenden, importieren Sie sie als MDCS-Datei.
Wählen Sie aus dem Dropdown-Menü im Bereich aus Schritte importieren Schritte .

Erkunden von Datenzusammenfassungen

Jede Spalte enthält eine grafische Zusammenfassung, die Form und Bereich der Daten zeigt, sowie ein Symbol, das den Datentyp darstellt.

Zum Beispiel hat der Kanal 3 Ebenen und Offenheitstage zeigt eine bimodale Verteilung.

Öffnen Sie die Tür Datenzusammenfassung , um weitere Informationen zu den zusammenfassenden Statistiken zu diesen Spalten zu erhalten.

Die Datenzusammenfassung für den Kanal zeigt die Häufigkeit für jede der 3 Stufen.

Verwenden Sie das Rechtsklickmenü, um das Gruppierungslabel zu bearbeiten, die Gruppe aus dem Datensatz auszuschließen oder nur die Zeilen anzuzeigen, die diesen Wert enthalten.

Weitere Vorgehensweise

Da die Daten für die offenen Tage auf zwei Verteilungen hindeuten, möchte die Versicherungsgesellschaft dies weiter untersuchen. Navigieren Sie zu Analysieren Sie Ihre Daten.