Objetivos

Antes de analizar las tendencias de detección de fraude, el conjunto de datos debe ser limpiado y estandarizado. En esta sección, tú deberás:

  • Tipos de datos correctos
  • Eliminar registros inválidos
  • Estandarizar valores categóricos
  • Organizar el conjunto de datos para su análisis
  • Entiende cómo fluyen tus datos a través de la Minitab Data Center

Visión general de las canalizaciones de datos

Utiliza Minitab Data Center una cadena de datos para preparar tus datos. Una pipeline es una secuencia de pasos conectados que transforman los datos en bruto en un conjunto de datos limpio y listo para el análisis.

Cada proyecto de Centro de Datos contiene un diagrama interactivo de pipeline que representa los pasos de procesamiento de datos. Un flujo típico de tubería contiene los siguientes nodos.

Origen de datosLimpiezaFusionar/RemodelarSalida

  • Origen de datos: Conéctate con tus datos y define su estructura.
  • Limpieza: Corrija, filtra y estandariza tus datos.
  • Fusionar/Remodelar: Combinar o reorganizar conjuntos de datos.
  • Salida: Envía los datos limpios a Minitab Statistical Software o Minitab Dashboards.

Cada paso aparece como un nodo visual en la pipeline, facilitando la comprensión y la reutilización de tu proceso de preparación de datos.

Abra su fuente de datos

  1. Desde la Minitab Solution Center página principal, selecciona Preparación de datos.
  2. Seleccione Agregar datos.
  3. Inicia sesión en tu repositorio.
  4. Abrir los datos de fraude en seguros.

    Datos de Fraude de Seguros

Cuando abres un conjunto de datos, se crea automáticamente una nueva canalización con los nodos por defecto.

Origen de datosLimpiezaSalida

Entiende las vistas del Centro de Datos

Tiene Data Center dos puntos de vista principales:
Limpieza vista
Utiliza la Limpieza vista para:
  • Cambiar los tipos de datos
  • Filtrar filas
  • Reemplazar valores
  • Ordenar datos
  • Estandarizar categorías
Origen de datos vista
Si necesitas cambiar el esquema del conjunto de datos o cualquier configuración que afecte a todo el conjunto de datos, selecciona el icono del archivo fuente de datos para abrir el Opciones panel.

Para más información, visita Gestionar el esquema del conjunto de datos o Establecer opciones de fuente de datos.

Utiliza la Origen de datos vista para:
  • Ajustar la configuración a nivel de conjunto de datos
  • Modificar el esquema (nombres y tipos de columnas)
  • Configurar opciones de importación de archivos

Cuándo usar cada vista:

  • Úsalo Limpieza para arreglar datos.
  • Usa Origen de datos la vista para corregir la estructura del conjunto de datos.

Prepara el conjunto de datos

El equipo de cumplimiento quiere mejorar la precisión en la detección de fraudes. Antes de comenzar el análisis, el conjunto de datos debe ser validado y estandarizado. Siga estos pasos para preparar insurance_fraud_data.csv para un análisis posterior.
  1. Abrir datos de fraude de seguros en el Minitab Data Center archivo .
  2. Asegúrate de estar en la Limpieza vista.
  3. Seleccione la columna y abra el Opciones de preparación de datos menú desplegable para acceder a las opciones de limpieza de columnas.

1. Estandarizar identificadores

Asegúrate de que los identificadores de reclamaciones se traten como texto y estén claramente formateados.
  • Cambiar claim_number tipo de dato de numérico a texto.

  • Adelanta el símbolo # a todos los números de reclamación.

Por qué es importante: Previene la interpretación numérica y mantiene la consistencia del formato.

2. Eliminar valores inválidos o poco realistas

Valores atípicos y provisionales limpios que podrían afectar al análisis.
  • El filtro age_of_driver incluir solo valores ≤ 100.
  • El filtro annual_income incluir solo valores mayores que 1.

Por qué es importante: Elimina edades poco realistas y entradas de ingresos inválidas que podrían distorsionar los resultados.

3. Estandarizar valores categóricos

Asegura etiquetas coherentes y legibles en todo el conjunto de datos.
  • En cuanto al género, reemplazar:
    • Hombre → masculino
    • F → femenina
  • Cambiar address_change tipo de dato de numérico a texto.
  • En address_change, sustituye:
    • 1 → sí
    • 0 → no

Por qué es importante: Las categorías estandarizadas mejoran la legibilidad, la agrupación y la elaboración de informes.

4. Tipos de datos correctos

Algunos campos numéricos representan identificadores en lugar de cantidades.
  • Cambia zip_code tipo de dato de numérico a texto.

Por qué es importante: Conserva los ceros iniciales y evita operaciones numéricas no intencionadas.

5. Organizar el conjunto de datos

Prepara el conjunto de datos para su análisis ordenando las variables clave. Úsase Orden avanzado para ordenar por:
  • fraud reported
  • injury_claim
  • zip_code

Por qué es importante: La clasificación ayuda a priorizar y revisar de forma eficiente los registros relacionados con fraudes.

Fusión o remodelación de conjuntos de datos

Además de limpiar y estandarizar los datos, puede que necesites combinar o reorganizar conjuntos de datos antes del análisis.

Las siguientes operaciones ayudan a preparar datos para la elaboración de informes, análisis estadístico o creación de paneles.
Unir
Combina conjuntos de datos relacionados emparejando filas usando uno o más campos clave. Esto añade columnas y hace que el conjunto de datos sea más amplio.

Para más información, visita Unirse a conjuntos de datos.

Unión
Apila conjuntos de datos con la misma estructura en un solo conjunto de datos. Esto añade filas y alarga el conjunto de datos.

Para más información, visita los conjuntos de datos de Union.

Transponer
Cambia filas y columnas. Esto es útil cuando los datos están organizados en un formato que no es ideal para el análisis.

Para más información, visita Transpose datasets.

Utilice Minitab AI para limpiar sus datos

Proporciona Minitab Data Center una interfaz conversacional que guía la preparación de tus datos en la Limpieza vista.

Para el ejemplo anterior, puede ingresar el siguiente texto en el Minitab AI mensaje para obtener los mismos resultados que los pasos individuales.

Haga números de reclamo para enviar mensajes de texto. Agregue el símbolo numérico para reclamar números. Retire los controladores que tengan más de cien años. Cambia m a macho y f a hembra. Eliminar a los conductores que no tienen ingresos válidos. Cambiar address_change a texto. Realice 1 a sí y 0 a no para cambios de dirección. Ordene por fraude, reclamo por lesiones y código postal.

Para más información sobre cómo usar Minitab AI en el Data Center, visita Usar Minitab AI para limpiar tus datos.

Reutiliza los pasos de preparación de tus datos

Después de aplicar todos los pasos de preparación, guarda los pasos para futuros conjuntos de datos con las mismas columnas.
Pasos de preparación de datos de exportación
Para guardar los pasos, expórtelos como un archivo .mdcs.
  1. En el panel Pasos de la izquierda, seleccione Exportar pasos en el menú desplegable.
  2. El archivo se guarda en la carpeta de descargas u otra ubicación de guardado y utiliza el mismo nombre que el archivo de datos. Cambie el nombre en consecuencia.
Pasos de preparación de datos de importación
Para aplicar los pasos a un nuevo archivo de datos, impórtelos como un archivo .mdcs.
Seleccione Importar pasos en el menú desplegable del Pasos panel.

Explorar los resúmenes de datos

Cada columna tiene un resumen gráfico que muestra la forma y el alcance de los datos y un icono que representa el tipo de dato.

Por ejemplo, el canal tiene 3 niveles y los días abiertos muestran una distribución bimodal.

Abre el Resumen de datos espacio para obtener más información sobre las estadísticas resumen en estas columnas.

El resumen de datos para el channel muestra la frecuencia para cada uno de los 3 niveles.

Utiliza el menú de clic derecho para editar la etiqueta de agrupación, excluir el grupo del conjunto de datos o mostrar solo las filas que contienen este valor.

Próximo paso

Debido a que los datos de days open indican dos distribuciones, la compañía de seguros quiere analizar esto más a fondo. Vaya a Analice sus datos.