Ejemplo de preparación de datos

Utilice las herramientas de preparación de datos para organizar y preparar sus datos para análisis más sólidos.

Pasos de preparación de datos

En este ejemplo, a un equipo de cumplimiento le preocupa la precisión de la detección de fraudes en el sector de la automoción; Sin embargo, los datos deben prepararse antes de que pueda comenzar el análisis. Siga estos pasos para preparar insurance_fraud_data.csv para un análisis posterior. Para realizar estas modificaciones, seleccione la columna y ábrala Opciones de preparación de datos para acceder a las opciones de limpieza de columnas.
  1. Ábralo Datos sobre fraudes de seguros en el Minitab Data Center.
  2. Por claim_number, cambie el tipo de datos de numérico a texto.
  3. Por claim_number, anteponga # a los valores de columna.
  4. Por age_of_driver, filtre para incluir solo los controladores que tengan menos de 100 años de antigüedad o sean iguales.
  5. En género, cambia M a masculino y F a femenino.
  6. Por annual_income, filtre para incluir solo los controladores que hagan más de 1.
  7. Por address_change, cambie el tipo de datos de numérico a texto.
  8. En address_change, cambie 1 por y 0 por no.
  9. En Código postal, cambie el tipo de datos de numérico a texto.
  10. Úselo Ordenación avanzada para ordenar por fraude, reclamo por lesiones y código postal.

Pasos de preparación de datos de exportación

Después de aplicar todos los pasos de preparación, guarde los pasos para usarlos en futuros conjuntos de datos con las mismas columnas. Para guardar los pasos, expórtelos como un archivo .mdcs.
  1. En el panel Pasos, seleccione Pasos de exportación en el menú desplegable.
  2. El archivo se guarda en la carpeta de descargas u otra ubicación de guardado y utiliza el mismo nombre que el archivo de datos. Cambie el nombre en consecuencia.

Pasos de preparación de datos de importación

Para aplicar los pasos a un nuevo archivo de datos, impórtelos como un archivo .mdcs. Seleccione Pasos de importación en el menú desplegable del Pasos panel.

Explorar los resúmenes de datos

Cada columna tiene un resumen que muestra la forma de los datos, el rango de los datos y un icono que representa el tipo de datos.

Un vistazo rápido a los resúmenes gráficos de la columna muestra que el channel tiene 3 niveles y days open muestran una distribución bimodal.

Abra el Resumen de datos para obtener más información sobre las estadísticas de resumen de estas columnas.

El resumen de datos para el channel muestra la frecuencia para cada uno de los 3 niveles.

Próximo paso

Debido a que los datos de days open indican dos distribuciones, la compañía de seguros quiere analizar esto más a fondo. Vaya a Ejemplo de análisis de datos.