Prepare sus datos

Utilice las herramientas de preparación de datos para organizar y preparar sus datos para análisis más sólidos.

Abra su fuente de datos

Desde la Minitab Solution Center página de inicio, puede acceder al Minitab Data Centerarchivo .
  1. En la página principal del Solution Center, seleccione Preparación de datos.
  2. Seleccione Agregar datos. Inicie sesión en un repositorio en línea. También puede agregar un archivo de datos local.
  3. Busque la ubicación del archivo y, a continuación, seleccione Abrir.
Un diagrama esquemático representa los pasos del procesamiento de datos.
Limpieza vista
Puede comenzar a limpiar sus datos cuando esté en la Limpieza vista.
Origen de datos vista
Si necesita cambiar el esquema del conjunto de datos o cualquier configuración que afecte a todo el conjunto de datos, seleccione el icono del archivo de origen de datos para abrir el Opciones panel.

Para obtener más información, vaya a Editar el esquema del conjunto de datos o Establecer opciones de origen de datos.

Pasos de preparación de datos

En este ejemplo, a un equipo de cumplimiento le preocupa la precisión de la detección de fraudes en el sector de la automoción; Sin embargo, los datos deben prepararse antes de que pueda comenzar el análisis. Siga estos pasos para preparar insurance_fraud_data.csv para un análisis posterior.
  1. Abrir datos de fraude de seguros en el Minitab Data Center archivo .
  2. Asegúrate de estar en la Limpieza vista.
  3. Seleccione la columna y abra el Opciones de preparación de datos menú desplegable para acceder a las opciones de limpieza de columnas.
  4. Por claim_number, cambie el tipo de datos de numérico a texto.
  5. Por claim_number, anteponga # a los valores de columna.
  6. Por age_of_driver, filtre para incluir solo los controladores que tengan menos de 100 años de antigüedad o sean iguales.
  7. En género, cambia M a masculino y F a femenino.
  8. Por annual_income, filtre para incluir solo los controladores que hagan más de 1.
  9. Por address_change, cambie el tipo de datos de numérico a texto.
  10. En address_change, cambie 1 por y 0 por no.
  11. En Código postal, cambie el tipo de datos de numérico a texto.
  12. Úselo Orden avanzado para ordenar por fraude, reclamo por lesiones y código postal.

Utilice Minitab AI para limpiar sus datos

Proporciona Minitab Data Center una interfaz conversacional que guía la preparación de los datos, mientras se encuentra en la Limpieza vista. Para el ejemplo anterior, puede ingresar el siguiente texto en el Minitab AI mensaje para obtener los mismos resultados que los pasos individuales.

Haga números de reclamo para enviar mensajes de texto. Agregue el símbolo numérico para reclamar números. Retire los controladores que tengan más de cien años. Cambia m a macho y f a hembra. Eliminar a los conductores que no tienen ingresos válidos. Cambiar address_change a texto. Realice 1 a sí y 0 a no para cambios de dirección. Ordene por fraude, reclamo por lesiones y código postal.

Para obtener más información sobre cómo usarlo Minitab AI en el Data Center, vaya a Uso de Minitab AI para limpiar sus datos.

Pasos de preparación de datos de exportación

Después de aplicar todos los pasos de preparación, guarde los pasos para usarlos en futuros conjuntos de datos con las mismas columnas. Para guardar los pasos, expórtelos como un archivo .mdcs.
  1. En el panel Pasos de la izquierda, seleccione Exportar pasos en el menú desplegable.
  2. El archivo se guarda en la carpeta de descargas u otra ubicación de guardado y utiliza el mismo nombre que el archivo de datos. Cambie el nombre en consecuencia.

Pasos de preparación de datos de importación

Para aplicar los pasos a un nuevo archivo de datos, impórtelos como un archivo .mdcs. Seleccione Importar pasos en el menú desplegable del Pasos panel.

Explorar los resúmenes de datos

Cada columna tiene un resumen que muestra la forma de los datos, el rango de los datos y un icono que representa el tipo de datos.

Un vistazo rápido a los resúmenes gráficos de la columna muestra que el channel tiene 3 niveles y days open muestran una distribución bimodal.

Abra el Resumen de datos para obtener más información sobre las estadísticas de resumen de estas columnas.

El resumen de datos para el channel muestra la frecuencia para cada uno de los 3 niveles.

Utilice el menú contextual para editar la etiqueta de agrupación, excluir el grupo del conjunto de datos o mostrar solo las filas que contienen este valor.

Próximo paso

Debido a que los datos de days open indican dos distribuciones, la compañía de seguros quiere analizar esto más a fondo. Vaya a Analice sus datos.