Creación de pipelines de datos

En , Minitab Data Centerpuedes crear una cadena de datos para limpiar y transformar datos de una o más fuentes en un conjunto de datos listo para usar.

¿Qué es una canalización de datos?

Una cadena de datos es una secuencia de pasos que recogen, transforman y preparan los datos para que estén listos para su análisis o reporte. Las canalizaciones de datos ayudan a garantizar que:
  • Los datos siguen siendo consistentes y fiables
  • Las actualizaciones se realizan bajo demanda
  • Los equipos utilizan el mismo conjunto de datos de confianza
  • Los errores se identifican antes de que se utilicen los datos

La tubería de datos aparece como un diagrama visual interactivo que permite añadir, eliminar y modificar nodos mientras se reciben mensajes de estado y error de procesamiento en tiempo real.

Por ejemplo, puedes crear una canalización que extrae datos de un archivo CSV y una hoja de cálculo de Minitab, limpia y combina los datos, y luego genera un único conjunto de datos para usar en tu panel de control.
Nota

Cada tubería soporta hasta 60 nodos de procesamiento, más un nodo de salida (61 nodos en total). Puedes tener hasta diez nodos fuente de datos.

Vistas de la tubería

Cada Data Center proyecto contiene un diagrama interactivo de tubería que representa los pasos de procesamiento de datos.
Limpieza vista
Utiliza la Limpieza vista para limpiar y preparar tus datos
Origen de datos vista
Utiliza la Origen de datos vista para modificar el esquema del conjunto de datos o cualquier configuración que afecte a todo el conjunto de datos.

Para obtener más información, vaya a Gestionar el esquema del conjunto de datos o Establecer opciones de origen de datos.

Ajustar la pantalla de la tubería

Usa los Acercarbotones , Alejar, o Ajustar vista en el lienzo de la tubería para ajustar tu vista.
También puedes seleccionar Auto Layout desde la barra de herramientas para optimizar la vista de la canalización.
Nota

Puedes arrastrar y reposicionar nodos para una organización visual óptima.

Nodos disponibles

La mayoría de las tuberías incluyen los siguientes tipos de nodos:
  • Origen de datos
  • Limpieza
  • Combinar
  • Remodelación
  • Salida

Nodos fuente de datos

Un nodo fuente de datos conecta tu pipeline con un conjunto de datos. Cada pipeline soporta un máximo de diez nodos fuente de datos.
Para añadir un nodo fuente de datos, selecciona Agregar datos desde la barra de herramientas.También puedes seleccionar Agregar fuente de datos desde el menú contextual del lienzo.

Para más información sobre nodos fuente de datos, visite . Conceptos básicos de los nodos fuente

Nodos de limpieza

Soluciona problemas de formato, elimina errores y realiza otras operaciones de preparación de datos.
El Centro de Datos soporta múltiples nodos de limpieza en jerarquías flexibles para apoyar todos tus procesos de limpieza de datos.
El primer Limpieza nodo se suma en serie, luego los nodos siguientes están en paralelo de la siguiente manera. Puedes renombrar y mover nodos en cualquier momento a cualquier posición.

Para añadir un nodo de limpieza sin padre, selecciona Agregar limpieza desde el menú contextual del lienzo.

Para más información sobre nodos de limpieza de datos, visite . Conceptos básicos del paso de limpieza

Nodos de fusión de datos

Usa Unir nodos de nuestro Unión para combinar múltiples conjuntos de datos.
Puedes añadir nodos de unión y unión desde un nodo existente o desde la línea de conectores.

Para añadir un nodo de fusión de datos sin padres, selecciona Agregar unión o Añadir Unión desde el menú contextual canvas.

Para más información sobre nodos de fusión de datos, visite Fusión de conjuntos de datos.

Remodelación de nodos

Remodelar conjuntos de datos usando Transponer operaciones.
Puedes añadir nodos transpuestos desde un nodo existente o desde la línea conectora.

Para añadir un nodo de remodelación sin padre, selecciona Añadir Transposición en el menú contextual del lienzo.

Para más información sobre cómo remodelar nodos, visita Conjuntos de datos transpuestos.

Nodos de salida

Indica el nodo terminal de una tubería de datos. Entrega los datos a un destino final, como una herramienta de análisis o un panel de control.

Para establecer un nodo de salida, abre el menú del botón derecho y elige Establecer salida entre un nodo padre. Desde aquí, puedes enviar una copia de los datos limpios a un proyecto Minitab o a un panel de control de Minitab.

También puedes seleccionar Abrir en desde la barra de herramientas enviar una copia de los datos limpios a un proyecto Minitab o al Panel de Minitab.

Para más información sobre cómo exportar los datos o toda la pipeline del Centro de Datos, visite Datos y proyectos de exportación.

Actualizar la tubería

Úsalo Actualizar para reprocesar las transformaciones de datos dentro de la cadena de datos. Solo los nodos de Fuente de Datos pueden actualizarse de forma independiente.

Para actualizar toda la pipeline, selecciona Actualizar desde la barra de herramientas.

Para actualizar una fuente de datos individual, seleccione Actualizar desde el menú contextual del nodo de origen. Si una fuente de datos no está accesible, se te pedirá que te reconectes o busques el archivo.