Métodos para Ajustar modelo y Descubrir predictores clave con Clasificación TreeNet®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga doble clic aquí para obtener información sobre cómo activar el módulo.

Los modelos TreeNet® son un enfoque para resolver problemas de clasificación y regresión que son más precisos y resistentes al sobreajuste que una clasificación individual o un árbol de regresión. La descripción amplia y general del proceso sería que comenzamos con un árbol de regresión pequeño como modelo inicial. De ese árbol provienen los residuos para cada fila de los datos que se convierten en la variable de respuesta para el siguiente árbol de regresión. A continuación, construimos otro árbol de regresión pequeño para predecir los residuos del primer árbol y se calculan los residuos resultantes nuevamente. Repetimos esta secuencia hasta que se identifica un número óptimo de árboles con un mínimo error de predicción utilizando un método de validación. La secuencia resultante de árboles conforma el modelo de clasificación TreeNet®.

Para el caso de la clasificación, podemos agregar algunos detalles matemáticos adicionales para un análisis con una respuesta binaria y para un análisis con una respuesta multinomial.

Respuesta binaria

La creación del modelo utiliza la siguiente información:
  • La variable de respuesta, , toma los siguientes valores: {-1, 1}.
  • Los valores ajustados iniciales para el cálculo de los residuos generalizados tienen la siguiente forma:

Donde es el número de eventos y es el número de no eventos.

La creación del modelo también utiliza las siguientes entradas del analista:
Entrada Símbolo
tasa de aprendizaje
tasa de muestreo
número máximo de nodos terminales por árbol
número de árboles
El proceso tiene los siguientes pasos generales para ampliar el árbol jésimo árbol, j=1,...,J:
  1. Dibuje una muestra aleatoria de tamaño s * N a partir de los datos de entrenamiento, donde N es el número de filas en los datos de entrenamiento.
  2. Calcule los residuos generalizados, gi, j, para :
    donde

    y es un vector que representa la iésima fila de los valores predictores en los datos de entrenamiento.

  3. Ajuste un árbol de regresión con no más de M nodos terminales a los residuos generalizados. El árbol divide las observaciones en no más de M grupos mutuamente excluyentes.
  4. Para cada mésimo nodo terminal del árbol de regresión, calcule las actualizaciones dentro del nodo para los valores ajustados del árbol anterior:
    donde
    TérminoDescription
    número de eventos en el nodo m del árbol j
    número de casos en el nodo terminal m del árbol j
    media aritmética de para todos los casos en el nodo terminal m del árbol j
  5. Reduzca las actualizaciones dentro del nodo según la tasa de aprendizaje y aplique los valores para obtener los valores ajustados actualizados, fj(xi):
  6. Repita los pasos del 1 al 5 para cada uno de los árboles J del análisis.

Respuesta multinomial

Para una respuesta multinomial con K niveles, el análisis ajusta un árbol a cada nivel de la variable de respuesta en cada iteración. Los valores ajustados iniciales para el cálculo de los residuos generalizados para uno de los árboles tienen la siguiente forma:

donde es el número de casos donde el valor de respuesta es k y N es el número de filas de los datos de entrenamiento.

La creación del modelo también utiliza las siguientes entradas del analista:
Entrada Símbolo
tasa de aprendizaje
tasa de muestreo
número máximo de nodos terminales por árbol
número de árboles

El cálculo de las probabilidades a partir de los ajustes explica la naturaleza dependiente de estos árboles. De lo contrario, el proceso es sustancialmente el mismo que para el caso binario.

  1. Dibuje una muestra aleatoria de tamaño s * N a partir de los datos de entrenamiento, donde N es el número de filas del conjunto de datos de entrenamiento.
  2. Calcule los residuos generalizados, gi, j, k para , , el número de árboles del análisis y , el número de niveles de la variable de respuesta:

    donde

    y es un vector que representa la iésima fila de los valores predictores en el conjunto de datos de entrenamiento.

    Por ejemplo, la probabilidad de un resultado codificado como 1 de una respuesta multinomial con 3 niveles tiene la siguiente forma:
    donde es el ajuste la iésima fila del jésimo árbol para el késimo nivel de la variable de respuesta.
  3. Ajuste un árbol de regresión con no más de M nodos terminales a los residuos generalizados. El árbol divide las observaciones en no más de M grupos mutuamente excluyentes.
  4. Para el mésimo nodo terminal del jésimo árbol de regresión, calcule las actualizaciones dentro del nodo para los valores ajustados del árbol anterior de la siguiente manera:

    donde

    TérminoDescription
    número de casos para el resultado k en el nodo terminal m del árbol j
    número de casos en el nodo terminal m del árbol j
    media aritmética de para todos los casos en el nodo terminal m del árbol j.
  5. Reduzca las actualizaciones dentro del nodo según la tasa de aprendizaje y aplique los valores para obtener los valores ajustados actualizados, fj, k, m(xi):
  6. Repita los pasos del 1 al 5 de los árboles J del análisis y para cada uno de los niveles K de la variable de respuesta.