Este comando está disponible con el Módulo de análisis predictivo. Haga doble clic aquí para obtener información sobre cómo activar el módulo.
Los modelos TreeNet® son un enfoque para resolver problemas de clasificación y regresión que son más precisos y resistentes al sobreajuste que una clasificación individual o un árbol de regresión. La descripción amplia y general del proceso sería que comenzamos con un árbol de regresión pequeño como modelo inicial. De ese árbol provienen los residuos para cada fila de los datos que se convierten en la variable de respuesta para el siguiente árbol de regresión. A continuación, construimos otro árbol de regresión pequeño para predecir los residuos del primer árbol y se calculan los residuos resultantes nuevamente. Repetimos esta secuencia hasta que se identifica un número óptimo de árboles con un mínimo error de predicción utilizando un método de validación. La secuencia resultante de árboles conforma el modelo de clasificación TreeNet®.
Para el caso de la clasificación, podemos agregar algunos detalles matemáticos adicionales para un análisis con una respuesta binaria y para un análisis con una respuesta multinomial.
Donde es el número de eventos y es el número de no eventos.
Entrada | Símbolo |
---|---|
tasa de aprendizaje | |
tasa de muestreo | |
número máximo de nodos terminales por árbol | |
número de árboles |
y es un vector que representa la iésima fila de los valores predictores en los datos de entrenamiento.
Término | Description |
---|---|
número de eventos en el nodo m del árbol j | |
número de casos en el nodo terminal m del árbol j | |
media aritmética de para todos los casos en el nodo terminal m del árbol j |
donde es el número de casos donde el valor de respuesta es k y N es el número de filas de los datos de entrenamiento.
Entrada | Símbolo |
---|---|
tasa de aprendizaje | |
tasa de muestreo | |
número máximo de nodos terminales por árbol | |
número de árboles |
El cálculo de las probabilidades a partir de los ajustes explica la naturaleza dependiente de estos árboles. De lo contrario, el proceso es sustancialmente el mismo que para el caso binario.
donde
y es un vector que representa la iésima fila de los valores predictores en el conjunto de datos de entrenamiento.
donde
Término | Description |
---|---|
número de casos para el resultado k en el nodo terminal m del árbol j | |
número de casos en el nodo terminal m del árbol j | |
media aritmética de para todos los casos en el nodo terminal m del árbol j. |