Métodos para Regressão Random Forests®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Um modelo de Random Forests® é uma abordagem para resolver problemas de classificação e regressão. A abordagem é ao mesmo tempo mais precisa e mais robusta para mudanças nas variáveis preditoras do que uma única árvore de classificação ou regressão. Uma descrição ampla e geral do processo é que o Minitab Statistical Software constrói uma única árvore a partir de uma amostra por bootstrap. O Minitab seleciona aleatoriamente um número menor de preditores do número total de preditores para avaliar o melhor divisor em cada nó. O Minitab repete esse processo para cultivar muitas árvores. No caso da regressão, a predição do modelo é a média das predições de todas as árvores individuais.

Para construir uma árvore de regressão, o algoritmo usa o critério dos mínimos quadrados para medir a impureza dos nós. Para obter mais detalhes sobre a construção de uma árvore de regressão, vá para Métodos de divisão de nós em Regressão CART®. Detalhes específicos para Random Forests® a seguir.

Amostras por bootstrap

Para construir cada árvore, o algoritmo seleciona uma amostra aleatória com substituição (amostra por bootstrap) do conjunto de dados completo. Normalmente, cada amostra por bootstrap é diferente e pode conter um número diferente de linhas únicas do conjunto de dados original. Se você usar apenas a validação com dados usando método out-of-bag, então o tamanho padrão da amostra por bootstrap será o tamanho do conjunto de dados original. Se você dividir a amostra em um conjunto de treinamento e um conjunto de teste, então o tamanho padrão da amostra por bootstrap será o mesmo que o tamanho do conjunto de treinamento. Em ambos os casos, você tem a opção de especificar que a amostra por bootstrap é menor do que o tamanho padrão. Em média, uma amostra por bootstrap contém cerca de 2/3 das linhas de dados. As linhas únicas de dados que não estão na amostra por bootstrap são os dados out-of-bag para validação.

Seleção aleatória de preditores

Em cada nó na árvore, o algoritmo seleciona aleatoriamente um subconjunto do número total de preditores, , para avaliar como divisores. Por padrão, o algoritmo escolhe preditores para avaliar em cada nó. Você tem a opção de escolher um número diferente de preditores para avaliar, de 1 a . Se você escolher preditores, então o algoritmo avaliará cada preditor em cada nó, resultando em uma análise com o nome “bootstrap forest”.

Em uma análise que utiliza um subconjunto de preditores em cada nó, os preditores avaliados são geralmente diferentes em cada nó. A avaliação de diferentes preditores torna as árvores na floresta menos correlacionadas umas com as outras. As árvores menos correlacionadas criam um efeito de aprendizagem lento para que as predições melhorem à medida que você constrói mais árvores.

Validação com dados usando método out-of-bag

As linhas únicas de dados que não fazem parte do processo de construção de árvores para uma determinada árvore são os dados out-of-bag. Cálculos para medidas de desempenho do modelo usam os dados out-of-bag. Para obter mais detalhes, vá para Métodos e fórmulas para o sumário do modelo em Regressão Random Forests®.

Para uma determinada árvore na floresta, uma predição para uma linha nos dados out-of-bag é feita a partir da única árvore. A predição para uma linha em dados out-of-bag é a média das predições das árvores individuais.

Predição para uma linha no conjunto de treinamento

Cada árvore na floresta faz uma predição individual para cada linha no conjunto de treinamento. O valor previsto para uma linha no conjunto de treinamento é a média dos valores preditos de todas as árvores da floresta.

Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado.  Leia nossa política