Curva ROC (receiver operating characteristic) para Ajustar modelo logístico binário e Régression logistique binaire

A curva ROC traça a taxa de positivos verdadeiros (TPR), também conhecida como poder, no eixo y. A curva ROC traça a taxa de falsos positivos (FPR), também conhecida como erro tipo 1, no eixo x. A área sob uma curva ROC indica se o modelo binário é um bom classificador.

Interpretação

A área sob os valores da curva ROC variam de 0,5 a 1. Quando o modelo binário consegue separar perfeitamente as classes, a área abaixo da curva é 1. Quando o modelo binário não pode separar as classes melhor do que uma atribuição aleatória, então a área sob a curva é de 0,5.

Quando não é usado nenhum conjunto de teste separado, o Minitab cria a curva ROC com o conjunto de dados.

Neste exemplo, a área sob a curva de teste é de 0,9405.

Com um método de validação, o Minitab cria duas curvas ROC. Uma curva é para os dados de treinamento e a outra é para os dados de teste. Os resultados da validação indicam se o modelo consegue predizer adequadamente os valores de resposta para novas observações, ou sumarizar adequadamente as relações entre a resposta e as variáveis preditoras. Os resultados de treinamento geralmente são mais ideais do que os reais e servem apenas como referência.

Uma área com K dobras abaixo da curva ROC que é substancialmente menor do que a área a curva ROC pode indicar que o modelo está em superajustado. Um modelo sobreajustado ocorre quando você inclui termos que não são importantes na população. O modelo se adapta aos dados de treinamento e, portanto, pode não ser útil para fazer predições sobre a população.

Neste exemplo, a curva de treinamento mostra um ajuste melhor do que a curva de teste. Normalmente, o desempenho da curva de teste é uma representação melhor do desempenho do modelo para novos dados. A área sob a curva de teste é de 0,8882.