ベストモデルの検出(2値応答) の概要

注

このコマンドは、で使用できます。モジュールをアクティブにする方法については、ここをクリックしてください。

通常、特定のデータセットに最適な予測を行うモデルの種類を判断する最も簡単な方法は、すべてのモデルを構築し、パフォーマンスを比較することです。ベストモデルの検出(2値応答) 4 種類のモデルのパフォーマンスを比較するために使用します。2値ロジスティックモデルの当てはめ、適合モデルTreeNet^® 分類、 Random Forests^® 分類および CART^® 分類を指定します。4つの分析はすべて、多くのカテゴリ変数と連続予測変数を持つバイナリ応答をモデル化します。たとえば、ある市場調査員は、を使用して、特定の戦略に対する反応率が高い顧客を特定し、その反応率を予測します。研究者は、さまざまなタイプのモデルのパフォーマンスを比較して、最も正確な予測を得る方法を決定します。

4 つのモデルタイプの中には、2 項ロジスティック回帰モデルとツリーベースモデルの 2 種類のモデルがあります。2値ロジスティック回帰モデルを持つ例他の 3 つのコマンドは、ツリーベースのモデルを作成します。2つの一般的なタイプのモデルフィッティングメソッドは非常に異なっていますが、互いに補完します。二項ロジスティック回帰モデルでは、二項応答の事象確率が予測変数のパラメトリック関数であると仮定します。モデルは、データセットのパラメーターを推定するために、最尤基準を使用します。パラメトリック関数が、応答の事象確率とその予測変数との関係を適切に表している場合、モデルは事象確率を適切に推定できます。そして、式は新しい観測値の応答レベルを正しく予測する大きなチャンスを得ます。二項ロジスティック回帰モデルは、予測変数の最適な設定を簡単に識別できるようにします。また、適合値と標準誤差は、予測される事象確率の信頼区間の推定など、統計的推論に役立ちます。

バイナリロジスティック回帰モデルがデータセットにうまく適合しない場合や、データの特性が原因で、二項ロジスティック回帰モデルの構築が妨げる場合があります。次に、二項ロジスティック回帰モデルの適合が不十分な場合に一般的なケースを示します。

二項応答の事象確率と予測変数の関係は、パラメトリック関数に従わない。
特定のデータセットでは、最尤推定アルゴリズムが一意のパラメータ推定値に収束しません。
予測変数の数が多い場合、事象確率式のパラメータを推定するのに十分な観測値がデータにありません。
予測変数はランダム変数です。
予測変数には多数の欠損値が含まれています。

このような場合、ツリーベースのモデルは、考慮すべき代替モデルとして適しています。

TREE ベースのモデルの中で、CART は 1 つのデシジョンツリーを使用します。1 つのデシジョンツリーは、最初の親ノードとしてデータセット全体から開始します。次に、ツリーはノード分割基準を使用して、データをさらに 2 つの同種の子ノードに分割します。この手順は、すべての分割解除ノードがターミナルノードとなる基準を満たすまで繰り返します。その後、別のテストセットを使用してクロス検証または検証を使用してツリーをトリムし、CARTモデルである最適なツリーを取得します。単一のデシジョンツリーは理解しやすく、さまざまな特性を持つデータセットに適合できます。

単一のデシジョンツリーは、他の 2 つのツリーベースのメソッドよりも堅牢性が低く、強力ではありません。たとえば、データセット内の予測値の小さな変更は、CART モデルが非常に異なる可能性があります。TreeNet^® とランダムフォレスト^® メソッドでは、個々のツリーのセットを使用して、単一のデシジョンツリーのモデルよりも堅牢で正確なモデルを作成します。

各モデルタイプの詳細については、次のリンクを使用してください。