ベストモデルの検出(2値応答) の概要

通常、特定のデータセットに最適な予測を行うモデルの種類を判断する最も簡単な方法は、すべてのモデルを構築し、パフォーマンスを比較することです。ベストモデルの検出(2値応答) 4 種類のモデルのパフォーマンスを比較するために使用します。2値ロジスティックモデルの当てはめ適合モデルTreeNet® 分類Random Forests® 分類 および CART® 分類を指定します。4つの分析はすべて、多くのカテゴリ変数と連続予測変数を持つバイナリ応答をモデル化します。たとえば、ある市場調査員は、を使用して、特定の戦略に対する反応率が高い顧客を特定し、その反応率を予測します。研究者は、さまざまなタイプのモデルのパフォーマンスを比較して、最も正確な予測を得る方法を決定します。

4 つのモデル タイプの中には、2 項ロジスティック回帰モデルとツリーベースモデルの 2 種類のモデルがあります。2値ロジスティック回帰モデルを持つ例他の 3 つのコマンドは、ツリーベースのモデルを作成します。2つの一般的なタイプのモデルフィッティングメソッドは非常に異なっていますが、互いに補完します。二項ロジスティック回帰モデルでは、二項応答の事象確率が予測変数のパラメトリック関数であると仮定します。モデルは、データ セットのパラメーターを推定するために、最尤基準を使用します。パラメトリック関数が、応答の事象確率とその予測変数との関係を適切に表している場合、モデルは事象確率を適切に推定できます。そして、式は新しい観測値の応答レベルを正しく予測する大きなチャンスを得ます。二項ロジスティック回帰モデルは、予測変数の最適な設定を簡単に識別できるようにします。また、適合値と標準誤差は、予測される事象確率の信頼区間の推定など、統計的推論に役立ちます。

バイナリロジスティック回帰モデルがデータセットにうまく適合しない場合や、データの特性が原因で、二項ロジスティック回帰モデルの構築が妨げる場合があります。次に、二項ロジスティック回帰モデルの適合が不十分な場合に一般的なケースを示します。
  1. 二項応答の事象確率と予測変数の関係は、パラメトリック関数に従わない。
  2. 特定のデータセットでは、最尤推定アルゴリズムが一意のパラメータ推定値に収束しません。
  3. 予測変数の数が多い場合、事象確率式のパラメータを推定するのに十分な観測値がデータにありません。
  4. 予測変数はランダム変数です。
  5. 予測変数には多数の欠損値が含まれています。

このような場合、ツリーベースのモデルは、考慮すべき代替モデルとして適しています。

TREE ベースのモデルの中で、CART は 1 つのデシジョン ツリーを使用します。1 つのデシジョン ツリーは、最初の親ノードとしてデータセット全体から開始します。次に、ツリーはノード分割基準を使用して、データをさらに 2 つの同種の子ノードに分割します。この手順は、すべての分割解除ノードがターミナル ノードとなる基準を満たすまで繰り返します。その後、別のテストセットを使用してクロス検証または検証を使用してツリーをトリムし、CARTモデルである最適なツリーを取得します。単一のデシジョン ツリーは理解しやすく、さまざまな特性を持つデータセットに適合できます。

単一のデシジョン ツリーは、他の 2 つのツリー ベースのメソッドよりも堅牢性が低く、強力ではありません。たとえば、データセット内の予測値の小さな変更は、CART モデルが非常に異なる可能性があります。TreeNet® とランダム フォレスト® メソッドでは、個々のツリーのセットを使用して、単一のデシジョン ツリーのモデルよりも堅牢で正確なモデルを作成します。

各モデル タイプの詳細については、次のリンクを使用してください。