ベストモデルの検出(連続応答) の概要

このコマンドは、で使用できます予測分析モジュールモジュールをアクティブにする方法については、ここをクリックしてください

通常、特定のデータセットに最適な予測を行うモデルの種類を判断する最も簡単な方法は、すべてのモデルを構築し、パフォーマンスを比較することです。ベストモデルの検出(連続応答) 4 種類のモデルのパフォーマンスを比較するために使用します。回帰モデルの適合CART® 回帰適合モデルTreeNet® 回帰、および Random Forests® 回帰、 を行います。を使用して多数のカテゴリまたは連続予測変数の連続応答の決定木を作成します。たとえば、不動産鑑定士は、都会のアパートの販売価格が、面積、使用できるユニット数、築年数、都心からの距離などの、いくつかの予測変数とどのような関係があるかを確認しようとしています。検査者は、さまざまなタイプのモデルのパフォーマンスを比較して、最も正確な予測を得る方法を決定します。

4 つのモデル タイプの中には、重回帰モデルとツリーベースのモデルという 2 つの一般的なモデルがあります。回帰モデルの適合 複数の回帰モデルを作成します。他の 3 つのコマンドは、ツリーベースのモデルを作成します。2つの一般的なタイプのモデルフィッティングメソッドは非常に異なっていますが、互いに補完します。回帰モデルは、平均応答が予測変数のパラメトリック関数であると仮定します。モデルでは、最小二乗基準を使用して、データセットのパラメータを推定します。パラメトリック回帰モデルが応答と予測変数の関係に適合する場合、モデルは新しい観測値を使用して応答値を正確に予測します。例えば、物理学におけるフックの法則は、スプリングを延長する力は延長距離と線形関係を持つため、回帰モデルは関係に非常によく適合すると言います。重回帰モデルは、予測変数の最適な設定を簡単に識別します。また、適合値と標準誤差は、予測された応答値の信頼区間の推定など、統計的推論に役立ちます。

場合によっては、重回帰モデルがデータセットにうまく適合しないか、データの特性が重回帰モデルの構築を妨げる場合があります。重回帰モデルの適合値が低い場合は、次のような一般的なケースです。
  1. 応答と予測変数の関係は、重回帰モデルが適合できるモデルに従っていません。
  2. データには、適切に適合する重回帰モデルを見つけるのに十分なパラメータを推定するのに十分な観測値がありません。
  3. 予測変数はランダム変数です。
  4. 予測変数には多数の欠損値が含まれています。

このような場合、ツリーベースのモデルは、考慮すべき代替モデルとして適しています。

TREE ベースのモデルの中で、CART は 1 つのデシジョン ツリーを使用します。1 つのデシジョン ツリーは、最初の親ノードとしてデータセット全体から開始します。次に、ツリーはノード分割基準を使用して、データをさらに 2 つの同種の子ノードに分割します。この手順は、すべての分割解除ノードがターミナル ノードとなる基準を満たすまで繰り返します。その後、別のテストセットを使用してクロス検証または検証を使用してツリーをトリムし、CARTモデルである最適なツリーを取得します。単一のデシジョン ツリーは理解しやすく、さまざまな特性を持つデータセットに適合できます。

単一のデシジョン ツリーは、他の 2 つのツリー ベースのメソッドよりも堅牢性が低く、強力ではありません。たとえば、データセット内の予測値の小さな変更は、CART モデルが非常に異なる可能性があります。TreeNet® とランダム フォレスト® メソッドでは、個々のツリーのセットを使用して、単一のデシジョン ツリーのモデルよりも堅牢で正確なモデルを作成します。

各モデル タイプの詳細については、次のリンクを使用してください。

この分析の場所

連続応答を予測するのに最適なモデルを見つけるには、 予測分析モジュール > 自動機械と学習 > ベストモデルの検出(連続応答) を選択します。

代替の分析を使用する場合

2値応答変数が1つある場合は、を使用します。

本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください