予測分析のモデルは、製造品質管理、創薬、不正検出、クレジットスコアリング、解約予測など、幅広いアプリケーションの洞察を提供します。この結果を使用して、重要な変数を識別し、望ましい特性をもつデータ内のグループを識別し、新しい観測値の応答値を予測します。たとえば、市場調査員は予測分析モデルを使用して、特定のイニシアチブに対する応答率が高い顧客を特定し、それらの応答率を予測できます。
2つ以上のカテゴリを持つカテゴリ応答変数がある場合は、モデルを1つずつ作成します。
線形回帰モデルでは、平均応答が予測変数のパラメトリック関数であると仮定します。このモデルでは、最小二乗基準を使用してデータセットのパラメータを推定します。パラメトリック回帰モデルが応答とその予測変数の関係に適合する場合、モデルは新しい観測値を含む応答値を正確に予測します。たとえば、物理学におけるフックの法則によると、ばねを伸ばす力は伸びの距離と線形の関係にあるため、回帰モデルはその関係に非常によく適合します。
線形回帰モデルを使用すると、予測子の最適な設定を簡単に特定できます。また、有効適合は、適合パラメータと標準誤差が、予測応答値の信頼区間の推定などの統計的推論に役立つことも意味します。
このような場合、ツリーベースのモデルは検討に適した代替モデルです。
予測分析モジュールでは、Minitab統計ソフトウェアは、最良モデルの検出コマンドを使用して、線形回帰モデルを連続応答変数と2値応答変数に適合させます。Minitab Statistical Softwareの他の線形回帰モデルのリストについては、「 Minitabに含まれている回帰分析と相関分析」を参照してください。
CART®、TreeNet®、Random Forests® は、3つのツリーベースのメソッドです。ツリーベースのモデルの中で、CART® は単一の決定木を使用するため、CART® が最も理解しやすいです。1 つのデシジョン ツリーは、データ セット全体から最初の親ノードとして開始されます。次に、ツリーは、ノード分割基準を使用して、データをさらに 2 つの同種の子ノードに分割します。この手順は、分割されていないすべてのノードがターミナル ノードになるための基準を満たすまで繰り返し繰り返されます。その後、クロス検証または別のテストセットを使用した検証を使用してツリーをトリミングし、CART® モデルである最適なツリーを取得します。単一の決定木は理解しやすく、さまざまな特性を持つデータセットに適合できます。
単一の決定木は、他の2つのツリーベースの方法よりも堅牢性が低く、強力でない場合があります。たとえば、データセット内の予測変数値のわずかな変更により、CART® モデルが大きく異なる可能性があります。TreeNet® メソッドとRandom Forests® メソッドでは、個々のツリーのセットを使用して、単一のデシジョン ツリーのモデルよりも堅牢で正確なモデルを作成します。