CART® 分類の代替木を選択する

統計 > 予測分析 > CART® 分類を実行します。誤分類コスト対ターミナルノード数のプロット代替木を選択ボタンをクリック します。

概要

デフォルトでは、Minitab統計ソフトウェアは、最小誤分類コストの1標準誤差内の誤分類コストを有する最小の木の出力を生成します。Minitabでは、最適な木の特定につながった一連の結果から他の木を探すことができます。通常、代替木は、次の2つのいずれかの理由により選択されます。
  • 最適な木は、誤分類コストが減少しているパターンの一部にあります。さらにいくつかのノードを有する1本以上の木が、同じパターンの一部にあります。通常、できるだけ予測の正確性が高い木から予測を行う必要があります。木が単純な場合、各予測変数が応答値にどのように影響するかを理解するために使用することもできます。
  • 最適な木は、誤分類コストが比較的平坦なパターンの一部にあります。モデルの要約統計量が類似している1本以上の木で、最適な木よりもノード数が非常に少なくなります。通常、ターミナルノードがより少ない木で、各予測変数が応答値にどのように影響するかを明確に把握できます。より小さい木を使用すると、さらに調査を行うために、対象となるいくつかのグループを簡単に特定することもできます。より小さい木の予測の正確性の差がごくわずかである場合は、小さい木を使用して応答と予測変数の関係を評価することもできます。
たとえば、次のプロットでは、4つのノードをもつ木が最適な木です。次の2本の大きな木は、誤分類コストが減少しているパターンの一部にあります。
7つのノードの木の誤分類コストは、4つのノードの木のコストよりも低くなります。7つのノードの木は複雑さにおいて類似しているため、さらに予測の正確性が高いより大きな木を使用して、重要な変数を調べたり、予測を行うことができます。
代替ツリーの基準値に加えて、ツリーの複雑さとさまざまなノードの有用性を比較することもできます。アナリストが他のツリーと比較してもパフォーマンスを犠牲にしない特定のツリーを選択する理由の次の例を考えてみましょう。
  • アナリストは、最も重要な変数の明確なビューを提供する小さなツリーを選択します。
  • 分割は別のツリーの変数よりも測定しやすい変数に基づいて行うため、解析ではツリーが選択されます。
  • 特定のターミナル ノードが対象であるため、アナリストはツリーを選択します。

分析を実行する

出力の代替木を選択をクリックします。ダイアログ ボックスが開き、プロット、ツリー図、およびツリーまたは選択したノードを要約したテーブルが表示されます。

代替木を選択

このダイアログボックスでは、代替の木を選択する3つの方法が提供されます。
  • グラフ上の点をクリックします。
  • モデルの下にある矢印ボタンをクリックして、現在の選択よりも1本大きい木または小さい木を選択します。
  • ボタンをクリックして、一般的な選択の木を選択します。分析で検証が使用されない場合、標準誤差を参照するボタンは適用されません。
    最小コスト
    誤分類コストが最小の木を選択します
    1-SE最小コスト
    最小コストの1標準誤差内の誤分類コストを有する最小の木を選択します。
    2-SE最小コスト
    最小コストの2標準誤差内の誤分類コストを有する最小の木を選択します。
    最善ROC
    ROC曲線下の面積が最大の木を選択します。

ツリーと個々のノードを調査する

このツリーには、ツールバーに次の操作が含まれています。
  • 最も純度の高い 5 つのノードをハイライトします。これらのノードは最適なノードです。
  • 詳細な木ノード分割の木を切り替えます。ノード分割の木は、大きな木で、どの変数がノードを分岐するかのみを確認する必要がある場合に有用です。
  • ツリーを拡大/縮小します。

ツリー上の個々のノードを選択すると、テーブル内のノードに関する詳細を表示できます。詳細には、個々のクラスの数と合計数が含まれます。詳細には、ノードに到達するルールも含まれます。別 クリップボードにルールをコピー の場所にルールを貼り付けることができるようにクリックします。

ツリー全体を再選択するには、図表内の個々のノード以外の場所をクリックします。

新しい木を作成する

木を作成をクリックして、選択した代替の木の結果を生成および保存できます。結果と保存の選択は、元の木と同じです。代替の木のグラフと表は、新しい出力タブに表示されます。保存された列は、元のデータを含むワークシート内にあります。