データをトレーニングデータセットとテストデータセットに分割するには、以下のステップを実行します。
- ドロップダウンリストからテストセットによる検証を選択します。
- 行のある割合をランダムに選択するか、ID列を使用するかを指定するには、次のいずれかを選択します。
- テストセットとして行のある割合をランダムに選択する: 検定データセットをランダムに選択するには、このオプションを選択します。テストデータセットで使用するデータの量を指定できます。ほとんどの場合、デフォルト値の0.3が良好に機能します。モデルを良好に評価するために、テストデータセットに十分なデータを含める必要があります。モデルの形式が不明な場合は、テストデータセットを大きくすると、より強力な検証が提供されます。また、モデルを良好に評価するために、テストデータセットに十分なデータを含める必要があります。通常、予測変数の数が多いモデルでは、より多くのトレーニングデータで推定する必要があります。
- ID列でのトレーニング/テスト分割を定義する: テストサンプルに含める行を自分で選択するには、このオプションを選択します。ID列に、テストサンプルに使用する行を示す列を入力します。ID列には2つの値のみを含める必要があります。テストセットのレベルで、テストサンプルとして使用する水準を選択します。
- (オプション)トレーニング/テスト分割のID列を保存するをチェックしてID列を保存します。