FAQ データサイエンス研修(スタンダード)
7.評価指標とチューニング
回答
過学習かどうかの確認だけではなく、作成したモデルの予測がどの程度であるかの確認のためにも、学習データとテストデータを分けた方が良いです。
この方法のことをホールドアウト法と言います。
回答
重回帰分析のとき同様、目的に合わせるのが良いと思います。
当然精度を優先した方がいいのですが、恐らく精度が変わったとしても、最初の枝や二つ目の枝などは変わらないと思います。
そういう意味で、発表資料などに貼り付ける決定木の図などでは、説明変数がどのように影響与えているかの順位であるとか、具体的に数値いくつで、枝が分かれるのかなど、見えるように作った方が良いと思います。
逆に予測として使用したいということであれば、精度を優先した方が良いです。
回答
使えます。
グリッドでもランダムサーチでも、Forを使って実施しているので、そこにクロスバリデーションを入れても良いですし、ランダムサーチであれば、model_selectionのRandomSearchCVを使うと同時にクロスバリデーションを実施してくれます。