FAQ　データサイエンス研修（スタンダード）

5．教師なし学習（分類）

質問　回帰係数を出力した際、単位などが違うため比較はできないとのことでしたが、どういった点に着目すればある程度の比較などできるのでしょうか。あまりに０に近い場合は結果に関与してなさそうだ等判断するのでしょうか。

回答

０に近いといっても結果に関与しているかどうかについての正確な比較は標準化しないと分かりません。
しかし、例えば、符号が＋か－かで、どういう重み付けであるのか分かります。
例えば、符号が＋で説明変数の単位が人数ならば、一人増えるごとに、回帰係数分かけ算されていく、というようにそれぞれの説明変数の重みがどの程度であるかを単位がある方が私たちには分かりやすかったりします。
逆に符号が－であれば説明変数が増えるごとに、目的変数に－の影響を与えている説明変数であることが分かります。

質問　モデルを作成した際に、混同行列を使ってモデルの精度を評価することになるかと思います。その際のF値について、Ｆ値とはなぜ必要なのか、具体的にどういった値なのか、数値として0から1までの値となりますが、1に近い方が良いモデルと言うことが可能なのかどうかを教えていただきたいです。

回答

おっしゃる通り混合行列で評価をしております。
そして、「再現率が上がると適合率が下がる」「適合率が上がると再現率が下がる」というトレードオフが生じていることが分かるかと思います。
たとえば、再現率が90.0%、適合率が81.8%のとき、その調和平均F値が算出され、一つの指標に要約され、この場合だと約85.7%が「F値」となっています。つまり、再現率と適合率の平均のような数値と考えていただくと分かりやすいかと思います。

質問　回帰木と決定木はどのような違いがあるのでしょうか。

回答

回帰木と決定木の違いは、目的変数が量的か、1と0の分類かの違いになります。

FAQ データサイエンス研修（スタンダード）

5．教師なし学習（分類）

FAQ　データサイエンス研修（スタンダード）