原文


演習編3 教師あり学習・教師なし学習

回答

正しく実行すれば、講義動画にようにsparse無しの実施時に614×2になると思います。
614×1になってしまった原因としては、encodingを誤って複数回実行しているなどが考えられます。
ノートブックを再起動した上で、再度コードを実行していただき、それでも同じ様な問題が発生するのであればご連絡ください。

回答

申し訳ありませんが、その動画はPythonの最新情報に対応しておらず、
現在は実行してもエラーが発生する可能性が高いです。
そのため、現在最新verの動画を準備中です。

代わりに、「第11回 モデルの検証とチューニング」の「11-6 機械学習の流れ」に記載されている
ydata_profilingを用いてEDAを行っていただきたいです。

ご不便をおかけしますが、よろしくお願いいたします。

1.評価指標

回答

ロジスティック回帰は2値分類を行うモデルなので、評価指標は2値分類用のものでなければなりません。
したがって、回帰タスク用の評価指標を使うことはできません。

回答 

「1になる確率」=「0~1の予測値そのもの」ではありませんが、「1になる確率」を元に0か1か予測します。
具体的には、1になる確率がある閾値よりも大きければ1と予測し、小さければ0と予測します。

また、「0になる確率」を採用してもOKです。
1から「1になる確率」を引いたものが「0になる確率」になるので、「0になる確率」を使って予測することは可能です。
この場合、「0になる確率」が閾値より大きければ0と予測し、小さければ1と予測します。
ただ、一般的には「1になる確率」を考えることが多いです。

4.アソシエーション分析

回答

te.columns_は、商品名がlistになったものです。
print(the.columns_)を実行すると、下のように出力されます。
te.columns_が何を意味しているか知りたい場合は、それを出力すると良いでしょう。


teに対して「.columns_」でアクセスすると商品名のlistを取得できるのは、
TransactionEncoderの仕様でして、これはそういうものだと理解するしかないです。
ただ、これは頻繁に使うものではないので覚える必要はありません。

回答

metricで指定した指標がmin_threshold以上であるような商品の組み合わせが出力されるという認識が正しいです。
つまり、min_thresholdで設定できるのは、metricで指定した指標の最小値です。

また、metricsを指定しなくてよいのは、それがオプション引数だからです。
関数の引数には「必ず指定する必要がある引数」と「指定しなくても良い引数」の2種類があり、
後者をオプション引数といいます。
関数を実行する際は、そのオプション引数を指定しなくても良く、その場合はデフォルト値が採用されます。
オプション引数には予めデフォルト値が定められおり、それを確認する方法をご紹介します。

実はPythonでは、関数などにカーソルを当ててしばらく待つと、下の画像のように、
その仕様や説明などが表示されます。
ここでは、「association_rules」にカーソルを当てることで、その関数の仕様や説明を表示させています。

そして、そこには「metric=‘confidence’, min_threshold=0.8」と書かれています。
これは「〇〇=△△」の形で書かれているため、デフォルト値が設定されていることがわかります。
〇〇がオプション引数で、△△がそのデフォルト値を表しています。
したがって、metricsやmin_thresholdは必ずしも設定する必要はなく、
それぞれ’confidence’と0.8というデフォルト値が設定されていることがわかります。

そのため、metricsを指定しなくても関数は実行できるわけです。
講座でmetricsを指定するように説明したのは、metricsを切り替えることで、
基準となる指標を変更できることをお伝えしたかったからです。

3.次元削減

   統計学活用支援サイト