FAQ　データサイエンス研修（アドバンスト）

2．統計学の基礎/機械学習の基礎

質問　演習問題7の変数y5を実行した際にnoiz値がおかしな数値になり、その後の演習でｙ5だけがテキストの数値と異なります。
x noiz y5
0 151.182162 210.983357 362.165519
1 195.046370 276.568609 471.614979
2 114.415961 -225.898883 -111.482922
3 194.864945 235.150792 430.015736
4 131.183145 -198.613355 -67.430209

回答

今回は動画内で説明している通り、noiz生成は用いずにuniformで取得しています。ご質問されているデータの生成範囲がわからないので、なんとも言えませんが、動画内ではnoizを使用しているパターンもいくつか紹介をしています。
その際に、乱数生成なのでseed値の有無や、内容によってデータの値は毎回変わりますのでその点ご留意ください。

質問　ランダム生成のコードのところで
rng = np.random.default_rng(1)
↑の（１）となっている箇所ですが、講義の中で生成される乱数を固定するために（seed=1）とすると説明いただいたと思いますが、
（１）でも（seed=1）でもどちらもで支障ないのでしょうか？
初歩的な質問で恐縮ですが、よろしくお願いいたします。

回答

ご指摘の通りです。
引数は整数(Int)型の値を一つ指定した場合には、それがseedとして扱われるので、同様の意味になります。

質問　線形回帰分析についての質問になります。回帰係数の有意確率が0.05以下であっても、決定係数R^2が０に近い場合には、回帰係数は有効でないという考え方になるのでしょうか。それとも式の信頼性は低いが、回帰係数は有効であるとみるものなのでしょうか。それとも有効でないとみるべきものなのでしょうか。

回答

大変鋭い質問ですね。分析の各評価指標の見方は重要なポイントです。
今回の場合には、それぞれで観点が異なります。
まず、回帰係数の有意確率については「回帰係数が本当は0であった」という状況を表す確率です。
そのため、有意確率(誤り確率)が基準(0.05)よりも大きな場合には、本当は0であったという状況を想定することとし、その説明変数は予測に役立たないという判断となります。
一方で決定係数はその式自体の信頼性(予測値と実測値の関係)を見る指標なので、いくら回帰係数の有意確率が低かったとしても、そもそもが予測式としては役に立たないという判断になります。

【前の質問の続きになります。】
たとえば、2日目の資料の60及び61ページにおいて、
y4において、xの回帰係数の有意確率は0.000ですが、決定係数は、0.154という値になっています。
個人的には、y5以外の他の決定係数よりも「0.154」と低いため、式の信頼性は低いと考えられるため、xの回帰係数の有意確率は0.000であっても、その回帰係数は有効でないという風に考えるのか。それとも、回帰係数の有意確率は、有効であるが、その他の影響により式の信頼性が低くなっていると考えるものなのでしょうか。

回答

”回帰係数が有効か”という観点でいえば、有意確率が十分低いのであれば「有効」として考えます。
ここでいう有向は「0ではない」ということを意味します。
ただし、決定係数が低いのであれば、式全体としては予測はできていないというのが最終的な解釈です。

FAQ データサイエンス研修（アドバンスト）

2．統計学の基礎/機械学習の基礎

FAQ　データサイエンス研修（アドバンスト）