Rによる統計学（実践編）

更新日2024年6月5日

Table of Contents

質問　重回帰分析について質問です。切片と傾きで回帰式を設定して予測値を算出しましたが、予測値と実測値の差（＝残差）が大きいものを見つけて、「修正」をしてゆくというご説明をいただきましたが、具体的にはどのような修正をすることでモデルが改良されるのでしょうか。

回答

残差についてですが、例えば以下のデータで実施してみましょう。

売り上げ個数を従属変数（目的変数）として、残りの気温、来場者数を説明変数として分析すると以下のような結果が出てきました。

結構良さそうな結果です。残差がどうなっているかを出してみて、表の横につけてみます。

残差でみると、3日目および10日目が大きくマイナスで外れています。マイナスとして出ているということは、今回作ったモデルの式で算出した売上個数よりも、実際には-34個も売れなかったということです。ここで重要な視点は、作成したモデルで計算して算出した売上個数よりも、実際はもっと売れた！ということであれば、だれも怒らないのですが、予測値よりも売れなかった！となると当然怒り出す人もいるでしょう。
ここで3日目および10日目のデータを見ると、来場者数は多いのです。にもかかわらず、売れなかったということは、たとえば、このイベント会場に、何かのライブがあったりして、有名人が来た日が3日目と10日目かもしれません。そういうのを調べて、今度は有名人のライブがあったかどうかをダミー変数として入れてみましょう。以下のような感じです。

このデータで回帰分析をすると、より一層モデルが良くなりました。

このように、残差を出してあげて、大きく違うところに着目して、何が原因で大きく違うのかを考えて、データを追加したり、もしデータがなければ仮説をたてて、今後はこういうデータも追加でとりましょうと提案したり、色々な手がうてて、より一層モデルが良くなるように働きかける作業が残差を確認していく作業です。

メディカルデータサイエンス実践力養成講座

A．実践統計学

B．Rによる統計学（入門編）

C．Rによる統計学（実践編）

D.Pythonによるﾃﾞｰﾀ解析入門

E.Pythonによるﾋﾞｯｸﾞﾃﾞｰﾀ解析

F．実践力の養成1

G．実践力の養成2

H．実践力の養成3

I．課題解決プレゼンテーション

Rによる統計学（実践編）