FAQ
-
メディカルデータサイエンス実践力養成講座
< All Topics
Rによる統計学(実践編)
更新日2024年6月5日
Table of Contents
回答
残差についてですが、例えば以下のデータで実施してみましょう。
売り上げ個数を従属変数(目的変数)として、残りの気温、来場者数を説明変数として分析すると以下のような結果が出てきました。
結構良さそうな結果です。残差がどうなっているかを出してみて、表の横につけてみます。
残差でみると、3日目および10日目が大きくマイナスで外れています。マイナスとして出ているということは、今回作ったモデルの式で算出した売上個数よりも、実際には-34個も売れなかったということです。ここで重要な視点は、作成したモデルで計算して算出した売上個数よりも、実際はもっと売れた!ということであれば、だれも怒らないのですが、予測値よりも売れなかった!となると当然怒り出す人もいるでしょう。
ここで3日目および10日目のデータを見ると、来場者数は多いのです。にもかかわらず、売れなかったということは、たとえば、このイベント会場に、何かのライブがあったりして、有名人が来た日が3日目と10日目かもしれません。そういうのを調べて、今度は有名人のライブがあったかどうかをダミー変数として入れてみましょう。以下のような感じです。
このデータで回帰分析をすると、より一層モデルが良くなりました。
このように、残差を出してあげて、大きく違うところに着目して、何が原因で大きく違うのかを考えて、データを追加したり、もしデータがなければ仮説をたてて、今後はこういうデータも追加でとりましょうと提案したり、色々な手がうてて、より一層モデルが良くなるように働きかける作業が残差を確認していく作業です。