FAQ

A.実践統計学

実践統計学

回答

 

私自身は Excel で計算したことはこれまでなかったのですが、調べてみたところ、Excelで計算する方法を web で見つけました。
他の統計パッケージ(IBM SPSS)の出力結果と突合して OK であることを確認したので、これで試してみてください。

https://bellcurve.jp/statistics/course/25851.html

演習用ファイルの「重回帰 4」でやってみたところ、下のような結果になりました。

目安として、VIFが10を越えるとき(5とする意見もあります)多重共線性を疑います。

回答

 

はい、そうです。
教科書的な書き方をすれば前者なのですが、Excel には効果量を計算する関数がないので、みなさんが実際に計算しやすいように後者を表記しました。

回答

 

はい、数理的には実行可能です。
ただ、検出力が弱くなり第 2 種の過誤を犯しやすくなるので注意してください。
他が一定であれば、検出力が最も強くなるのはサンプルサイズが同数の場合です。

回答

 

はい、そのとおりです。恣意的なサンプリングにならないように注意してください。

回答

 

はい、そうです。

セミナーで使用した「包括的な中央値」(中央値を含めて計算)は次の関数になります。

   QUARTILE.INC(配列,戻り値)
   戻り値:第1四分位数-1, 中央値-2, 第3四分位数-3

QUARTILE.EXCは、中央値を含めずに計算します。

EXCELがなぜデフォルトで「排他的な中央値」を採用しているのかはわかりませんが、データの数が少ないときに外れ値を検出しやすいのは「包括的な中央値」の方です。

回答

 

はい、可能です。

EXCELはIQRの1.5倍を採用していますが、絶対的な決まりではありません。

文献によりますが、「1.5倍以上」あるいは「1.5倍から3倍」となっています。

値が大きくなるほど外れ値は検出しにくくなりますので、恣意的にならないように気を付けてください。

対等なデータなのに、一方は1.5倍、もう一方は3倍、というのは結果を不正確にする恐れがあるので慎重に対処します。

外れ値とするかどうかの判断の目安として、正規分布を仮定できるデータであれば、zに変換すると良いと思います。例えば、zが±3.29以上であれば両側で0.1%以下(片側で0.05%以下)の出現確率です(Excelの演習ファイルの「正規分布累積確率」のシートをご利用ください)。

回答

 

ウェルチ(Welch)の検定を利用しているからです。

分析ツールで対応のないt検定を行う場合、

 ①等分散を仮定した2標本による検定(=スチューデントの検定)

 ②分散が等しくないと仮定した2標本による検定(=ウェルチの検定)

のいずれかを選択することになります。

①には制約があり、等分散性を仮定できなければ使えません。事前にF検定を行って等分散性の検定を行う必要があります。ビッグデータでは、等分散性の仮定は成立しにくいです。

②は①の修正法です。このような制約を受けません。等分散性が仮定できなくてもt分布を使用できるようにt値と自由度が修正されます。そのため、②では自由度が必ず(n1-1)+(n2-1)にはなりません。修正法といっても、精度が落ちるわけではありません。セミナーでは②を用いました。

回答

 

対応のある2標本のt検定は、「差に着目した」1標本のt検定にほかならないからです。

母集団において「差がない」が真実なら、差の平均は0と考えられます。

そこで母集団の平均として0をおいて、標本との違いを検討します。

回答

 

よく使用される比率には、リスク比とオッズ比があります。
下記例で説明します。

 

  不整脈有無有無

横計

ある

ない

喫煙

3

2

5

非喫煙

1

4

5

・リスク比は下記で計算されます。

 喫煙者が不整脈となるリスク  : 3/5 = 0.6

 非喫煙者が不整脈となるリスク: 1/5 = 0.2

 喫煙者のリスク/非喫煙者のリスク=0.6/0.2=3

・オッズ比には下記で計算されます。
 喫煙   不整脈のある人の割合 : 3/2 = 1.5
 非喫煙 不整脈のある人の割合 : 1/4 = 0.25

      オッズ比=1.5/0.25=6

・解釈について

 上記例のリスク比から、喫煙者が不整脈となるリスクは非喫煙者に比べ3倍と解釈できますが、オッズ比である6倍とは解釈できません。

回答

 

幾何平均は、一般に比率の平均に用いられます。
良く用いられるのは、時間に応じて変化する比率のデータの平均値を求める場合に、
算術平均の代わりに用いられます。
その他の例として、アンケートデータ(5段階評価)の平均値に算術平均が良く用いられていますが、
AHP(階層化意思決定法)の評価においては、幾何平均が用いられます。
算術平均、幾何平均の選択は、データの背景を勘案した分析者に委ねられます。