FAQ

実践統計学

回答

外れ値の基準として四分位範囲の1.5倍については特に名称はないかと思います。
論文等に記述する場合は「四分位範囲の1.5倍を基準とした」と記述すれば問題ないかと思います。

回答

この点については、1.5倍でなければならない根拠はありません。

回答

そのデータから何を見出したいかによりますが、Excel、R等では1.5×四分位範囲がデフォルト設定になっています。「外れ値」もデータとみなして全体を表示したい場合に、あえて残すこともあります。
(ただ、そのような場合ではヒストグラムのほうがより特徴を把握しやすいです)

回答

データ数に決まりはありませんが、少なすぎると正しく四分位を計算できなくなるので、箱ひげ図の作成自体で不可となります。

回答

それは問題ありません。箱ひげ図はデータの分布やデータ範囲の簡易的な可視化が目的なので、ご質問のようなことが気になる場合にはヒストグラムを作成するほうがより的確に特徴を捉えることが出来ます。

回答

ご指摘の通り、不偏分散の平方根は標準偏差の不偏推定量とはなりません。
厳密な意味での推定量という意味では一致しませんが、実務場面の目安として使用する分には大きな問題はないかと思います(一致しないといっても、極端に異なる値が出るわけでは無いので)。
ただし、データ数が少ない場合(おおよそ10以下の場合は要注意)は特に注意が必要になります。
十分にデータ数が大きければ特段問題はありません。

回答

「挿入」にあるグラフ機能では不可です。
分析ツールにある「ヒストグラム」を使用すれば、階級の下限上限を任意に設定できます。

回答

等分散性が保証されるような場面では自由度の調整が入っても、元の自由度と大きく変わらない値となるので、検定結果も大きな違いはありません。

回答

そのような理解で正しいです。等分散性はあくまでも「仮定」となります。
分散が同程度あれば、ウェルチのt検定を用いても結果に大きな違いはないので、ウェルチのt検定のみを行えば問題ありません。

回答

平均値自体はサンプルにおける平均を用いて推定を行います。
詳しい数式などを確認されたい場合は、以下のWebサイトなどが参考になると思います。
https://bellcurve.jp/statistics/course/9059.html?srsltid=AfmBOoprqreTRovruAKag56_qZ_Pwk32FgTQZ4-NMa4cu1sNBFe9znqb

回答

サンプル平均が正規分布を仮定できるかについてはなかなか難しい問題ですが、中心極限定理によりサンプル数が十分に大きければ問題ありません。
おおよそ30~50以上が目安となります。
100を超えれば十分だというのが、多くに共通する見解かと思います。

回答

データ数がある程度あればt検定でも検出自体は可能ですが、厳密な意味ではノンパラメトリックな手法などが妥当になります。そもそも一様分布に従うと分かっているのであれば、正規性を前提とするt検定よりもノンパラメトリック系の手法が候補となります。
ただ、事前に仮定する分布などは分からないことが多いので、ヒストグラム等を用いて分布を仮定しておくことが重要です。

回答

ウェルチのt検定では自由度の調整があるので、自由度の値が変化しています。
ただし、厳密には調整された自由度の値は実数となり、Excelでは値が丸められているのでご注意ください。

回答

ウェルチのt検定では自由度の調整があるので、自由度の値が変化しています。
ただし、厳密には調整された自由度の値は実数となり、Excelでは値が丸められているのでご注意ください。

回答

Excelでは散布図をペアにしてまとめて出力する機能はありません。
マクロ等を使えば自作できると思いますが、簡易的な把握が目的であればRやPythonを利用したほうが現実的です。

回答

「信頼区間が0をまたがない」というのは、切片、係数が”0ではない”と解釈するという観点から重要です。
係数については0であるとその独立変数(目的変数)の存在価値がなくなります。
ただし、切片については定数による値の調整が目的なので0であると仮定したとしても、回帰式の解釈に大きな問題はありません。
係数について切片の信頼区間が0をまたがないことを意識しましょう。

回答

説明変数に設定できる変数の数は理論的には制限はありません。ただし、説明変数とした変数間に相関がないことが前提となるのでご注意ください。

回答

無相関検定において有意な差が得られない場合には「相関があるとはいえない」と解釈するのが妥当です。

回答

説明変数間の相関については、客観的な目安はありません。
経験則として以下に示します。
・説明変数を増やすほど低い相関でもエラーが起きる
・説明変数が3つ程度であれば0.6程度あたりから怪しい
ただし、これらも絶対ではありません。
今回は説明しませんでしたが、説明変数間の相関によるエラーは多重共線性と呼ばれます。
多重共線性を判定する数値としてVIFという指標もあり、
これらはRやPythonを使うと簡単に求めることが出来ます。

回答

回帰係数についてはf^2といった値などが効果量として用いることが出来ます。
f^2として定義されるこの値は、
決定係数/(1-決定係数)
として求めることが出来ます。
ここでの決定係数は自由度調整済みではない、
目的変数(従属変数)と予測値の相関の二乗を用いる点に注意してください。

値の目安などは以下の論文などをご覧ください。
https://www.mizumot.com/method/mizumoto-takeuchi.pdf

回答

まず、ウェルチのt検定についてはそれぞれの分散を考慮した計算方法も提案されています。
 
ただ、効果量を用いた近似値計算を用いることで実務上に大きな問題はないかと思います。
ノンパラメトリックな場合も同様です。
シミュレーションベースで近似するというのも、非常に有用な方法です。
 
 
ここでは、検定に特化したフリーソフトを1つ紹介します。
いずれも、 G*Powerというソフトが広範囲に使用できます。
ご参考までに。
 
 G*Powerダウンロード  
 
 G*Power使用マニュアル
 
 
t検定(ウェルチ)
Test family → t tests
Statistical test: Means → Difference between two independent means (two groups)
Type of power analysis → A priori: Compute required sample size – given α, power, and effect size

Determine
SD σ group1/SD σ group → それぞれの標準偏差を入力
Caluclateでそれぞれの分散に基づく効果量を算出
Calculate and transfer to main window

Main Window
Calculate
 
 
 
 
Mann–WhitneyのU検定/Wilcoxonの順位和検定
設定手順:
Test family → t tests
Statistical test → Means: Wilcoxon-Mann-Whitney test (two groups)
Type of power analysis → A priori

Calculate