FAQ
実践統計学
回答
外れ値の基準として四分位範囲の1.5倍については特に名称はないかと思います。
論文等に記述する場合は「四分位範囲の1.5倍を基準とした」と記述すれば問題ないかと思います。
回答
この点については、1.5倍でなければならない根拠はありません。
回答
そのデータから何を見出したいかによりますが、Excel、R等では1.5×四分位範囲がデフォルト設定になっています。「外れ値」もデータとみなして全体を表示したい場合に、あえて残すこともあります。
(ただ、そのような場合ではヒストグラムのほうがより特徴を把握しやすいです)
回答
データ数に決まりはありませんが、少なすぎると正しく四分位を計算できなくなるので、箱ひげ図の作成自体で不可となります。
回答
Excelの箱ひげ図では外れ値基準は固定となり変更できません。
回答
それは問題ありません。箱ひげ図はデータの分布やデータ範囲の簡易的な可視化が目的なので、ご質問のようなことが気になる場合にはヒストグラムを作成するほうがより的確に特徴を捉えることが出来ます。
回答
ご指摘の通り、不偏分散の平方根は標準偏差の不偏推定量とはなりません。
厳密な意味での推定量という意味では一致しませんが、実務場面の目安として使用する分には大きな問題はないかと思います(一致しないといっても、極端に異なる値が出るわけでは無いので)。
ただし、データ数が少ない場合(おおよそ10以下の場合は要注意)は特に注意が必要になります。
十分にデータ数が大きければ特段問題はありません。
回答
「挿入」にあるグラフ機能では不可です。
分析ツールにある「ヒストグラム」を使用すれば、階級の下限上限を任意に設定できます。
回答
等分散性が保証されるような場面では自由度の調整が入っても、元の自由度と大きく変わらない値となるので、検定結果も大きな違いはありません。
回答
そのような理解で正しいです。等分散性はあくまでも「仮定」となります。
分散が同程度あれば、ウェルチのt検定を用いても結果に大きな違いはないので、ウェルチのt検定のみを行えば問題ありません。
回答
テキストの70ページをご覧ください。
回答
平均値自体はサンプルにおける平均を用いて推定を行います。
詳しい数式などを確認されたい場合は、以下のWebサイトなどが参考になると思います。
https://bellcurve.jp/statistics/course/9059.html?srsltid=AfmBOoprqreTRovruAKag56_qZ_Pwk32FgTQZ4-NMa4cu1sNBFe9znqb
回答
サンプル平均が正規分布を仮定できるかについてはなかなか難しい問題ですが、中心極限定理によりサンプル数が十分に大きければ問題ありません。
おおよそ30~50以上が目安となります。
100を超えれば十分だというのが、多くに共通する見解かと思います。
回答
データ数がある程度あればt検定でも検出自体は可能ですが、厳密な意味ではノンパラメトリックな手法などが妥当になります。そもそも一様分布に従うと分かっているのであれば、正規性を前提とするt検定よりもノンパラメトリック系の手法が候補となります。
ただ、事前に仮定する分布などは分からないことが多いので、ヒストグラム等を用いて分布を仮定しておくことが重要です。
回答
ウェルチのt検定では自由度の調整があるので、自由度の値が変化しています。
ただし、厳密には調整された自由度の値は実数となり、Excelでは値が丸められているのでご注意ください。
回答
ウェルチのt検定では自由度の調整があるので、自由度の値が変化しています。
ただし、厳密には調整された自由度の値は実数となり、Excelでは値が丸められているのでご注意ください。
回答
対応のない2標本であれば、それぞれの標本数が異なっても問題ありません。
回答
Excelの分析ツールでは自由度の値が整数に丸められるのでご注意ください。
回答
Excelでは散布図をペアにしてまとめて出力する機能はありません。
マクロ等を使えば自作できると思いますが、簡易的な把握が目的であればRやPythonを利用したほうが現実的です。
回答
Excelでは順位相関を算出するはありません。
回答
大変失礼致しました。ご指摘の通りです。
回答
「信頼区間が0をまたがない」というのは、切片、係数が”0ではない”と解釈するという観点から重要です。
係数については0であるとその独立変数(目的変数)の存在価値がなくなります。
ただし、切片については定数による値の調整が目的なので0であると仮定したとしても、回帰式の解釈に大きな問題はありません。
係数について切片の信頼区間が0をまたがないことを意識しましょう。
回答
標準化済みの結果の解釈としては妥当です。
回答
説明変数に設定できる変数の数は理論的には制限はありません。ただし、説明変数とした変数間に相関がないことが前提となるのでご注意ください。
回答
無相関検定において有意な差が得られない場合には「相関があるとはいえない」と解釈するのが妥当です。
回答
説明変数の数には目安などはないので、独立を仮定できる限り含めて問題ありません。
回答
説明変数間の相関については、客観的な目安はありません。
経験則として以下に示します。
・説明変数を増やすほど低い相関でもエラーが起きる
・説明変数が3つ程度であれば0.6程度あたりから怪しい
ただし、これらも絶対ではありません。
今回は説明しませんでしたが、説明変数間の相関によるエラーは多重共線性と呼ばれます。
多重共線性を判定する数値としてVIFという指標もあり、
これらはRやPythonを使うと簡単に求めることが出来ます。
回答
回帰係数についてはf^2といった値などが効果量として用いることが出来ます。
f^2として定義されるこの値は、
決定係数/(1-決定係数)
として求めることが出来ます。
ここでの決定係数は自由度調整済みではない、
目的変数(従属変数)と予測値の相関の二乗を用いる点に注意してください。
値の目安などは以下の論文などをご覧ください。
https://www.mizumot.com/method/mizumoto-takeuchi.pdf
回答
Statistical test: Means → Difference between two independent means (two groups)
Type of power analysis → A priori: Compute required sample size – given α, power, and effect size
Determine
SD σ group1/SD σ group → それぞれの標準偏差を入力
Caluclateでそれぞれの分散に基づく効果量を算出
Calculate and transfer to main window
Main Window
Calculate
設定手順:
Test family → t tests
Statistical test → Means: Wilcoxon-Mann-Whitney test (two groups)
Type of power analysis → A priori