FAQ

実践力の養成1

回答

 

 

統計的検定では、p値が高い場合でも「帰無仮説を採択する」のではなく「棄却できない」と表現します。これは、「差がない。同じであると確定した」とまでは言えないからです。検出力不足やサンプルサイズの問題により、差が見えていない可能性もあるため、「差がないと断定」は避けるべきです。差があるかどうかの判断は、効果量や信頼区間も併せて確認することが重要です。
ただし製薬業界などでは、等価性検定という方法をつかって、両群の平均が±5%いないなら、実用的に等しいとみなす、といった実務的な基準を設定して検討するという方法はあります。

回答

 

一般的な目安として、シャピロ・ウィルク検定はn ≦ 50~200程度の小中規模サンプルに適しているとされます。コルモゴロフ・スミルノフ検定はより大きなサンプルサイズ(n > 200)向けですが、K-S検定は検出力が低いことから、現在はLilliefors修正やAnderson-Darling検定などの使用も検討されます。実務では「どれだけ正規性が重要か」と併せて判断されることが多いです。

回答

 

ご指摘の通り、正規性の検定自体には効果量の指標が明示されません。しかし、ヒストグラムやQQプロットなどを併用することで、正規性からの逸脱度合いを視覚的・数値的に把握することが可能です。「問題となるほどの逸脱ではない」かどうかについて、検定量WとQQプロットから、ある程度ならばいうことが可能とは思います。

回答

 

±の後に続く値が標準偏差(SD)か標準誤差(SE)かは、必ず明記すべきというのが原則です。たとえば、「平均±SD」や「平均±SE」のように表記する必要があります。論文などでは標準偏差が使われることが多いですが、グラフなどでは標準誤差が使われるケースもありますので、略さずに「何の±か」を記載するのが望ましいです。
講義の中でも伝えましたが、論文の文章中では「今回のデータ」のバラつきを示すというのが目的で、論文文章中では標準偏差が±のあとに入れられることが多いです。そして図では、検定結果を表示する(たとえば**(アスタリスク))ことが多いため、標準誤差にして、母平均がどれだけ変動しうるのかを表示させることが多いです。

回答

 

標準偏差(SD)はデータの散らばり具合(ばらつき)を表す指標で、標準誤差(SE)は「平均値のブレ(推定の精度)」を示す指標です。たとえば「身長の分布のばらつき」を知りたいときはSDを、「母集団平均の推定精度」を知りたいときはSEを使います。同じ「±」でも目的によって使い分けが必要です。

回答

 

ご指摘のとおり、検定力(power)を確保したい場合、サンプルサイズは「繰り上げ(切り上げ)」が基本です。したがって、7.2人と計算された場合は8人とするのが妥当です。したがって、基本的には「切り上げて8人にする」ことが安全で合理的な対応となります。四捨五入で7人にすると、検定力が想定よりもわずかに下回るリスクがあります。
ただし、倫理書類では、最終的な人数を確定するときにはドロップ率を加味して最終人数を確定するため、四捨五入をして、ドロップ率を加味した最終人数を出すことがあります。このあたりは、誤差範囲として考えている人たちがいると思っていただくのが一番かと思います。

回答

 

power.t.test() はスチューデントのt検定(等分散を仮定)に基づく関数です。ただし、ウェルチのt検定(等分散を仮定しない)を用いる場合でも、多くのケースではpower.t.test() でのサンプルサイズの推定は実務上許容範囲とされています。なぜならば、倫理書類では、最終的な人数を確定するときにはドロップ率を加味して最終人数を確定するためです。

回答

 

効果量(Cohen’s dなど)の「小=0.2」「中=0.5」「大=0.8」という分類は、あくまで目安(基準)であり絶対的な意味ではありません。
したがって、0.2と0.5の違いは「統計的には意味があるかもしれないが、実務的・臨床的にはほぼ同じ」と見なされる場合もある、という意味合いで「ほぼ同じ」と表現されることがあります。効果量は、その差が「どれだけ重要か」を測る定量的指標であり、文脈依存です。したがって、「効果量0.5より0.2は小さい」ことは事実ですが、常に「0.5の方が重要」というわけではないため、大小だけの比較には注意が必要です。

回答

 

Shapiro-Wilk検定における W統計量 は、「データがどの程度正規分布に近いか」を示す指標です。値の範囲は通常 0 < W ≦ 1。1に近いほど「正規分布に近い」ということを示します。

回答

 

qqline()関数では、データの第1四分位点と第3四分位点を結ぶ直線が標本分布の理論的な正規分布線として描かれます。この方法は「標準正規分布との整合性の視覚的チェック」を目的としており、最小二乗回帰直線ではありません。傾きと切片は、第1・第3四分位点を使って計算されます。

回答

 

ggqqplot()の網掛け範囲(灰色の帯)は、理論的正規分布に基づいた点の信頼帯(confidence envelope)を表しています。厳密には、理論上の分位点と観測値とのばらつきがこの範囲内にあれば、正規性に大きな問題はないと視覚的に判断できます。デフォルトでは 95%信頼区間として描画されることが多いですが、80%や90%信頼区間に設定することも可能です。

回答

 

ごもっともな指摘です。確かにShapiro-Wilk検定などの統計的検定だけを用いれば「正規性がある/ない」の判断は可能です。しかし、qqplotには以下の意義があります:
・外れ値や正規性逸脱のパターン(歪み、裾の重さなど)を視覚的に確認できる
・サンプルサイズが大きすぎる場合、検定では小さな逸脱でも有意になってしまうため、補完的にプロットを見ることで過剰な反応を避けられる
・複数の変数の比較をする場合、プロットの形からどの変数がより強く逸脱しているかを直感的に捉えやすい

つまり、検定結果だけでは「どのようにずれているか」は分からないため、qqplotは判断を助ける視覚的補助ツールとして有効です。

回答

 

基本的には両方の確認が推奨されます。Shapiro-Wilk検定などで一括して結果を出力し、p値でフィルターするのは効率的ですが、それだけでは不十分なこともあります。特に交絡要因となりうる変数や、解析に使う主要な変数は個別にプロット確認するのが望ましいです。

回答

 

qqline() や ggqqplot() に描画される直線は、単純な y = x ではなく、理論分位点と観測分位点の第1四分位点と第3四分位点を結ぶ線です。
標本の平均や分散にばらつきがあるため、描画される直線の傾きや切片が y = x とは異なることが普通です。
ここは質問「qqlineではどのように直線が引かれますか?第一四分位と第三四分位の点を結んだ直線ですか?」の回答もご参照ください。

回答

 

カテゴリ変数をダミー変数(0/1など)に変換すれば ppcor::pcor() で偏相関を計算できます。回帰分析(線形回帰や一般化線形モデル)を使えば、数値とカテゴリの混在を統制することは可能です。その場合、偏相関そのものではなく「残差を使った相関」や「偏回帰係数」により同様の意味を持つ分析ができます。

回答

 

交絡因子の特定は非常に重要なステップで、以下のような流れで進めることが一般的です:
1.専門知識による事前仮説(因果関係の図式化など)
2.分布・基本統計量による記述的分析(t検定・クロス表)
3.交絡の定義に基づく判断(交絡因子とは「独立変数・従属変数の両方と関連を持つ変数」です。):よくあるのは、独立、従属変数両方に対して相関が高い変数であることが多いです。
4.多変量解析(例:多重線形回帰)を通じた検証

回答

 

講義内で短縮版で書きまして申し訳ありませんでした。講義内では、仰るように書きました。ここで短縮版についてもお伝えいたします。データフレーム内に4つの列(変数)があった場合、lm(従属変数(1つ目の変数)~., data=df)とすると、2つ目から4つ目まで残り全部を説明変数とする、という命令文になります。説明変数の数が増えてきたら、ご活用ください。

回答

 

介入などによく使われる用語が「exposure」です。暴露群とも言います。場面設定としては、以下のようなものならばどうでしょうか。
あるWebサービスのユーザーが、観測期間中に何回アクセスしたか(= 訪問回数 count)を分析したい。
ユーザーごとに観測できた日数が少しずつ違う(例:登録が途中だった人もいる)。→ **exposure(観測日数)**で補正したい。
訪問回数に影響しそうな説明変数として

x1:サービスへの関心度スコア(標準化済み、平均0・分散1)
x2:通知(プッシュ/メール)に対する反応性スコア(標準化済み)
を用意した、という設定です。

「観測日数が2倍なら、期待される訪問回数も2倍」になるように、offset(log(exposure)) を使います(“率”=1日あたりの訪問率をモデリングしてから、日数でスケールするイメージ)。

回答

 

はい、その表現は適切です。特にロジスティック回帰や一般化線形モデルにおいて、逐次モデル比較(尤度比検定)で差が有意であれば、「モデルの改善が認められた」と表現できます。
ただし、「改善」の意味を明確にするために、「どの変数を加えたことでモデルが良くなったのか」を補足するとさらに親切です。

回答

 

これはモデルの種類による違いです。
線形回帰(通常の連続値モデル)では、分散分析(ANOVA)ベースでF検定が使われます。この場合、F値・分子自由度・分母自由度が表示されます。
一方で、ロジスティック回帰などの一般化線形モデルでは、尤度比に基づくX²検定が使われます。
それぞれ、モデルの性質に合わせて適切な検定統計量が自動的に選ばれているということです。

回答

 

はい、おっしゃる通りです。ANOVAで有意差が出たとしても、それが「どれくらい良くなったか」は別途判断が必要です。
有意差は「モデルが統計的に改善された」ことを示しますが、改善の「程度」や「実用的意味」は別問題です。そのため、AIC(赤池情報量規準)や 決定係数(R2乗) などの指標を併せて確認することが推奨されます。特にAICはモデルの当てはまりとパラメータ数のバランスを評価する指標で、比較には非常に有用です。

回答

 

非常に良いご質問です。説明変数を増やすと「自由度が減る」ので、モデルの当てはまりは良くなったように見えることが多いです。
しかし、以下のような理由で「悪くなる」ことがあります:
・過学習(オーバーフィッティング):余計な変数を加えると、ノイズに反応してモデルが不安定に。
・パラメータの不必要な複雑化:説明力がほとんど増えないのに、自由度だけが減る。
・AICやBICなどの指標では「悪化」(値が大きくなる)として現れる。

回答

 

部分的には正解です。決定係数(R2乗)は線形回帰モデルの指標で、「説明できた分散の割合」を示します。尤度比検定は「モデルAとモデルBのどちらが統計的に優れているか(有意差があるか)」を示します。統計的に違いがあるのかどうかを調べたいときに、尤度比検定を実施するという目的にすると良いと思います。

回答

 

尤度比検定のF値についてはその通りです。混乱するときもあると思いますので、講義で行ったように、モデルの順番を入れ替えて確認してみるとより理解が進むと思います。

回答

 

はい、正しい理解です。AIC(赤池情報量規準)はモデルの適合度と複雑さ(自由度)のバランスを評価する指標です。AICは「−2 × 尤度 + 2 × パラメータ数」で計算されます。そのため、数値が小さいほどモデルの情報損失が少ない=より良いモデルとされます。おっしゃる通り、差に意味があるかどうかのときに、尤度比検定をご利用いただければと思います。

回答

 

AIC(赤池情報量規準)とBIC(ベイズ情報量規準)は、モデルの「当てはまりの良さ」と「複雑さ(パラメータ数)」のバランスを評価する指標です。数値が小さいほど望ましいモデルとされます。
AIC:情報損失の少ないモデル
BIC:より厳しめで、「過剰な複雑さ」をより強く罰則として加える
F検定:主に線形回帰モデル間の比較で用いられます。分散の説明力の違いを比較します。
LRT(尤度比検定):ロジスティック回帰やGLMなどで用いられるモデル比較の検定。モデルの対数尤度の差をもとに、追加変数の有効性を判断します。

以上から、「仮説検定で有意差を判断したい」なら F検定・LRT、「予測精度やモデルの選択を目的とした比較」には AIC/BICと考えていただけると良いと思います。

回答

 

視覚的な判断

・ヒストグラム / 密度推定(kernel density estimate)

・山が一つか二つかを視覚的に確認するのが最初のステップです。

・正規分布との比較(Q-QプロットやShapiro-Wilk検定)単峰正規分布から大きく外れている場合は二峰性の可能性があります。

 

統計的な方法

・Silverman’s test

カーネル密度推定を用いて「峰の数」を判定する検定。

 

Silverman’s testについてはこちらに詳細がございます。

https://qiita.com/yasaigirai/items/bbc1303191d664f07313

 

以下、参考までに。

Hartigan’s Dip Testというテストもあります。こちらは分布が単峰か多峰かを判定する検定です。

 

回答

 

とても良い質問です。今後の講義でも、ノンパラの効果量は扱いますが、検出力は扱いません。というのも、実際には効果量もある意味ただの相関係数とも言えていて、疑似的に存在するのみです。出来るだけノンパラメトリック検定を実際の研究でも使われている理由は、効果量や検出力、サンプルサイズの検討はパラメトリックだからこそ行えるため、出来るだけパラメトリック検定が実施されているのが現状です。とはいえ、疑似的に出すことは可能で、その方法を以下に示します。

 

t検定では効果量dとサンプルサイズnを用いて検出力を計算しました。

ノンパラメトリック検定(例:Wilcoxon順位和検定、Mann-Whitney U検定、Kruskal-Wallis検定など)でも検出力解析は可能ですが、少し注意点があります。

 

 

近似的にパラメトリックな効果量を使う

・例:Wilcoxon検定では「順位相関に基づく効果量 r」を用いる。これを Cohen’s d に変換して、t検定と同様のパワー計算を行う

シミュレーションによる検出力推定

・データの分布を仮定して乱数を発生させ、ノンパラ検定を繰り返して「有意になる確率」を推定する

 

シミュレーションは以下のように行います(Rで実行する場合)。

set.seed(123)  # 再現性のため乱数シードを固定

 

# シミュレーション回数

n_sim <- 1000

p_values <- numeric(n_sim)

 

for (i in 1:n_sim) {

  # 群Aと群Bのデータを発生

  groupA <- rnorm(20, mean=0, sd=1)

  groupB <- rnorm(20, mean=0.5, sd=1)

 

  # Wilcoxon順位和検定

  test <- wilcox.test(groupA, groupB)

 

  # p値を保存

  p_values[i] <- test$p.value

}

 

# 検出力 = p<0.05 になる割合

power_est <- mean(p_values < 0.05)

power_est

 

例えば上記を実行すると、0.72と出力されます。これは「サンプルサイズ各20、平均差0.5の場合、Wilcoxon検定で有意差を検出できる確率は約72%」という意味として取り扱います。

S