FAQ

Rによる統計学(実践編)

回答

 

1)
比率に対してのt検定は適切ではありません。
なぜならば、比率に対しては算術平均が合理的な指標となっていないことが証明されているからです。
比率に対しては幾何平均が合理的な指標となっています。
t検定は算術平均および標準偏差で計算されるため、比率に対しては的確な検定手法ではありません。
この場合は、比率ではなく、もとの数字を使ってカイ二乗検定を実施するのが正解です。
ただ研究論文の分野によっては、このような比率でのt検定を見ることはあります。
これはなぜかというと、サンプルサイズが大きくなると、正規分布に近似できることも証明されているため、
そちらの解釈で、近似しているから使用するという考えです。
ただこの場合も、妥当性が高いのは、比率の差のz検定(正規近似)が正しい方法だと思います。

回答

 

2)
おっしゃる通りだと思います。
上述した、Z検定というのは、ロジスティック回帰で説明変数に対して実施されているものです。
そのため、発症率とするならば、ロジスティック回帰で説明変数のZ検定で見る、
発症日数とするならば、重回帰分析で説明変数のt検定で見る、
というやり方が最も適していると思われます。
もちろん、生存時間分析として、発症までの日数、というのを目的変数とし、
Cox回帰分析やログランク検定を実施するのも一つの方法だと思います。

回答

 

とても良い質問です。おっしゃる通り、慎重に扱うべきとなります。
決定係数が高いということは、散布図を描いて回帰直線を引いたら、ほとんどが回帰直線の近くにあるということになります。
この場合、モデルの当てはまりは良いと判断できます。
ただ元々のデータで線形回帰を適用する条件が成り立っていない場合は、機械学習でいうところの過学習のような状態になっている可能性があります。
すなわち、今回のデータでは当てはまりが良いが、次回以降の予測として使用するには心配がある、というのが解釈になると思われます。
あくまで「数値的に近い結果が出せている」というだけであり、それが因果的・統計的に信頼できるかどうかは別問題です。
私たちの場合、こういうときは以下のような代替手段を検討します。

 

変数変換(対数、Box-Coxなど)
重み付き最小二乗法(等分散性の補正)
ロバスト回帰(外れ値に強い)
一般化線形モデル(GLM)
非線形回帰や機械学習的手法(ランダムフォレストなど)

回答

 

■ 1. 箱ひげ図と正規分布の対比に関して、ヒゲの端点はz値換算すると約2.7なのでは

 

おっしゃる通りです。あくまでイメージとしてお伝えしたものでありました。混乱させて申し訳ありません。箱ひげ図の「ヒゲの端点」は四分位範囲(IQR)をもとにした経験的な定義であり、おっしゃる通り標準正規分布とは一致しません。

 

 •通常の箱ひげ図では、ヒゲは
 下限 = Q1 – 1.5 × IQR
 上限 = Q3 + 1.5 × IQR
 •標準正規分布において、これに対応するz値は±2.698(約±2.7)に相当します(ただしこれは理論値ではなく経験的に対応させた近似です)。

 

これは「1.5×IQR」の範囲が標準正規分布で約99.3%のデータを含むため、z=±2.7程度に相当します。つまり「箱ひげ図のヒゲ ≒ ±2.7σ」に相当する感覚で妥当です。

回答

 

■ 2. Cohen’s dとHedge’s gの使い分け

 

 •Cohen’s d:効果量の標準的指標。2群の平均差を標準偏差で割ったものです。大標本(n > 20~30)では信頼性が高いです。
 •Hedges’ g:Cohen’s dに小標本補正を加えた効果量です。特にn < 20程度の小標本では、より偏りの少ない推定が得られます。

 

使い分けの目安としては:

 

 •nが小さい(各群10~20未満)→ Hedges’ g
 •nが十分に大きい(各群30以上)→ Cohen’s dでもOK

回答

 

■ 3. 「n < 6でノンパラメトリックがダメ」のnは一群あたり?なぜ?

 

これは一群あたりのnを指します。つまり、2群比較ならn=5 vs n=5は不適切ということです。


 •青木(2009)*では、ノンパラメトリック検定(特にWilcoxon順位和検定や符号検定など)における順位情報が極端に少ないため、正確な検定ができなくなることが理由です。
 •Wilcoxon検定の帰無分布が離散的すぎてp値が粗くなりすぎることが主な問題です。

 

具体的には:


 •順位のパターンが少ない→p値の刻みが粗い(例:0.05が出せないなど)
 •有意性判断が不安定

 

*青木繁伸(2009)『統計学を拓くノンパラメトリック法』朝倉書店
 第3章「順位法の限界」にて、小標本での検定力の低さや帰無分布の粗さについて解説。

式については、その書籍では出ておりませんが、感覚的に、p値を求める分布をデータで作成していくと考えると、一定数より少なくなれば、その分布は正規分布の形にはなりづらいですよね?すなわち、p値の信頼性は高くならないことが予測されます。この辺りの数値は、0.05で差があるかどうかを調べるのと近い形です。すなわち、文化的に切り分けポイントを定めた、という認識でよろしいかと。

回答

 

■ 4. 外れ値の検出:可視化以外の方法(Rパッケージ含む)


以下の手法・パッケージが有効です:主な外れ値検出手法(代表例):


•Grubbs検定(正規分布前提):outliers::grubbs.test()
•Rosner’s test(複数外れ値検出):EnvStats::rosnerTest()
•MAD(中央値絶対偏差)による検出:abs(x – median(x)) / mad(x) > 3 など
•箱ひげ図のルールを用いた機械的検出:boxplot.stats(x)$out


使用例(Grubbs):
R
library(outliers)
grubbs.test(mydata$var1)

 

使用例(MAD):
x <- mydata$var1
outliers <- x[abs(x – median(x)) / mad(x) > 3]

 

回答

 

■ 5. ノンパラメトリック検定が母集団の差を言いにくい理由


ノンパラメトリック検定は母数(例えば平均や分散)に関する仮定を立てないため:


 •「中央値の差」や「分布の位置ずれ」を検出することはできても、
 •「母平均が〇〇だけ違う」「効果量が〇〇である」といった母集団に関する定量的な結論は得にくい。

 

たとえばWilcoxon順位和検定は、「群間でデータの位置(順位)が違うらしい」ことは示しますが、「A群の平均がB群より5高い」とは言えません。

 

回答

 

■ 6. RCTなどの論文での考察例(ノンパラメトリック使用時)

 

以下のような記述が論文で見られます:

 

Vickers A. J. (2005). Parametric versus non-parametric statistics in the analysis of randomized trials with non-normally distributed data. BMC medical research methodology5, 35. https://doi.org/10.1186/1471-2288-5-35

 

上述の論文の中で、ANCOVAとMann–Whitney Uを比較した上で、

“In certain extreme cases, ANCOVA is less powerful than Mann–Whitney. Notably … the estimate of treatment effect provided by ANCOVA is of questionable interpretability.”

とあります。データ分布が正規性を満たさない場合に、非パラ検定を選択しつつも、母集団平均に関する解釈に注意を促す良い例です。

 

Zhang, Z., Li, W., & Zhang, H. (2020). Efficient estimation of Mann–Whitney-type effect measures for right-censored survival outcomes in randomized clinical trials. Statistics in Biosciences12(2), 246-262.

こちらでは、データを対象に「母集団分布の形を仮定しない推定量」として利用価値を強調しています。

 

考察ではこう書かれたりします。

“Because outcome distributions were skewed and sample size limited, we used the Mann–Whitney U test to compare group medians. While this nonparametric approach provides valid inference on population location (i.e., median shift), it does not support conclusions regarding mean differences or parametric effect sizes. Therefore, interpretation should be restricted to likelihood of group-wise shifts, not absolute mean change.”

 

特定の論文を探す際は、PubMed等で“randomized controlled trial” “Mann–Whitney” “non-normal” “median” などのキーワードを使うと、実際のdiscussionパートでの言及例が見つかりやすいです。

 

回答

 

■ 7. chisq.testのYatesの補正(correct引数)について


Rのchisq.test()では、2×2表のときデフォルトでYatesの連続性補正が適用されます。
 •correct = TRUE:補正あり(デフォルト)
 •correct = FALSE:補正なし


Yates補正とは
 •小さい標本(期待度数が5未満)のとき、カイ二乗値が過大評価されがち。
 •それをやや保守的に補正してType Iエラーを減らす目的があります。
 •ただし補正により検出力が下がる(p値が大きくなる)

 

使い分け:
 •期待度数が5未満のセルがある → Yates補正(correct=TRUE)
 •大きな標本・期待度数十分 → correct=FALSEでもOK
 •正確なp値を求めたい → Fisherの正確検定を使う(fisher.test())

回答

 

■ 8. ケースコントロール研究とオッズ比(例:肺がんと喫煙)

 

ケースコントロールでは「リスク比」が求められない:

 ・患者(ケース)と非患者(コントロール)を研究者が固定して選ぶため、

 ・母集団での発生率が不明 → リスク比は算出できない。

 

そこで「オッズ比」が登場:

 

 ・オッズ比 = ケース群での暴露オッズ ÷ コントロール群での暴露オッズ

 ・稀な疾患(rare disease assumption)では、オッズ比 ≈ リスク比となる。

 

肺がんと喫煙の例:

 

喫煙あり

喫煙なし

肺がん(ケース)

80

20

非肺がん(対照)

40

60

 ・ケース喫煙オッズ = 80/20 = 4

 ・コントロール喫煙オッズ = 40/60 ≈ 0.667

 ・オッズ比 = 4 / 0.667 ≈ 6.0

 

解釈:「肺がん患者の喫煙オッズは、非患者の約6倍」

バイアスの例:

 ・リコールバイアス:肺がん患者が喫煙歴を過大に報告する

 ・選択バイアス:対照群の選び方に偏り(健康な人に偏る等)

 ・交絡因子:年齢、職業などが同時に関与している

 

オッズ比が妥当な推定値になる前提条件というものは特にありません。単純に、発症率が低いデータでは、リスク比とニアリーイコールになりやすいという特徴はあります。

回答

 

効果量の「小・中・大」の基準値の由来

 

効果量(effect size)の「小=0.2」「中=0.5」「大=0.8」などの目安は、Jacob Cohenが提案したもので、統計的有意性(p値)だけでは分からない「効果の大きさ」を示す指標として広まりました。

Cohen自身は「経験的ではなく便宜的な指標」と述べています。カイ二乗検定の効果量もCohenが便宜的な指標として基準を決めました。

回答

 

重回帰分析の妥当性の判断方法:重回帰分析には以下のような前提条件があります。それを満たさないと推定や検定結果が信頼できなくなります。

 

◉ 妥当性を判断するチェック項目:

項目

説明

検出方法

線形性

目的変数と各説明変数の関係が線形である

散布図、残差プロット

正規性

残差が正規分布に従う

Q-Qプロット、Shapiro-Wilk検定

等分散性

残差の分散が一定

残差 vs 予測値プロット、Breusch-Pagan検定

独立性

残差同士が相関しない

Durbin-Watson検定

多重共線性の回避

説明変数間の高い相関がない

VIFで確認(VIF > 10で問題)

外れ値・影響点の確認

特異なデータが推定を歪めていないか

箱ひげ図、SDより判断

R2乗、説明変数のt検定の結果も妥当性の判断にも使いますが、モデルの当てはまりの良さを示すので、ここでは割愛します。

回答

 

ロジスティック回帰の妥当性の判断方法:ロジスティック回帰も、重回帰と類似した前提や検討事項がありますが、以下の点に特徴があります。

 

項目

説明

検出・対応方法

線形性(logitとの関係)

説明変数とlogit(p)との関係が線形

Box-Tidwell検定

多重共線性の回避

重回帰と同じくVIFで確認

VIF < 10が望ましい

外れ値・影響点の検出

異常な観測点がロジット関数を歪める

Deviance残差

サンプルサイズの十分性

1説明変数あたりイベント数10件以上が目安

イベント数確認

完全分離の有無

ある変数で完全に予測できると推定不能

モデル収束エラーで確認

 

外れ値はDeviance残差が±2を超えると疑われます。

 

回答

 

各解析手法における前提条件と、前提違反による影響

 

手法

主な前提条件

前提違反時の影響

分散分析(ANOVA)

①独立性②正規性③等分散性

等分散性が大きく違うとType I error上昇
正規性違反でも大きな問題にならないことが多い(中心極限定理)

ウィルコクソン検定

①独立性②分布形状が類似(対応群比較)

分布形状が異なると、「分布の差」を検出してしまって、対応ありの結果の信頼性低下

カイ二乗検定

①期待度数が十分大きい(すべて5以上が理想)②観測値の独立性

小さい期待度数では検定力が低下 or 有意性が誤検出される可能性

フィッシャーの正確確率検定

①クロス表の観測データが独立

少数データ向き。期待度数の前提が緩いが、2×2表に限られる(計算負荷が高い)

重回帰分析

前述の通り

係数推定が歪む

ロジスティック回帰

logit線形性、サンプルサイズ、多重共線性、外れ値なし

推定が不安定、または不可能になることがある

 

回答

 

ご質問の通り、オッズ比は「ある要因が存在する群での発生のオッズ」が、「要因がない群での発生のオッズ」に比べて何倍かを表す指標です。しかし「何倍なら重要か(考慮に値するか)」というのは、なかなか難しく分野によりけりです。

 

オッズ比(OR)

解釈の目安

1

差がない(リスク同等)

1.0〜1.5

やや弱い

1.5〜2.0

弱〜中程度

2.0〜3.0

中程度

3.0以上

強い(実務的・臨床的に重要かも)

 

● 考慮に値するかの判断には他の要素も重要
1. 信頼区間(95% CI)
例えば OR = 2.0 でも、95%信頼区間が「0.9~4.5」なら「差があるとは言い難い」
とされる。
CI に1 を含むと「統計的に有意ではない」。
2. p 値
オッズ比が大きくても、p 値が0.05 以上なら「偶然の可能性あり」と見なす。
3. 背景知識や実務的意義
医療や社会調査など分野によって「OR = 1.5」でも十分に重要とされることがある。

 

オッズ比に関しては、実践編でロジスティック回帰を行うときにより詳しく解説いたします。

回答

 

前提を整理させてください。control群と介入群の2群を比較したく、それぞれの群が二峰性(bimodal)分布をしていて、データの正規性や分散の等質性が担保できない可能性がある、ということですね。
この場合は二つ考えられます。


・ノンパラメトリック検定(分布形状に頑健)
分布の形が異なっていても使用可能。ただし「分布の形状が違う=中央値の比較が妥当か?」には注意が必要です。
・Kolmogorov–Smirnov検定(KS検定)
二群の分布そのものを比較したい場合に有効です。二峰性の差そのものを捉えたいなら、WilcoxonよりKS検定の方が適しています。
・できれば、分布の各ピークに注目した層別分析(例えばクラスタリング後にt検定)なども検討してみてください。

 

回答

 

質問は多重比較の結果に対しての事後分析でしょうか?


大きく二つの流派があります。

 

t検定を実施しているだけなので、多重比較を実施したペアに対してt検定を実施して、効果量を算出して行うもの。

これは効果量(Cohen’s d, r など)はデータ固有の値なので、多重補正とは直接関係しないため、そのまま計算しています。

 

もう一つは、「補正後のα」を使うパターンです。例えば以下のコードで実施します。
# 通常の検出力解析(効果量d=0.5, α=0.05)
power.t.test(n = 30, delta = 0.5, sd = 1, sig.level = 0.05)
# 多重比較(例:10項目)にBonferroni補正を行う場合
adjusted_alpha <- 0.05 / 10
power.t.test(n = 30, delta = 0.5, sd = 1, sig.level = adjusted_alpha)

 

S