FAQ
実践力の養成2
回答
おっしゃる通り、各群でヒストグラムを確認するのが一番です。
回答
おっしゃる通り、ほかに変換することや、変数の合成(掛け算など)もあります。ただメディカルでは対数変換が最も多いと思います。これまで使われている手法を使うことは、これまでの研究と比較しやすいという点で、同じ方法論をとることをお勧めいたします。
回答
CRP(C反応性蛋白)が対数正規に近い形になりやすい理由は、メカニズムの観点から十分に考察できます。要は、乗算の世界が重なっているからです。
1)多段の生体反応が乗算的(増幅カスケード):炎症刺激 → サイトカイン産生 → CRP転写・産生 → 血中CRP。この結果、全体のばらつきが乗算的に拡大。
2)個体差が乗算的(集団レベルの掛け算)
他にも要因が考えられると思いますが、まとめると、CRPは、炎症シグナルから肝での産生、消失、個体差、測定誤差まで掛け算の要因が多段に重なるため、対数正規に近い分布をとりやすいのではないかと考察可能かなと思います。
回答
各群でZ標準化してから全体で正規性を検定するのは、おすすめできません。
1)t検定・ANOVAなどで要るのは「群ごとの誤差(残差)が正規」という仮定です。群内でZ化→全体で検定すると、群差(平均・分散)を取り去った別の世界を検定してしまいます。
2)ある群だけ歪んでいても、他群と混ぜると平均化・相殺され、非正規が見えにくくなります。
3)群内Z化は各群で平均0、分散1に強制するので、データ同士が(群内で)制約付きになり、Shapiro–Wilkの想定からも外れがちです。
回答
講義で行ったように、あくまで目安程度です。
回答
Shapiro–Wilk に「自由度の調整」はありません。その他は、次の質問で回答しております。
回答
確かにおっしゃる通り、線形モデル残差で検定すると「群効果を引いた後の誤差の正規性」を見ることになり、その場合、等分散性も暗黙の前提に入ってしまいますね。
状況がクリアになってきました。この場合ですと、階層構造を明示する、つまり混合効果モデルの残差をチェックというのが良いように思いました。被験者をランダム効果として入れた線形混合モデルをあてて、その「個体差を考慮した残差」が正規分布かどうかを調べるという感じでしょうかね。
回答
はい、あります。これは「置換検定(Permutation test)」のモンテカルロ近似という方法です。
回答
おっしゃっているのは、ウィルコクソン(マン・ホイットニー)のP値で、そのあとの直接確率が、並び替え検定のP値と同じになります。
回答
おっしゃる通りです。各セルの期待度数20%というのがよく見る形ですが、経験則として、セル内の数値でも同じような傾向がみられます。
回答
フィッシャーの正確検定が厳密に適用できる唯一の場面は以下二つの状況が必要です。
①2×2表、②行和・列和(周辺和)が実験計画上固定されている。周辺和の固定とは、分割表の行や列の合計値(周辺和)がデータ収集のデザイン上あらかじめ決まっていることを意味します。
固定でない場合というは、例えば、観察研究などで、治療群に何人入るかも事前に決まっていない、というのはわかると思います。
もう一つの具体例は、成功の合計人数も「偶然そうなった」だけ、ではない、ということです。
この周辺和の固定という前提がクリアできないため、フィッシャーの検定で真に使用できる場面というのがほぼない状態になっています。
回答
おっしゃる通りです。そのままで行うならば、ロジスティック混合効果モデル(GLMM)が第1候補となります。
回答
Fisherの正確検定でもサンプルサイズ設計は可能です。
まず考えるのは、どのような分布を想定するかです。分かりやすいのは、2群比率の正規近似(power.prop.test())かと思います。その上で使用する効果量をどう置くかですが、Fisherならば、オッズ比にしておくのが一番無難かと思います。
回答
Wilcoxon符号付順位検定(paired)はダメではありません。以下の前提をクリアしたら問題なく使用可能です。
1)データは連続的な割合(0–1)で、0や1が多くない、差(after−before)の分布が概ね対称っぽい。
2)各被験者の計測精度(分母)が同程度で、重み付けが不要とみなせる。
3)目的が中央値の変化の有無の検定(推定ではなく)で十分。
回答
ロジスティック回帰は、説明変数の分布について正規性などの仮定は不要です。連続・二値・カテゴリ(ダミー化)・順序(扱い方に注意)を入れられます。
ただし前提はあります:
1)ロジットに対する関数形が適切(連続変数はロジット上でおおむね線形)
2)観測の独立性(反復・クラスタはGLMM/GEE等へ)
3)完全/準完全分離なし
4)強い多重共線性なし
5)事象数が極端に少なすぎない、など。
「変数の分布を気にしなくてよい」という記述は誤差正規性・等分散性が要らないという意味なら正しいですが、関数形(非線形ならスプライン等)や独立性は気にしてください。
回答
lm/glmで説明変数をたくさん入れたからといって、係数のp値を一律で多重補正する義務はありません。ただし、2)の場合は補正した方が良いです。
1)主効果が事前に決まっている。例:testの効果があるか?他の変数は調整目的であれば、いらない。
2)複数の係数を等しく重要な仮説として同時に検定したい場合は、同一ファミリー内で補正を検討。厳格ならHolm/Bonferroni
回答
「頑健(ロバスト)」= 前提や条件が多少ずれても、結論や推定値が大きくブレにくい性質との理解が良いと思います。
例:「中央値やトリム平均は外れ値に引きずられにくい(平均は弱い)」
回答
外れ値だけど真値が混じるときは、除外より効き方の形を柔らかくモデリング+影響を弱める推定・推論が良いかな、と思います。
具体策は「①変換」「②ロバスト(頑健)推定」「③影響度診断+感度分析」「④正則化や事前分布」「⑤事前に定めた上限でのWinsor化(必要なら)」の組み合わせでしょうか。
①まず変換ですが、対数変換で対称化・スケール圧縮かなと思います。もちろん制限付き立方スプライン(RCS)やGAMで高値では飽和などの形を表現するという方法もあります。
②ロバストGLM(M推定:Huber/Tukeyなど)で高レバレッジ点の影響を緩和し、
③レバレッジ・影響度:hatvalues(fit)、 cooks.distance(fit)、 dfbeta(fit) を確認します。感度分析:上位の影響点を(事前に決めた基準で)一時的に除いて群効果の安定性を調べます。
④正則化(安定化)やベイズで過度な振れを抑えます。Ridge/Elastic Netで係数を縮小にすることで、高レバレッジの影響を平準化します。
あとは場合に応じて、④と⑤を実施というところでしょうか。
回答
スムージングをかけすぎたようです。おっしゃる通り、減少することはありません。
回答
DeLong法(DeLong、 DeLong & Clarke-Pearson、 1988)は、ROCのAUCをノンパラメトリックに扱う代表的手法で、AUCの分散・共分散をU統計に基づいて推定します。文献で見る DeLong test(2本のROCのAUC比較)と同じDeLongさんで、同じ理屈の上にあります。
回答
簡単な回答で失礼いたします。
・検証的試験の主要解析は通常ロジスティック+形の事前指定(log/RCS)+ロバストSE/分離時Firth。
・ロバスト回帰・ベイズは“感度解析”として。主要結論と整合が取れていれば、むしろ信頼性の裏付けになります。
回答
おっしゃる通りです。しかしながら、上述の方法は検定は実施しておらず、その心配はないかと思います。
回答
多面的に確認するのが必要です。もしAUCが高い状態であっても、例えば、0の予測精度が異常に高く、1の予測精度が悪い時もあります。そのため、単純に高いから良いという判断は難しいです。とはいえ、0.8を越えていたら、ある程度の以上の予測精度があると考えることはできます。
回答
closest.topleftはよく使われる選択肢のひとつです。ただ医学領域ですと、歴史的には YoudenのJが最も多く使われています。
回答
カテゴリカルデータについては、原則標準化はしません。
もし他のすべての説明変数が1~5内であるならば、標準化しない状態で比較可能です。
ただ、もし他の説明変数が1~11など、異なる範囲が入り組んでいる状態だと、重みづけで同じ尺度になるように編集します。
または、平均周辺効果(AME)や1→5で予測確率が何ポイント動くかを並べるという方法をとることもあります。
ただ入り組んでいる状態であれば、Z値変換も一つの手段としてとられるときがありますので、迷ったら一旦Z値にしても良いかもしれません。
