実践統計学

更新日2024年7月25日

Table of Contents

質問　質問箱ひげ図と幾何平均について、下の理解の仕方は正しいでしょうか。
例えば、
ある会社の10年間の売上の伸び率の推移を見たいとします。
ある年に、一度きりの特別な件名によって飛びぬけて大きな売り上げが出ている場合、その年の売上高を外れ値として除外する方が良いのではないかと思います。
そうすると、
幾何平均で伸び率の平均を見るよりも、
箱ひげ図で中央値を見る方が、
売上の伸び幅をより正しく理解できると思うのですが、その理解で良いのでしょうか。

回答

伸び率はパーセント・データですね。幾何平均にするというのは正しいと思います。また箱ひげ図の基本的な意味も正しくご理解されていると思いますが、パーセント・データを箱ひげ図にするのはあまり好ましくないと思います。

四分位数の計算過程でデータの差を取りますが、分母の異なる比率の場合、単純に差を取ると実体と合わなくなります。
例えば、A組（30人）の文系志望者60％理系志望者40％という場合。
60％―40％＝20％文系志望者が20％多い。
この結論はOKです。分母が同じなので。
次に、A高(300人)の●大学志望5％、B高(600人)の●大学志望5％という場合。
「A高もB高も5％で差は0だ」と思ったら危険です。実体は、A高には15人、B高には30人志望者がいて、推薦枠が一定ならば、圧倒的にB高の方がライバルが多いのです。
このように、パーセント・データは相対的な変動の情報は保有していますが、絶対的な変動の情報は保持していません。他にもいろいろと問題があり、パーセント・データを統計分析に用いる場合は慎重に行わなければなりません（「「定数和制約」といいます）。

基本的なお悩みは、「外れ値を検出したい」ということでよろしいでしょうか。
外れ値というのは文脈で変わってきます。
その文脈を一番よく理解しているのは分析者です。
例えば、月ごとの売上の推移を示す折れ線グラフを作ってみて、ある店舗のある月だけが飛びぬけて高い。調べてみると、そのとき特別な企画を行っている。それならば飛びぬけて高いことの説明が十分につくので、分析者の判断でその月を幾何平均から除外すれば良いのです。
ただし、分析結果を公表するときは除外した理由をきちんと明示し、恣意的な操作と誤解されないようにしましょう。

質問　t検定において、対応のあるなしのかかわらず、効果量はCohen’s dを用いるとのことでした。ただし、対応のあるデータの場合と対応のないデータ場合に、Choen’s dの計算式が異なるようです。その理由を教えていただきたいです。

回答

まず、効果量の基本的な考え方ですが、母平均の差μ₁－μ₂を母標準偏差σで割った母効果量δを標本から推定するものです。

対応のないデータの場合、分子には2つの標本平均の差を用います。分母は、２群の標本分散をその標本サイズで重みづけて平均をとった量を用います。2群に共通な分散に対応する標本統計量として合理的な量になります。

対応のあるデータの場合、対応のないデータと同じ式で計算することもできなくはありません。しかしその場合、２群間に想定される相関関係を全く無視して計算することとなります。それを避けるため、2群の差得点を求め、そこから効果量を計算します。対応のあるデータなど対して2群間の相関を考慮して差得点に基づいた分析を行うことは統計学でしばしば行われます。

質問　パワポP89の単回帰分析のExcelの結果で、切片のP値は見なくてよいのでしょうか？売上高と乗降客数の例では、切片のP値は0.2069で有意差なしという結果になっています。切片の43.992は意味のない数字ということでしょうか？

回答

Excelの分析ツールはちょっとお節介なところがあって、切片のp値が0.2069と表示されていますが、これは分析には特に必要のない数字です。ここでのp値は、「母集団において0である」可能性を検討しているものです。切片（定数）は0であっても別に構わないことがほとんどんなので、43.992が有意かどうか、そもそも検討自体しないことが普通です。

一方、偏回帰係数ではｐ値が大切です。もし母集団において偏回帰係数が0の可能性を棄却できないならば（＝有意でないならば）、その説明変数は予測にあまり必要のない変数ということになります。従って、偏回帰係数のp値が有意かどうか確認することが大切です。

質問　【スライド94】重回帰分析の偏回帰係数の中で有意で無いものがいくつか混ざっていても問題ないと理解しました。有意でない偏回帰係数の数に関して決まりはありますでしょうか。例えば設定した偏回帰係数4つのうち2つが有意で無くても自由度調整済決定係数が許容範囲であれば大丈夫でしょうか。

回答

有意でない偏回帰係数の数に決まりや目安は特にありません。お書きのとおり、大切なのは決定係数になります。
重回帰式（モデル）に使用する説明変数を探索的に決める方法として「ステップワイズ法」というものがあります。
いったん全ての説明変数を分析に投入した後、段階的に有意でないものを 1 つずつ除去していき、最終的に最も決定係数が大きくなるモデルを採用するやり方です。
ステップワイズ法を EXCEL で行う場合、何回か重回帰分析を繰り返す必要がありますが、統計分析パッケージによっては予めオプションで搭載しているものもあります。よく使われる手法です。

メディカルデータサイエンス実践力養成講座

A．実践統計学

B．Rによる統計学（入門編）

C．Rによる統計学（実践編）

D.Pythonによるﾃﾞｰﾀ解析入門

E.Pythonによるﾋﾞｯｸﾞﾃﾞｰﾀ解析

F．実践力の養成1

G．実践力の養成2

H．実践力の養成3

I．課題解決プレゼンテーション

実践統計学