FAQ
< All Topics

実践統計学

Table of Contents

回答

伸び率はパーセント・データですね。幾何平均にするというのは正しいと思います。また箱ひげ図の基本的な意味も正しくご理解されていると思いますが、パーセント・データを箱ひげ図にするのはあまり好ましくないと思います。

四分位数の計算過程でデータの差を取りますが、分母の異なる比率の場合、単純に差を取ると実体と合わなくなります。
例えば、A組(30人)の文系志望者60% 理系志望者40% という場合。
60%―40%=20% 文系志望者が20%多い。
この結論はOKです。分母が同じなので。
次に、A高(300人)の●大学志望5%、B高(600人)の●大学志望5% という場合。
「A高もB高も5%で差は0だ」と思ったら危険です。実体は、A高には15人、B高には30人志望者がいて、推薦枠が一定ならば、圧倒的にB高の方がライバルが多いのです。
このように、パーセント・データは相対的な変動の情報は保有していますが、絶対的な変動の情報は保持していません。他にもいろいろと問題があり、パーセント・データを統計分析に用いる場合は慎重に行わなければなりません(「「定数和制約」といいます)。

基本的なお悩みは、「外れ値を検出したい」ということでよろしいでしょうか。
外れ値というのは文脈で変わってきます。
その文脈を一番よく理解しているのは分析者です。
例えば、月ごとの売上の推移を示す折れ線グラフを作ってみて、ある店舗のある月だけが飛びぬけて高い。調べてみると、そのとき特別な企画を行っている。それならば飛びぬけて高いことの説明が十分につくので、分析者の判断でその月を幾何平均から除外すれば良いのです。
ただし、分析結果を公表するときは除外した理由をきちんと明示し、恣意的な操作と誤解されないようにしましょう。

回答

まず、効果量の基本的な考え方ですが、母平均の差μ1-μ2を母標準偏差σで割った母効果量δを標本から推定するものです。

 

対応のないデータの場合、分子には2つの標本平均の差を用います。分母は、2群の標本分散をその標本サイズで重みづけて平均をとった量を用います。2群に共通な分散に対応する標本統計量として合理的な量になります。

対応のあるデータの場合、対応のないデータと同じ式で計算することもできなくはありません。しかしその場合、2群間に想定される相関関係を全く無視して計算することとなります。それを避けるため、2群の差得点を求め、そこから効果量を計算します。対応のあるデータなど対して2群間の相関を考慮して差得点に基づいた分析を行うことは統計学でしばしば行われます。

回答

Excelの分析ツールはちょっとお節介なところがあって、切片のp値が0.2069と表示されていますが、これは分析には特に必要のない数字です。ここでのp値は、「母集団において0である」可能性を検討しているものです。切片(定数)は0であっても別に構わないことがほとんどんなので、43.992が有意かどうか、そもそも検討自体しないことが普通です。

一方、偏回帰係数ではp値が大切です。もし母集団において偏回帰係数が0の可能性を棄却できないならば(=有意でないならば)、その説明変数は予測にあまり必要のない変数ということになります。従って、偏回帰係数のp値が有意かどうか確認することが大切です。

回答

有意でない偏回帰係数の数に決まりや目安は特にありません。お書きのとおり、大切なのは決定係数になります。
重回帰式(モデル)に使用する説明変数を探索的に決める方法として「ステップワイズ法」というものがあります。
いったん全ての説明変数を分析に投入した後、段階的に有意でないものを 1 つずつ除去していき、最終的に最も決定係数が大きくなるモデルを採用するやり方です。
ステップワイズ法を EXCEL で行う場合、何回か重回帰分析を繰り返す必要がありますが、統計分析パッケージによっては予めオプションで搭載しているものもあります。よく使われる手法です。

申し込み