FAQ
< All Topics

実践統計学

Table of Contents

回答

伸び率はパーセント・データですね。幾何平均にするというのは正しいと思います。また箱ひげ図の基本的な意味も正しくご理解されていると思いますが、パーセント・データを箱ひげ図にするのはあまり好ましくないと思います。

四分位数の計算過程でデータの差を取りますが、分母の異なる比率の場合、単純に差を取ると実体と合わなくなります。
例えば、A組(30人)の文系志望者60% 理系志望者40% という場合。
60%―40%=20% 文系志望者が20%多い。
この結論はOKです。分母が同じなので。
次に、A高(300人)の●大学志望5%、B高(600人)の●大学志望5% という場合。
「A高もB高も5%で差は0だ」と思ったら危険です。実体は、A高には15人、B高には30人志望者がいて、推薦枠が一定ならば、圧倒的にB高の方がライバルが多いのです。
このように、パーセント・データは相対的な変動の情報は保有していますが、絶対的な変動の情報は保持していません。他にもいろいろと問題があり、パーセント・データを統計分析に用いる場合は慎重に行わなければなりません(「「定数和制約」といいます)。

基本的なお悩みは、「外れ値を検出したい」ということでよろしいでしょうか。
外れ値というのは文脈で変わってきます。
その文脈を一番よく理解しているのは分析者です。
例えば、月ごとの売上の推移を示す折れ線グラフを作ってみて、ある店舗のある月だけが飛びぬけて高い。調べてみると、そのとき特別な企画を行っている。それならば飛びぬけて高いことの説明が十分につくので、分析者の判断でその月を幾何平均から除外すれば良いのです。
ただし、分析結果を公表するときは除外した理由をきちんと明示し、恣意的な操作と誤解されないようにしましょう。

申し込み