原文


提出課題2

Rによる統計学(入門編)

回答

置き換えるということができます。少しサンプルコードを書いてみましょう
# まず分かりやすいように適当にデータフレームを作ります。
df <- data.frame(a = as.factor (c(1, 5, 7, 8)),b = c('A', 'B', 'C', 'D'), c = c(14, 14, 19, 22),d = c(3, 7, 14, 11))

# 内容を確認します。
df

# 14となっているところを24に書き換えてみましょう
# こうすると14という部分は3つ(C列とD列)ありますが、3つとも24に置き換わります。
df[df == 14] <- 24

# 最初のdfをもう一度コピペして、データフレームを作ってください。
#14を24に置き換えするときに、列を指定できます。ここではC列のみです
df['c'][df['c'] == 14] <- 24

# 最初のdfをもう一度コピペして、データフレームを作ってください。
# 今度は14と19を24に書き換えてみましょう
df[df == 14 | df == 19] <- 24

使い方は分かりましたでしょうか。

「消す」とおっしゃっていた部分ですが、データフレームは全ての値が入ってないと動きませんので、消すということは難しいです。できてNAに置き換えるとかでしょうか。

回答

そちらは日本語が文字化けしている状態かと思います。特にMacで見られることが多いようです。
その場合は、たとえば棒グラフなら(引数は省略しています)、ggplot()+geom_bar()としますよね?
この後ろ、+geom_test()+theme_bw(base_family = “HiraKakuProN-W3”)をつけてみてください。
ggplot()+geom_bar()+geom_test()+theme_bw(base_family = “HiraKakuProN-W3”)
とすると文字化けが収まるかもしれません。

ただ上記コマンドはもう古くなっていて、動かない可能性もあります。
Googleで「Mac R 文字化け」と調べると設定での変更方法も図入りで示しているサイトもあるので、ご自身のバージョンでも動くかお試しいただければ幸いです。

回答

クリップボードからのデータ読み込みエラーですが、同じくこちらもMacだけでときどきみられる「 incomplete final line」のエラーですね。いくつか対処方法がありますので、羅列いたします。
1.まず読み込むデータの数値部分を、セルの書式設定で数値にしっかりしてみてください。
2.「1」でダメだった場合、データの一番下の一行空白になっている行も含めてクリップボードにコピーしてみて読み込みしてみてください。
3.大体はなぜか「2」の空白行込みにしてコピーしたら動くのですが、もし「2」でダメならば、一旦メモ帳に張り付けて、UTF-8に変えてみてください。
4.「3」もダメだった場合は、「3」で作成したテキストを保存して、テキストファイルを読み込む形にし、クリップボードからの読み込みは無理かもしれません。

回答

現在のテキストファイルは、ANSIコードになっています。
WinでUTF8か16にもできますが、ANSIで文字化けしているならば、UTFでも恐らく文字化けするかと思います。
Mac側で設定しないとWin側で行うのは難しいです。
こちらにサイトがあります。
https://ameblo.jp/re-freckle/entry-12576531509.html
またはマックのサイトにも説明があります。
https://support.apple.com/ja-jp/guide/textedit/txted1028/mac

上述の通り、ご面倒ではありますが、Mac側でご対応いただかないと難しいかもしれません。
一応UTF-16を用意しておきましたので、お送りしますが、恐らく文字化けするかと思いますので、
上述のサイト、またはご面倒ではございますが、ご自身で検索して見やすいサイトを選んでいただき、
Macのテキストエディタのエンコーディングの設定をよろしくお願いいたします。

回答


特定の行抽出は、指定する行番号が明確なときには
変数をaとして説明すると

#1行目、3列目のデータを抽出
 a[1,3]

#3行目を抽出
 a[3,]

#3~5行目を抽出
 a[3:5,]

このように選ぶこともできます。
またはfilter関数やselect関数などを使用することが多いように思います。

回答

はい、上書きされます。

提出課題1

回答


受講者の方によっては、お仕事のデータに適用してみたいという方もいらっしゃいますので、データは、当方で作成したデータはなく自由にしております。
課題の目的は、分析方法の習得確認ですので、仮想データは何でも結構です。
(例えば、5,6,8,7,4・・等)

回答

2群のデータ数が同じでなくても、t検定自体は実行できます。p値も普通に解釈してください。
t検定自体は実行できますが、検定力がもっとも高くなるのは、(他が一定であれば)2群のデータ数が同じときです。「検定力」というのは、「本当は2群の平均値に差がある..のに、誤って差がない..と結論づけてしまうエラー」を犯さないパワーです。
どのくらいまで許容されるかにお答えするのは難しいですが、検定力のことを考えると出来るだけ同数にした方が良いと言えます。

回答

いいえ、スライドNO.57の計算式は、2群サンプル数が同じときのみ適用できる簡易の式です。
Excelはあくまで表計算ソフトなので、効果量まで計算する関数を搭載していません。
2群のサンプル数が同じでない場合は、Rなどの統計分析パッケージをご利用下さい。

実践統計学

回答

伸び率はパーセント・データですね。幾何平均にするというのは正しいと思います。また箱ひげ図の基本的な意味も正しくご理解されていると思いますが、パーセント・データを箱ひげ図にするのはあまり好ましくないと思います。

四分位数の計算過程でデータの差を取りますが、分母の異なる比率の場合、単純に差を取ると実体と合わなくなります。
例えば、A組(30人)の文系志望者60% 理系志望者40% という場合。
60%―40%=20% 文系志望者が20%多い。
この結論はOKです。分母が同じなので。
次に、A高(300人)の●大学志望5%、B高(600人)の●大学志望5% という場合。
「A高もB高も5%で差は0だ」と思ったら危険です。実体は、A高には15人、B高には30人志望者がいて、推薦枠が一定ならば、圧倒的にB高の方がライバルが多いのです。
このように、パーセント・データは相対的な変動の情報は保有していますが、絶対的な変動の情報は保持していません。他にもいろいろと問題があり、パーセント・データを統計分析に用いる場合は慎重に行わなければなりません(「「定数和制約」といいます)。

基本的なお悩みは、「外れ値を検出したい」ということでよろしいでしょうか。
外れ値というのは文脈で変わってきます。
その文脈を一番よく理解しているのは分析者です。
例えば、月ごとの売上の推移を示す折れ線グラフを作ってみて、ある店舗のある月だけが飛びぬけて高い。調べてみると、そのとき特別な企画を行っている。それならば飛びぬけて高いことの説明が十分につくので、分析者の判断でその月を幾何平均から除外すれば良いのです。
ただし、分析結果を公表するときは除外した理由をきちんと明示し、恣意的な操作と誤解されないようにしましょう。

回答

まず、効果量の基本的な考え方ですが、母平均の差μ1-μ2を母標準偏差σで割った母効果量δを標本から推定するものです。

 

対応のないデータの場合、分子には2つの標本平均の差を用います。分母は、2群の標本分散をその標本サイズで重みづけて平均をとった量を用います。2群に共通な分散に対応する標本統計量として合理的な量になります。

対応のあるデータの場合、対応のないデータと同じ式で計算することもできなくはありません。しかしその場合、2群間に想定される相関関係を全く無視して計算することとなります。それを避けるため、2群の差得点を求め、そこから効果量を計算します。対応のあるデータなど対して2群間の相関を考慮して差得点に基づいた分析を行うことは統計学でしばしば行われます。

回答

Excelの分析ツールはちょっとお節介なところがあって、切片のp値が0.2069と表示されていますが、これは分析には特に必要のない数字です。ここでのp値は、「母集団において0である」可能性を検討しているものです。切片(定数)は0であっても別に構わないことがほとんどんなので、43.992が有意かどうか、そもそも検討自体しないことが普通です。

一方、偏回帰係数ではp値が大切です。もし母集団において偏回帰係数が0の可能性を棄却できないならば(=有意でないならば)、その説明変数は予測にあまり必要のない変数ということになります。従って、偏回帰係数のp値が有意かどうか確認することが大切です。

回答

有意でない偏回帰係数の数に決まりや目安は特にありません。お書きのとおり、大切なのは決定係数になります。
重回帰式(モデル)に使用する説明変数を探索的に決める方法として「ステップワイズ法」というものがあります。
いったん全ての説明変数を分析に投入した後、段階的に有意でないものを 1 つずつ除去していき、最終的に最も決定係数が大きくなるモデルを採用するやり方です。
ステップワイズ法を EXCEL で行う場合、何回か重回帰分析を繰り返す必要がありますが、統計分析パッケージによっては予めオプションで搭載しているものもあります。よく使われる手法です。

   統計学活用支援サイト