統計学によるデータ分析力養成講座

カリキュラム

 ・初心者の方向けに基礎から解説します。
 ・実践的な事例を用いた数多くの演習により実務に役立つ実践力の習得を目的としています。
 *学習時間は目安です。(個人差があります)  

科目 内容 学習時間
EXCELによる
統計学の基礎1

1. EXCELの基本的な操作

  • 操作の基礎
     行・列の選択方法、並べ替え、セルの移動、絶対参照等分析
  • 分析に必要なEXCEL関数
     算術平均、分散、標準偏差、中央値、最頻値、四分位数、相関係数等
  • データのカウントとクロス集計
     条件指定カウント、並び替え、フィルタ、ピポットテーブル
  • データの可視化
     箱ひげ図、ヒストグラム、散布図、層別散布図、棒グラフ、積み上げ棒グラフ
     円グラフ、折れ線グラフ(対数目盛)、レーダーチャート、バブルチャート
     グラフの調整方法、タイトルの編集、軸・要素の書式設定

2. データの特徴について把握する。

  • グラフの活用方法
     箱ひげ図による外れ値のチェック、ヒストグラムによる分布の把握
  • 平均、バラツキについて(基本統計量)
     平均(算術平均、幾何平均)、分散、標準偏差、Z値、偏差値
     正規分布の理解と活用方法
6
EXCELによる
統計学の基礎2

3. 平均値の差について検討する。

  • 平均値の差の検討(t検定)
     t分布と正規分布の違い
     有意確率ではなく効果量を用いる場合
  • 対応のある場合

4. 二群の関係について把握する。(相関分析)

  • 散布図の活用方法
     散布図の書き方、データ属性による散布図の解釈方法
  • 積率相関係数、順位相関係数
     相関係数のしくみと解釈法、外れ値との相関係数の関係
  • 偏相関係数(交絡要因)
     交絡要因がある場合の相関係数と解釈の方法について

5. 二群以上の因果関係について検討する。(回帰分析)

  • 回帰モデルのしくみ(従属変数、説明変数、決定係数)
     標準化回帰分析、ダミー回帰分析
6
Rによる実践演習1

1. Rの基礎

  • R、Rstudioのインストール、Rstudioの使い方
     知識機械学習とは
  • パッケージの基礎とインストール、使い方
     データの「型」と「変数」、プログラミング関数の基礎、Rデータの取り込み
  • データフレームの扱い
     行の抜き出し、条件指定値の抜出し、行・列の削除、因子設定

2. 統計学基礎

  • データの種類、代表値、散布度(分散、標準偏差)、四分位と箱ひげ図
  • 不偏統計量
  • カテゴリカルデータの要約(クロス集計とtable関数)
  • 複数の統計量の同時算出(apply関数・tapply関数)
  • 積率相関、順位相関、偏相関

3. データの可視化

      ヒストグラム、棒グラフ、+エラーバー、円グラフ、箱ひげ図、折れ線グラフ

      散布図(層別、3次元)、複数グラフの同時プロット、ヒートマップ

4. 統計的推定

  • 母集団と標本
     標本調査と標本抽出方法、区間推定、母平均推定
6
Rによる実践演習2

5. 統計的検定の基礎

  • 検定の考え方
     検定の誤り(第1種の誤り、第2種の誤り)、有意確率(p値)の性質
     効果量、検定力、サンプルサイズ、データの対応

6. 正規性の検定

      正規性とは、正規性の検定の種類、仮説の設定

      コルモゴロフスミノフ検定、シャピロウィルク検定

7. 等分散性の検定

      等分散性とは

      F検定、バートレット検定、ルビーン検定

8. パラメトリック検定

      1標本t検定

      2標本t検定(対応なし・対応あり)

9. 分散分析

      分散分析の基礎、要因計画とデータの準備

      1要因の分散分析(対応なし・対応あり)

6
Rによる実践演習3

10. ノンパラメトリック検定

      カイ二乗検定、フィッシャーの正確確率検定

      ウィルコクソンの順位和検定、符号順位和検定

      クラスカルウォリス検定、フリードマン検定

11. 線形回帰分析

      単回帰分析、重回帰分析、標準化回帰分析

      残差と残差分析、多重共線性

      モデルの評価(赤池情報量基準:AIC)

      質的変数を用いた回帰

12. ロジスティック回帰

      ロジスティック回帰の考え方

      ロジスティック回帰分析(回帰係数、オッズ比、予測値)

6
実践力の養成1

1. パス図

2. 主成分分析

3. 因子分析

      因子分析(最尤法、因子負荷量、因子スコア)

      因子の回転(バリマックス、プロマックス)

4. 階層クラスター分析

      階層クラスター分析(様々な距離、デンドログラム)

5. 共分散構造分析

      共分散構造分析とは、モデルの考え方

      分散、共分散、相関、パス解析と係数

      適合度指標(CFI、TLI、RMSEA、SRMR、情報量基準:AIC・BIC)

逐次モデル (Recursive Model)
非逐次モデル (non-Recursive Model)
MIMICモデル、PLSモデル
2次因子分析
6
実践力の養成2

1. いろいろな検定

      QQプロット、尤度比検定、カッパ係数の検定、並び替え検定

2. 二元配置分散分析  

3. 多重比較、ノンパラ多重比較

      Tukey法、Bonferoni法、Holm法、Dunnett法、ウイルコクソン法

4. 繰り返しデータの群間比較

      介入前後・多時点データ構造

      ANCOVA、MMRM、クロスオーバーデザイン

5. ノンパラの群間比較

      Brunner–Munzel 、Kruskal–Wallis / Friedman 、Steel–Dwass

6. 非正規分布への対処

      天井・床効果、ロバスト推定、ト-ビットモデル

7. メタアナリシス

      メタアナリシスの目的、固定効果モデル vs 変量効果モデル

      異質性(I²)、感度分析

6
実践力の養成3

1. 生存曲線

  生存曲線のしくみ

  カプランマイヤー曲線(データの要約、中央生存率(MST)、年次生存率)

  ログランク検定による生存曲線の群間比較、論文での書き方

  一般化ウィルコクソン検定とログランク検定の違い

  生存曲線における治療効果推定のためのコックス比例ハザードモデル

  ハザード比とオッズ比の違い

  比例ハザード性とは

  ハザード関数と生存確率の関係

  コックス比例ハザードモデルから、リスクの解釈、論文の書き方

2. 傾向スコア分析  

  交絡因子への対応方法(共変量・モデル・RCT)

  RCTが困難な希少疾患患者への傾向スコア分析

  傾向スコアの推定方法(ロジスティック回帰分析・近年使用された機械学習の紹介)

  傾向スコア推定に使用する因子の効果的な選択方法

  傾向スコアの妥当性確認方法

  傾向スコア算出後の解析手順(マッチング・層別・多変量・逆確率重みづけ(IPWE))

  マッチングなど、それぞれの調整方法による利点と欠点

  マッチングにおける、最近傍法と最適マッチング

  層別解析における、重みづけの種類(ATE・ATT・MMWS)

  逆確率重みづけとは

  極端な重みの回避方法(重みの打ち切り・安定化重み(stabilized weights))

6
生成AIによる
実践演習

1. AI連携開発環境の構築、生成AIの連携・使用方法

  生成AIによる統計解析コーディング

2. 生成AIによる可視化コード生成

  生成AIが得意とするインタラクティブなグラフ作成や複雑な図解の自動化

3. デバッグと試行錯誤のプロセス

  失敗例をもとにエラーをAIと対話しながら修正していく実践的プロセス

4. 生成AIによる回帰分析

  教師あり学習のデータ解析を実行する演習

5. 機械学習ケーススタディ

6. 生成AIによる総合演習

  習得した各解析手法について生成AIを用いた演習を実施

6
総合演習

  • 習得した各分析方法を組み合わせた分析  
  • よくある分析の失敗事例と解決方法
  • 論文での掲載方法
6
課題作成時間

各科目学習後の課題作成

10
修了認定

課題解決プレゼンテーション

  • 課題設定、データ前処理、分析手法選択、分析結果の解釈、レポート、プレゼン発表
30
100

*課題作成時間・課題解決プレゼンテーションの学習時間は個人差があります。