メディカルデータサイエンス実践力養成講座|カリキュラム


科目 内容
実践統計学

1. データの視覚化(箱ひげ図、ヒストグラム、散布図)

2. 基本統計(平均、分散、標準偏差、Z値、中央値、中央絶対偏差)

3. 分布(正規分布、t分布)

4. 母集団と標本(検定のしくみ、2種類の過誤)

5. t検定(有意確率、区間推定、効果量、検出力)

6. カイ2乗検定(カイ2乗分布、効果量)

7. 相関分析(散布図、積率相関係数、交絡要因と偏相関係数)

8. 重回帰分析(標準化偏回帰係数、決定係数、交互作用のある場合)

医療データ解析の実践

1. Rとは(R、Rstudioのインストール)

2. Rの基本的な使用方法(Rstudio の使用方法、ライブラリー、データの読込み方法)

3. 基本統計量、グラフ(平均、分散、標準偏差、Z値(偏差値))

4. グラフと外れ値(箱ひげ図、ヒストグラム、散布図、外れ値の検出方法)

5. t検定(有意確率、区間推定、効果量、検定力、対応の有無)

6. 2種類の過誤とサンプルサイズ(効果量・検定力・有意水準によるサンプルサイズの設定方法)

7. ノンパラメトリック検定(ウイルコクソン順位和検定、符号付順位和検定)

8. 分散分析(F値、多重比較(テューキー、ボンフェローニ)、対応の有無)

9. 重回帰分析(ダミー回帰)

10.ロジスティック回帰分析(予測値、オッズ比)

11.主成分分析(主成分負荷量、主成分スコア)

ビッグデータ解析

1. Pythonの基礎

  • Python の導入、Jupyter Notebook の使い方、
    各種ライブラリの紹介:Matplotlib/Pandas/Numpy/scikit-learn

2.データ加工の基本

  • データベースの基礎、複数データの結合、ダミー変数化、カテゴリー値化

3.教師あり学習:数値予測

  • 重回帰分析、ニューラルネットワーク、データの標準化
  • オーバーフィッティング(過学習)と多重共線性、モデルの評価(決定係数)

4.教師あり学習:クラス分類

  • ロジスティック回帰、決定木、ランダムフォレスト (アンサンブル学習)
  • サポートベクターマシン、モデルの評価(Accurary, Precision, Recall, F値)

5.教師なし学習:クラスタリング

  • 非階層的クラスタリング(k-means 法)、階層的クラスタリング
  • モデルの評価(Elbow 法、シルエット係数)

6.教師なし学習:アソシエーション分析

  • Aprioriによるアソシエーション分析、モデルの評価 (支持度、確信度、リフト値)

7.自然言語処理とテキストマイニング

  • 形態素解析、頻出語分析とジップの法則、単語のベクトル化
実践力の養成

Ⅰ 統計的推定と検定

  • サンプルサイズの違いによる検定の有効性と結果の解釈
  • 効果量、サンプルサイズ、検定力の関係
  • 倫理審査書類におけるサンプルサイズ設計時の算出方法
  • 介入研究でのクロスオーバーと前後比較試験の違い
  • ランダム化比較試験(RCT)の有用性
  • 中性脂肪値にて分布の偏りが発生した際の対数変換を利用した検定
  • n数が少ない2群間比較におけるバラつきが大きいときの対処法
  • フィッシャーの直接確率法とオッズ比、カイ2 乗検定との違い
  • コホート研究とケースコントロール研究による解釈の違い
  •  10.一元配置分散分析
     11.多重比較(Tukey、Bonferoni、Holm、Dunnett、Wilcoxon)
     12.多重比較法の違いについて
     13.クラスカルウォリス検定、フリードマン検定
     14.二元配置分散分析における単純主効果検定
     15.エビデンスレベルとは

Ⅱ ロジスティック回帰分析

  • 交互作用のある場合、複数のダミー変数を用いた分析
  • 推定したパラメータからオッズ比の推定
  • 超音波検査の各項目から腫瘍が悪性か予測
  • 腫瘍の予測から主要な検査項目を推定
  • ROC曲線によるロジスティック回帰モデルの評価
  • ROC曲線使用時の論文の方法での書き方
  • ROCとは:信号検出理論
  • ROCを用いた、検査での陽性と陰性、カットオフ値の算出
  • 陽性と陰性、感度と特異度とは
  •  10.感度と特異度から陽性的中率の算出
     11.有病率と陽性的中率の関係
     12.ROC曲線からAUCの算出
     13.論文の結果でのAUCの書き方(ロジスティック回帰モデルの評価の度合いの目安)

Ⅲ 生存曲線

  • 生存曲線のしくみ
  • カプランマイヤー曲線(データの要約、中央生存率(MST)、年次生存率)
  • カプランマイヤー曲線におけるヒゲから研究精度を判断
  • ヒゲの代表値:リスク集合
  • ログランク検定による生存曲線の群間比較
  • ログランク検定の論文での書き方
  • 一般化ウィルコクソン検定とログランク検定の違い
  • 生存曲線における治療効果推定のためのコックス比例ハザードモデル
  • ハザード比とオッズ比の違い
  •  10.比例ハザード性とは
     11.ハザード関数と生存確率の関係
     12.コックス比例ハザードモデルから、リスクの解釈
     13.コックス比例ハザードモデルからのハザード比の論文での書き方

Ⅳ 傾向スコア分析

  • 交絡因子への対応方法(共変量・モデル・RCT)
  • 傾向スコア分析とは
  • RCTが困難な希少疾患患者への傾向スコア分析
  • 傾向スコアの推定方法(ロジスティック回帰分析・近年使用された機械学習の紹介)
  • 傾向スコア推定に使用する因子の効果的な選択方法
  • 傾向スコアの妥当性確認方法
  • 傾向スコア算出後の解析手順(マッチング・層別・多変量・逆確率重みづけ(IPWE))
  • マッチングなど、それぞれの調整方法による利点と欠点
  • マッチングにおける、最近傍法と最適マッチング
  •  10.層別解析における、重みづけの種類(ATE・ATT・MMWS)
     11.逆確率重みづけとは
     12.逆確率重みづけ時における極端な重みの回避方法(重みの打ち切り・安定化重み(stabilized weights))

Ⅴ 画像解析

  • 画像解析とメディカルデータサイエンスの基礎
  •   ・画像解析の定義
      ・医療分野における画像解析の重要性
      ・具体的な応用例(腫瘍の早期発見、解剖学的構造の3D可視化・・)
      ・イメージングの技術の特性(MRI、CT、X線、超音波など)
      ・Pythonの基本的な画像操作ライブラリ(PIL, OpenCVなど)の紹介

  • Pythonを使った基本的な画像処理
  •   ・画像の読み込み、表示、保存
      ・画像の色空間、リサイズ、クロップなどの操作
      ・画像のフィルタリングとエッジ検出

  • 特徴抽出と画像分類
  •   ・特徴抽出の基本(SIFT, SURFなど)
      ・テクスチャ、色、形状に基づく特徴
      ・特徴を基にした画像分類(SVM、ランダムフォレストなど)

  • 深層学習と画像解析
  •   ・ニューラルネットワークと深層学習の紹介
      ・畳み込みニューラルネットワーク(CNN)とそのメディカルイメージングへの応用
      ・TensorFlowやPyTorchを使用したCNNの実装

Ⅵ 音声解析

  • 音声解析とメディカルデータサイエンスの基礎
  •   ・音声解析の概念とその医療への応用
      ・デジタル音声の基本的な性質と構造
      ・Pythonの基本的な音声操作ライブラリ(librosa、scipy、pydubなど)の紹介

  • Pythonを使った基本的な音声処理
  •   ・音声の読み込み、再生、保存
      ・音声の波形分析、スペクトログラム分析
      ・音声の特徴抽出(音高、タイミング、メル周波数ケプストラル係数(MFCC)など)

  • 特記事項
  •   ・リカレントニューラルネットワーク(RNN)とその音声解析への適用
      ・音声合成(Text-to-Speech)と音声認識(Speech-to-Text)の最新技術
      ・TensorFlowやPyTorchを使用したRNNの実装

修了認定

課題解決プレゼンテーション