データサイエンス研究所　 : 金融機関向けデータサイエンス実践力養成講座

金融機関向けデータサイエンス実践力養成講座｜カリキュラム

科目	内容
実践統計学	1．データの視覚化（箱ひげ図、ヒストグラム、散布図） 2．基本統計（平均、分散、標準偏差、Z値、中央値、中央絶対偏差） 3．分布（正規分布、ｔ分布） 4．母集団と標本（検定のしくみ、2種類の過誤） 5．t検定（有意確率、区間推定、効果量、検出力） 6．カイ2乗検定（カイ2乗分布、効果量） 7．相関分析（散布図、積率相関係数、交絡要因と偏相関係数） 8．重回帰分析（標準化偏回帰係数、決定係数、交互作用のある場合）
ビジネスにおけるデータ分析の実践	1．Rとは（R、Rstudioのインストール） 2．Rの基本的な使用方法（Rstudio の使用方法、ライブラリー、データの読込み方法） 3．基本統計量、グラフ（平均、分散、標準偏差、Ｚ値（偏差値）） 4．グラフと外れ値（箱ひげ図、ヒストグラム、散布図、外れ値の検出方法） 5．t検定（有意確率、区間推定、効果量、検定力、対応の有無） 6．2種類の過誤とサンプルサイズ（効果量・検定力・有意水準によるサンプルサイズの設定方法） 7．ノンパラメトリック検定（ウイルコクソン順位和検定、符号付順位和検定） 8．重回帰分析（ダミー回帰） 9．ロジスティック回帰分析（予測値、オッズ比） 10．主成分分析（主成分負荷量、主成分スコア）
ビッグデータ解析	1．Pythonの基礎　・Python の導入、Jupyter Notebook の使い方、各種ライブラリの紹介:Matplotlib/Pandas/Numpy/scikit-learn 2．データ加工の基本　・データベースの基礎、複数データの結合、ダミー変数化、カテゴリー値化 3．教師あり学習：数値予測　・重回帰分析、ニューラルネットワーク、データの標準化　・オーバーフィッティング（過学習）と多重共線性、モデルの評価（決定係数） 4．教師あり学習：クラス分類　・ロジスティック回帰、決定木、ランダムフォレスト（アンサンブル学習）　・サポートベクターマシン、モデルの評価（Accurary, Precision, Recall, F値） 5．教師なし学習：クラスタリング　・非階層的クラスタリング（k-means 法）、階層的クラスタリング　・モデルの評価（Elbow 法、シルエット係数） 6．教師なし学習：アソシエーション分析　・Aprioriによるアソシエーション分析、モデルの評価（支持度、確信度、リフト値） 7．自然言語処理とテキストマイニング　・形態素解析、頻出語分析とジップの法則、単語のベクトル化
実践力の養成	1．デジタルマーケティングとは　・デジタル時代の購買行動　・データドリブンとオムニチャネル 2．顧客分類と成約要因の分析　・ロジスティック回帰、決定木による成約要因の分析　・不均衡データへの対応　・クラスタリングによる顧客分類　・クラスタリング x 決定木によるグループ間の差異分析 3．売上と広告効果の分析　・時系列データの可視化　・マーケティングミックスモデリング　・説明変数の追加、加工によるモデルチューニング　・残存効果と非線形性の考慮考慮したマーケティングミックスモデリング　・過学習への対応　・ニューラルネットワークによる精度向上 4．アソシエーション分析による併売分析　・One Hotベクトルへのデータ加工　・アソシエーション分析の評価指標　・アソシエーション分析による併売ルール抽出 5．レコメンデーションモデルの構築　・ユーザーベース協調フィルタリングによるレコメンデーション 6．ECサイトレビュー分析　・形態素解析による単語分割　・頻出単語の集計頻度集計　・ワードクラウドによる特徴語の可視化　・利用可能なテキストデータソース 7．画像解析　　1）画像解析とビジネスデータサイエンスの基礎　　　　・画像解析の概念とそのビジネスへの応用　　　　・デジタル画像の基本的な性質と構造　　　　・Pythonの基本的な画像操作ライブラリ(PIL, OpenCVなど)の紹介　　2）Pythonを使った基本的な画像処理　　　　・画像の読み込み、表示、保存　　　　・画像の色空間、リサイズ、クロップなどの操作　　　　・画像のフィルタリングとエッジ検出　　3）特徴抽出と画像分類　　　　・特徴抽出の基本（SIFT, SURFなど）　　　　・テクスチャ、色、形状に基づく特徴　　　　・特徴を基にした画像分類（SVM、ランダムフォレストなど）　　4）深層学習と画像解析　　　　・ニューラルネットワークと深層学習の紹介　　　　・畳み込みニューラルネットワーク（CNN）とその仕組み　　　　・TensorFlowやPyTorchを使用したCNNの実装 8．音声解析　　1）音声解析とビジネスデータサイエンスの基礎　　　　・音声解析の概念とそのビジネスへの応用　　　　・デジタル音声の基本的な性質と構造　　　　・Pythonの基本的な音声操作ライブラリ（librosa、scipy、pydubなど）の紹介　　2） Pythonを使った基本的な音声処理　　　　・音声の読み込み、再生、保存　　　　・音声の波形分析、スペクトログラム分析　　　　・音声の特徴抽出（音高、タイミング、メル周波数ケプストラル係数（MFCC）など）　　3）音声分類と音声情報処理　　　　・音声を用いた感情分析　　　　・音声認識とその基礎（音素、単語、フレーズの識別）　　　　・Pythonによる音声認識ライブラリ（Google Speech Recognitionなど）の紹介と使用方法　　4）深層学習と音声解析　　　　・リカレントニューラルネットワーク（RNN）とその音声解析への適用　　　　・音声合成（Text-to-Speech）と音声認識（Speech-to-Text）の最新技術　　　　・TensorFlowやPyTorchを使用したRNNの実装 9．オープンデータ　　1）オープンデータとビジネスデータサイエンスの基礎　　　　・オープンデータの概念、利点、そしてビジネスへの応用　　　　・オープンデータソースの概観（政府、非営利組織、商用データベースなど）　　　　・Pythonによる基本的なデータ収集技術（ウェブスクレイピング、APIの利用）　　2）Pythonによるオープンデータの取得と前処理　　　　・PythonによるWeb APIの利用（requests, urllibなど）　　　　・データのクリーニングと前処理（pandas, numpyの利用）　　　　・データの視覚化（matplotlib, seabornなど）　　3）オープンデータを利用した分析技術　　　　・探索的データ分析（EDA）　　　　・データの統計的解析とモデリング（scikit-learnの利用）　　　　・大規模データセットの取扱い（dask, PySparkの紹介）　　4）機械学習とオープンデータ　　　　・教師あり学習と教師なし学習の基本　　　　・特徴選択とモデル検証　　　　・Pythonの主要な機械学習ライブラリ（scikit-learn, TensorFlow, PyTorch）の紹介 10．アンケート調査法　　・調査の分類、バイアス、質問項目の作成法　　・回答形式（単一回答、複数回答、自由記述）、尺度化の方法（順位尺度、段階尺度、ＳＤ法、ＶＡＳ法等）　　・調査結果の集計方法（箱ひげ図、ヒストグラムによる外れ値の検討、散布図による把握）　　・平均値の違いについての検討（ｔ検定、対応の有無、有意確率、効果量、検定力）　　・クロス集計表による検討（カイ2 乗検定、有意確率、効果量）　　・2群以上の因果関係の検討（相関分析、重回帰分析、交絡要因、ダミー変数）　　・サンプルサイズの設定方法（効果量、検定力、有意水準の設定 11．販売予測・需要予測　　・対数グラフによる観察法（差と比率の違い、グラフから予測する方法）　　・指数平滑法　　・時系列分析析（移動平均法、季節指数、TCSI 分離法による予測）　　・回帰モデルによる予測（トレンド、季節指数を用いた予測、ダミー変数を用いた予測 12．意思決定法　　・統計的意思決定法　　・階層化意思決定法（AHP） 13．社内データの分析方法　　・得意先別データの分析　　・人事データの分析
修了認定	課題解決プレゼンテーション