Python によるビッグデータ解析
~機械学習を用いた実践的な分析〜
セミナーの概要
近年、AI やIoT などのデジタル革新が業界問わず急速に進んでおり、データ分析力が企業の競争力、あるいは人材の市場価値に直結する時代になっています。
本セミナーでは、「Python によるデータ解析入門」で学んだ内容をベースに、より応用的なビッグデータ解析手法 (データマイニング手法) を駆使して、データを武器にできる人材を目指し、事例演習を交えて実践的に学びます。業界は問いません。
近年データマイニングで最もよく用いられ、プログラミング言語人気ランキング※1 でも1 位を維持している言語 “Python” を用いて、受講者各自1台ずつPCによる演習を行います。(PCはご用意致しますが、持ち込みも可能です)
※1 IEEE Spectrum “The Top Programming Languages 2019”
※2 本セミナーでは、Python を用いたより応用的なビッグデータ解析手法を取り扱うため、基本的な統計解析手法を学習したい方は「実践統計学」、Python の基本的な使い方を学習したい方は「Python によるデータ解析入門」を別途受講しておくことを推奨します。
担当講師
野口 怜
受講対象
・ビッグデータ解析の考え方・活用方法について実践的に学びたい方
・「Python によるデータ解析入門」受講者、または同等の知識を有する方
・Python の実践的な使い方・活用方法を学びたい方
(特に数学・プログラミングの知識は必要ありません)
学習内容
1.ビッグデータ解析(データマイニング)とは
・ビッグデータとは
・従来の統計的手法とビッグデータ解析の違い
・AI/機械学習/ディープラーニングの違い
・ビッグデータ解析事例
・データサイエンティストに求められる知識・スキルセット
・ビッグデータ解析の進め方
2.Python について
・Python とは
・Python 分析環境 ”Jupyter Notebook”
・Jupyter Notebook の基本的な使い方
・パッケージ/モジュール/クラス/メソッドの違い
・分析でよく用いられるパッケージ (Matplotlib, Pandas, scikit-learn など)
3.ビジネスの理解
・ビジネスのプロセスと構造の理解
・データとビジネスプロセスとのマッピング
・現状把握と分析目標の設定
・目的変数・説明変数の検討
4.Python によるデータ理解
・異常データ(外れ値・異常値)の確認と対応
・グラフによる可視化と偏在の確認(例:ヒストグラムで疾患有無を色分け表示して傾向把握)
・相関分析による影響因子候補の把握(例:売上と相関する変数は何か
5.Python によるデータ準備
・データベースの基本知識(マスタとトランザクション、テーブルの構成 など)
・複数データファイルの結合(例:顧客データと注文明細データを紐付ける)
・数値データのカテゴリー値化(例:年齢を年代に変換する)
・カテゴリー値のダミー変数化(例:男/女を0/1に変換する)
6.モデル構築の基本
・機械学習の分類(教師あり学習/教師なし学習/強化学習)
・代表的な分析手法の概要と手法の選び方
7.Python によるモデル構築①:教師あり学習による数値予測
・重回帰による数値予測と影響因子の絞込み(例:都心の中古マンション価格に与える影響因子を抽出)
・データの標準化
・オーバーフィッティング(過剰適合)と多重共線性
・精度向上に向けたより高度な分析手法の活用(サポートベクタマシン/ニューラルネットワークによる数値予測)
8.Python によるモデル構築②:教師あり学習によるクラス分類
・ロジスティック回帰による2クラス分類(例:健康状態や年齢から疾患有無を予測)
・決定木による2クラス分類(例:良品/不良品の判別条件から不良影響因子を抽出)
・ランダムフォレスト (アンサンブル学習) による精度向上
・精度向上に向けたより高度な分析手法の活用 (サポートベクタマシン/ニューラルネットワークによるクラス分類)
・モデルの評価指標:Precision(適合率)とRecall(再現率)
9.Python によるモデル構築③:教師なし学習によるクラスタリング
・k-means クラスタリングによるデータの層別(例:購入額や来店頻度によって顧客をセグメンテーション)
・クラスタリング x 決定木 の組み合わせによる分析(例:顧客セグメンテーション後に、各セグメント間の差異を判別)
10.Python によるモデル構築④:教師なし学習によるアソシエーション分析
・アソシエーション分析による頻出パターンの抽出(例:購買データから同時購入されるアイテム群を抽出)
11.Python によるテキストマイニング入門
・自然言語処理とテキストマイニング
・MeCab を用いた形態素解析
・頻出語分析とジップの法則
・単語のベクトル化 Word2Vec
(セミナーの内容は、一部変更される場合がございます)
・セミナー終了後、希望される方には業務への活用方法等についてご相談に応じます。
受講者アンケート
入門を受講していましたので何とかついていくことが出来ました。
機械学習は初めてでしたが、興味深く、いろいろと応用できそうです。
パワーポイントの資料が丁寧でキレイで、解説も分かりやすかったです。
ビッグデータのデータ整理の方法が勉強になりました。