原文



Python によるビッグデータ解析

~機械学習を用いた実践的な分析〜

セミナーの概要

 近年、AI やIoT などのデジタル革新が業界問わず急速に進んでおり、データ分析力が企業の競争力、あるいは人材の市場価値に直結する時代になっています。
 本セミナーでは、「Python による統計学入門」で学んだ内容をベースに、より応用的なビッグデータ解析手法 (データマイニング手法) を駆使して、データを武器にできる人材を目指し、事例演習を交えて実践的に学びます。業界は問いません。
 近年データマイニングで最もよく用いられ、プログラミング言語人気ランキング※1 でも1 位を維持している言語 “Python” を用いて、受講者各自1台ずつPCによる演習を行います。(PCはご用意致しますが、持ち込みも可能です)

※1 IEEE Spectrum “The Top Programming Languages 2019”
※2 本セミナーでは、Python を用いたより応用的なビッグデータ解析手法を取り扱うため、基本的な統計解析手法を学習したい方は「実践統計学の基礎」、Python の基本的な使い方を学習したい方は「Python によるデータ解析入門」を別途受講しておくことを推奨します

担当講師

野口 怜

受講対象

・ビッグデータ解析の考え方・活用方法について実践的に学びたい方
・「Python による統計学入門」受講者で、より応用的な手法について学びたい方
・Python の実践的な使い方・活用方法を学びたい方
 (特に数学・プログラミングの知識は必要ありません)

学習内容

1.ビッグデータ解析(データマイニング)とは
  ・ビッグデータとは
  ・従来の統計的手法とビッグデータ解析の違い
  ・AI/機械学習/ディープラーニングの違い
  ・ビッグデータ解析事例
  ・データサイエンティストに求められる知識・スキルセット
  ・ビッグデータ解析の進め方

2.Python について
  ・Python とは
  ・Python 分析環境 ”Jupyter Notebook”
  ・Jupyter Notebook の基本的な使い方
  ・パッケージ/モジュール/クラス/メソッドの違い
  ・分析でよく用いられるパッケージ (Matplotlib, Pandas, scikit-learn など)

3.ビジネスの理解
  ・ビジネスのプロセスと構造の理解
  ・データとビジネスプロセスとのマッピング
  ・現状把握と分析目標の設定
  ・目的変数・説明変数の検討

4.Python によるデータ理解
  ・異常データ(外れ値・異常値)の確認と対応
  ・グラフによる可視化と偏在の確認(例:ヒストグラムで疾患有無を色分け表示して傾向把握)
  ・相関分析による影響因子候補の把握(例:売上と相関する変数は何か

5.Python によるデータ準備
  ・データベースの基本知識(マスタとトランザクション、テーブルの構成 など)
  ・複数データファイルの結合(例:顧客データと注文明細データを紐付ける)
  ・数値データのカテゴリー値化(例:年齢を年代に変換する)
  ・カテゴリー値のダミー変数化(例:男/女を0/1に変換する)

6.モデル構築の基本
  ・機械学習の分類(教師あり学習/教師なし学習/強化学習)
  ・代表的な分析手法の概要と手法の選び方

7.Python によるモデル構築①:教師あり学習による数値予測
  ・重回帰による数値予測と影響因子の絞込み(例:都心の中古マンション価格に与える影響因子を抽出)
  ・データの標準化
  ・オーバーフィッティング(過剰適合)と多重共線性
  ・精度向上に向けたより高度な分析手法の活用(サポートベクタマシン/ニューラルネットワークによる数値予測)

8.Python によるモデル構築②:教師あり学習によるクラス分類
  ・ロジスティック回帰による2クラス分類(例:健康状態や年齢から疾患有無を予測)
  ・決定木による2クラス分類(例:良品/不良品の判別条件から不良影響因子を抽出)
  ・ランダムフォレスト (アンサンブル学習) による精度向上
  ・精度向上に向けたより高度な分析手法の活用 (サポートベクタマシン/ニューラルネットワークによるクラス分類)
  ・モデルの評価指標:Precision(適合率)とRecall(再現率)

9.Python によるモデル構築③:教師なし学習によるクラスタリング
  ・k-means クラスタリングによるデータの層別(例:購入額や来店頻度によって顧客をセグメンテーション)
  ・クラスタリング x 決定木 の組み合わせによる分析(例:顧客セグメンテーション後に、各セグメント間の差異を判別)

10.Python によるモデル構築④:教師なし学習によるアソシエーション分析
  ・アソシエーション分析による頻出パターンの抽出(例:購買データから同時購入されるアイテム群を抽出)

11.Python によるテキストマイニング入門
  ・自然言語処理とテキストマイニング
  ・MeCab を用いた形態素解析
  ・頻出語分析とジップの法則
  ・単語のベクトル化 Word2Vec

(セミナーの内容は、一部変更される場合がございます)

 

・セミナー終了後、希望される方には業務への活用方法等についてご相談に応じます。

 
 
Copyright © データサイエンス研究所 All Rights Reserved.
S