Python によるビッグデータ解析

～機械学習を用いた実践的な分析〜

セミナーの概要

　近年、AI やIoT などのデジタル革新が業界問わず急速に進んでおり、データ分析力が企業の競争力、あるいは人材の市場価値に直結する時代になっています。
　本セミナーでは、「Python によるデータ解析入門」で学んだ内容をベースに、より応用的なビッグデータ解析手法 (データマイニング手法) を駆使して、データを武器にできる人材を目指し、事例演習を交えて実践的に学びます。業界は問いません。
　近年データマイニングで最もよく用いられ、プログラミング言語人気ランキング※1 でも1 位を維持している言語 “Python” を用いて、受講者各自1台ずつPCによる演習を行います。（PCはご用意致しますが、持ち込みも可能です）

※1　IEEE Spectrum “The Top Programming Languages 2019”
※2　本セミナーでは、Python を用いたより応用的なビッグデータ解析手法を取り扱うため、基本的な統計解析手法を学習したい方は「実践統計学」、Python の基本的な使い方を学習したい方は「Python によるデータ解析入門」を別途受講しておくことを推奨します。

担当講師

野口　怜

受講対象

・ビッグデータ解析の考え方・活用方法について実践的に学びたい方
・「Python によるデータ解析入門」受講者、または同等の知識を有する方
・Python の実践的な使い方・活用方法を学びたい方
　（特に数学・プログラミングの知識は必要ありません）

学習内容

１．ビッグデータ解析（データマイニング）とは
　　・ビッグデータとは
　　・従来の統計的手法とビッグデータ解析の違い
　　・AI/機械学習/ディープラーニングの違い
　　・ビッグデータ解析事例
　　・データサイエンティストに求められる知識・スキルセット
　　・ビッグデータ解析の進め方

２．Python について
　　・Python とは
　　・Python 分析環境 ”Jupyter Notebook”
　　・Jupyter Notebook の基本的な使い方
　　・パッケージ/モジュール/クラス/メソッドの違い
　　・分析でよく用いられるパッケージ (Matplotlib, Pandas, scikit-learn など)

３．ビジネスの理解
　　・ビジネスのプロセスと構造の理解
　　・データとビジネスプロセスとのマッピング
　　・現状把握と分析目標の設定
　　・目的変数・説明変数の検討

４．Python によるデータ理解
　　・異常データ（外れ値・異常値）の確認と対応
　　・グラフによる可視化と偏在の確認（例：ヒストグラムで疾患有無を色分け表示して傾向把握)
　　・相関分析による影響因子候補の把握（例：売上と相関する変数は何か

５．Python によるデータ準備
　　・データベースの基本知識（マスタとトランザクション、テーブルの構成など）
　　・複数データファイルの結合（例：顧客データと注文明細データを紐付ける）
　　・数値データのカテゴリー値化（例：年齢を年代に変換する）
　　・カテゴリー値のダミー変数化（例：男/女を0/1に変換する）

６．モデル構築の基本
　　・機械学習の分類（教師あり学習/教師なし学習/強化学習）
　　・代表的な分析手法の概要と手法の選び方

７．Python によるモデル構築①：教師あり学習による数値予測
　　・重回帰による数値予測と影響因子の絞込み（例：都心の中古マンション価格に与える影響因子を抽出）
　　・データの標準化
　　・オーバーフィッティング（過剰適合）と多重共線性
　　・精度向上に向けたより高度な分析手法の活用（サポートベクタマシン／ニューラルネットワークによる数値予測）

８．Python によるモデル構築②：教師あり学習によるクラス分類
　　・ロジスティック回帰による2クラス分類（例：健康状態や年齢から疾患有無を予測）
　　・決定木による2クラス分類（例：良品／不良品の判別条件から不良影響因子を抽出）
　　・ランダムフォレスト (アンサンブル学習) による精度向上
　　・精度向上に向けたより高度な分析手法の活用 (サポートベクタマシン／ニューラルネットワークによるクラス分類)
　　・モデルの評価指標：Precision（適合率）とRecall（再現率）

９．Python によるモデル構築③：教師なし学習によるクラスタリング
　　・k-means クラスタリングによるデータの層別（例：購入額や来店頻度によって顧客をセグメンテーション）
　　・クラスタリング x 決定木の組み合わせによる分析（例：顧客セグメンテーション後に、各セグメント間の差異を判別）

10．Python によるモデル構築④：教師なし学習によるアソシエーション分析
　　・アソシエーション分析による頻出パターンの抽出（例：購買データから同時購入されるアイテム群を抽出）

11．Python によるテキストマイニング入門
　　・自然言語処理とテキストマイニング
　　・MeCab を用いた形態素解析
　　・頻出語分析とジップの法則
　　・単語のベクトル化 Word2Vec

（セミナーの内容は、一部変更される場合がございます）

・セミナー終了後、希望される方には業務への活用方法等についてご相談に応じます。

受講者アンケート

入門を受講していましたので何とかついていくことが出来ました。

機械学習は初めてでしたが、興味深く、いろいろと応用できそうです。

パワーポイントの資料が丁寧でキレイで、解説も分かりやすかったです。

ビッグデータのデータ整理の方法が勉強になりました。

セミナーのお申し込みはこちらから