Pythonによるビッグデータ解析

更新日2025年7月14日

Table of Contents

質問　相関行列に対するヒートマップで色付けをする件です。講師の方が記載された式を実行したところ、色付けはされましたが、各箱の上に相関係数が記載されませんでした。これはNotebookのバージョンによる異常でしょうか。

回答

df にデータを格納した上で、下記コードを実行しても中の数字は表示されませんでしょうか。

import matplotlib.pyplot as plt

import seaborn as sns

colormap = plt.cm.RdBu_r

sns.heatmap(df.corr(numeric_only=True), linewidths=0.1, linecolor=’white’,

vmax=1.0, vmin=-1.0, cmap=colormap, annot=True, annot_kws={‘fontsize’:8}, fmt=’.2f’)

上記コードの annot=True が箱内への数字を出力するためのオプションです。

また、もしかするとその後の数値書式設定（annot_kws）が悪さをしている可能性もあるので、annot_kws={‘fontsize’:8}, fmt=’.2f’ 部分を削除した上で改めて実行してみてください。

上記でうまくいかない場合、ご指摘の通り、バージョンの問題の可能性があります。

この場合、Jupyter Notebookというよりは、当該描画機能のseabornのバージョンの問題の可能性が高いです。バージョン確認のために以下を実行してみてください。

import seaborn as sns

print(sns.__version__)

私は “0.12.2” でしたので、これよりもかなり古そうであれば、バージョンアップデートをしていただいた方が良いかと思います。

（Anaconda環境→ Jupyter Notebook上で !conda update seaborn ／それ以外の環境→ Jupyter Notebook上で ! pip install seaborn –upgrade）

質問　Pythonの学習に入ってから式の種類が膨大で、全てを覚えるのは困難だと感じています。何をどこまで覚えればよいのか線引きが難しいです。（pairplotやgroupbyなどExcelと比べて優秀な式は覚えようとしていますが）、受講者や実務でPythonをやられている方はどうされているのでしょうか。

回答

コードを全部覚える必要は全くありません。
例えば今回配布したコードは、dfという変数名でデータを入れ替えるだけで（別のExcelデータをdfという変数にread_excelするだけで）先程の相関行列も含め、多くの部分がそのまま動作します。
私もそうですが、多くの分析者は、過去に自分が作ったコードや、Web上に掲載されているコードを流用しています。
逆に言えば、都度、流用しやすいようにコードを作っておく工夫はした方が良いかと思います。（例えば、dfのように、大元となるデータの変数名は共通化しておく、など）

一方で、まさにご指摘の通りで、pairplotやgroupbyなど、非常に有名かつ頻度の高いものは（自ずと）覚えてしまっているケースが多いです。裏を返せば、使っていく中で覚えていけば良いかと思います。
プログラミング言語も、あくまで「言語」の一種なので、継続的、日常的に使っていくことが何よりも大切です。（使用頻度が低いと英語が上手くならないのと類似）
できる限り、毎日に近いくらい触れていくことと、これも自然言語同様、そのままリピート実行するのではなく少し自分でアレンジして実行してみることが極めて重要です。

質問　演習04について質問です。序盤にPython上では統計量や相関行列、ヒストグラムはもともと数値が入っている項目のみを対象にしていて、数値化していない”性別”や”Embarked”の傾向は見ていません。これら2つの項目はロジスティクス回帰を行うタイミングで初めてダミー変数化させていますが、傾向を見たいのであれば統計量や相関行列を見るタイミングで数値化してしまうのもあり得るのかなと思ったのですが、実務の世界ではどうなのでしょうか？

回答

大変良いご指摘です。第一のお答えとしては、お好みになるかなと思います。
これは非常に深い話にも繋がり、そもそもカテゴリー値（名義尺度、順序尺度）の相関係数にどれほど意味があるか？という点にも繋がります。

通常の相関係数（ピアソンの積率相関係数）は本来、数値間の間隔に意味を持つ、数値データ（間隔尺度、比例尺度）が前提です。

したがって、性別の0/1や、順序尺度（アンケート回答の1~5など）では、本来間隔に意味を持たないので、この相関係数自体、あまり意味をなさないことになります。

しかしながら、数値化（ダミー変数化）していれば、とりあえず相関係数の算出自体はできてしまいますし、その算出値には（定量的な厳密性はなくとも）ある程度の傾向は反映されていますので、参考値にはなります。

ただ、そこから得られる情報は、後述するクロス集計でも十分読み取れるため、わざわざ相関係数を出さなくても問題ないケースも多いです（無論、別途カテゴリー値を対象としたデータ観察を丁寧に行うことが前提です）。

一方で、出港地（Embarked）に関しては、講義では手始めとして、C, Q, Sを0, 1, 2と連続値化しましたが、

本来これらには大小関係が定義できないはずですので、この相関係数自体、意味を持ちません。

※1 ただし、出港地の時間的順序関係がC→Q→Sの順で、かつ、この順序関係が目的変数に影響を与えているという前提があれば、相関係数にもある程度意味が出てくるかと思います

※2 なお、この出港地という変数に関しては、厳密には、C or not （0/1）, Q or not (0/1), S or not (0/1) といった、0/1フラグ（one-hotベクトル形式）でのダミー変数化が有効となります

したがって、出港地については、講義でも扱ったように、ダミー変数化した後にクロス集計などで観察するのが一般的です。

ヒストグラムも同様で、カテゴリー値のヒストグラムは単なる棒グラフに他ならない（カテゴリーごとの頻度集計）ので、カテゴリー値を対象としたデータ観察の中で、棒グラフで確認すれば十分です。

ただ、例えばdf.hist()などで、数値データと合わせて一括して確認したい場合には、あらかじめダミー変数化しておく必要があります。

まとめると、カテゴリー値を対象としたデータ観察（クロス集計、棒グラフなど）を丁寧に行なっていれば、事前にダミー変数化する必要は特にありませんが、

先述のように、数値データと一緒くたにして俯瞰的に観察したい場合には、ダミー変数化を事前にしても良いかと思います。

プロセスを定型化するよりも、「何をどう観察するか」の目的意識が重要です。

また、ご参考までに、相関係数の代わりに、カテゴリー値で用いられる類似指標として下記のようなものがあります。

こちらのサイト（https://www.neclearning.jp/sample_text/DB101-1.pdf）が非常にわかりやすいですので、参考にしていただければと思います。

l 数値データ×数値データ・・・ピアソンの積率相関係数
（順序尺度×順序尺度・・・スピアマンの順位相関係数）

l 数値データ×カテゴリー値・・・相関比

l カテゴリー値×カテゴリー値・・・クラメールの連関係数

質問　スライド50Pの相関行列においてコードを実行したところPassengerId以外のデータ数値が表示されない結果となりました。お手本のように全ての数値を表示させたいのですがどのように対応したらよいか、アドバイスいただけますと幸いです。

回答

seabornライブラリ側のバグの可能性があるかと思います。

下記でも同様の現象が報告されていますが、seabornのバージョンアップで解決されています。

https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10296680025

下記の通り、seabornのバージョンアップを試して見ていただけますでしょうか。

（再掲：Anaconda環境→ Jupyter Notebook上で !conda update seaborn ／それ以外の環境→ Jupyter Notebook上で ! pip install seaborn –upgrade）

※バージョンアップ後、Jupyter Notebookの再起動が必要です

上記で解消されない場合、seabornのバージョン、matplotlibのバージョンをご教示いただければと思います。

▼seabornバージョン確認方法

import seaborn as sns

print(sns.__version__)

▼matplotlibのバージョン確認方法

import matplotlib

matplotlib.__version__

質問　重回帰分析について質問です。野口先生は決定係数を”重決定 R2”（Excelで回帰分析を行った場合の指標名）で見られていると思うのですが、他の講師の方々は”補正 R2”を見ていらっしゃると思います。まずは上記理解が正しいかどうかと、もしも正しい場合は、”重決定 R2”と”補正 R2”をデータサイエンティストの方々はどのように使い分けられているのかを知りたいです。

回答

大変鋭いご指摘をありがとうございます。

おっしゃる通りで、決定係数は説明変数が増えれば上昇する性質のものなので、ある説明変数を追加して決定係数が改善した場合に、

追加した説明変数が本質的に目的変数に影響を与えているのか、（本当は影響していないのに）説明変数の数が増えただけの影響なのか、の判断が難しくなります。

従って、厳密には他講師の説明通り、説明変数の数（正確には自由度の数）で補正した補正Rを用いて、追加した説明変数の影響度を見るべきかと思います。

一方で、今回私の講義内にてメインで用いている “scikit-learn” の機械学習ライブラリでは、回帰分析において、この補正R（自由度調整済み決定係数）を求めるメソッド（関数）が用意されていません。

従って、これを求めるには、自作関数を作るか、statsmodelライブラリの回帰分析を用いる必要があります。

“scikit-learn” と “statsmodel” は思想の違いがあり、scikit-learnはどちらかというとデータマイニング的にTrial and Errorを重ねながらクイックに分析を行う位置付けになっている印象です。（例えば多重共線性を評価する指標である “VIF” 統計量も、scikit-learnにはありませんが、statsmodelにはあります）

今回私が補正Rを用いていないのは、あくまでデータマイニング的に分析を行なっており必ずしも厳密性を追求する目的ではない（例えば、追加した説明変数の有意性を示したいわけではない）ために簡便に扱えるscikit-learnのアルゴリズムを用いていることと、また、補正Rの定義式上、差が生じるのは {(n – 1)/(n – k – 1)} の部分なので、データ数が十分あればそこまでの大きなインパクトがないだろうという理由からです。

（参考）

・決定係数 = 1 – (残差平方和)/(偏差平方和)

・自由度調整済み決定係数 = 1 – {(残差平方和)/(偏差平方和)} x {(n – 1)/(n – k – 1)}　　※n: データ数、k: 説明変数の数

繰り返しますが、厳密性を追求する場合（アカデミックや、当該変数の有意性を調べたい場合など）には、補正Rを用いた方が良いです。

質問　単回帰分析のところで、出力できる係数がモデルによって異なるとの説明化がありますが出力可能な係数は何かを知る方法はありますか？
※単回帰モデルの場合は
⑴編回帰係数
⑵切片
⑶決定係数

回答

前提として偏回帰係数、切片、決定係数のうち、決定係数は役割が特殊です。

そこで先に偏回帰係数と切片のような係数について説明します。
これらはモデルの式を構成する係数です。
モデルによって式の形が異なるため、出力できる係数も異なるのです。
どこを出力できるかはモデルの式を見たうえで数学的な知識があればわかりますが、少し難易度が高いです。そのうえ複雑なモデルでは係数を出力したところで解釈が難しいためあまり意味がない場合もあります。

一方、決定係数は学習したモデルの予測精度を評価する係数であり、こちらはとても重要です。学習を終えたモデルが役に立つものか判断する材料になるためです。
予測精度を評価する関数を「評価関数」と呼び、モデルによって適切な評価関数は異なるため調べていただく必要があります。
ですので「モデル名　評価」などのように検索し、どうすれば出力できるか逐一調べなければなりません。

以上のように、何を出力できるかは一概に言うことができません。そのため動画内で紹介しているモデルの出力すべき部分を、手間ではありますが少しずつ覚えていただくのが良いかと思います。

ビジネスデータサイエンス実践力養成講座

A．実践統計学

B．Rによる統計学（入門編）

C．Rによる統計学（実践編）

D.Pythonによるﾃﾞｰﾀ解析入門

E.Pythonによるﾋﾞｯｸﾞﾃﾞｰﾀ解析

F．実践力の養成1

G．実践力の養成2

H．実践力の養成3

I．実践力の養成4

J．実践力の養成5

K．課題解決ﾌﾟﾚｾﾞﾝﾃｰｼｮﾝ

Pythonによるビッグデータ解析