データサイエンス研究所　biz アーカイブ - データサイエンス研究所　

詳しくはこちら

課題解決プレゼンテーション

2023年12月27日カテゴリー：K．課題解決ﾌﾟﾚｾﾞﾝﾃｰｼｮﾝ

質問　提出時はどのような形式でしょうか？解析に使ったファイル類を全て出すのでしょうか？

回答

プレゼンテーションの提出形式はパワーポイントをご使用ください。
分析に関する部分については、分析手法、分析スクリプト、分析結果、解釈等をパワーポイントへご記載ください。
解析に使用したファイルは不要です。

質問　審査員の質疑応答は何分でしょうか？

回答

20分程度です。

質問　審査員は何名ですか？

回答

原則2名です。

質問　過去の受講者の方々がどういったテーマで取り組まれたのか、テーマ名だけでもよいので教えていただけないでしょうか？

回答

以下、URLご参照ください。
「修了プレゼンテーション例」
　https://datascience.co.jp/reskill/presentation/

質問　日々データ分析に向き合っている方々はRとPythonをどのように使い分けられているのでしょうか？

回答

とても良い質問ですね。
使い分けとしては、いくつかありますが、以下の切り分けがわかりやすいと思います。
Rを使うときは、論文など学術的、科学的な立証に分析を使用する場合に使用することが多いです。また、ｎが大きくないときはRを使用することが多いと思います。
Pythonは、ビックデータの解析で多く使われています。ビックデータに対しての便利な関数がPythonの方が多いため、Pythonを使用することが多いようです。また、ほかのデータからクエリ（データベースに対して）などの命令文で、データをネットワークからリアルタイム（またはローカルでも）で取得して、分析する場合は、圧倒的にPythonの方が楽です。

実践力の養成5

2023年12月27日カテゴリー：J．実践力の養成5

質問　対数のグラフについて質問です。私は経営企画・事業企画の仕事をしていますが、恥ずかしながら対数のグラフは見たことがありませんでした。縦軸が前年比％の方がわかりやすいです。その場合でも、前年比の伸びは未来の業績見通しやCAGR以外はあまり明示しない様に思います。企業の投資家向け開示情報でもあまり見かけない気がします。もう少し使い道についてお教えくださいませんか。

回答

普通目盛と対数目盛は用途によって使い分けます。
講座内の説明にあるように、特に時系列の傾向を見るときは対数目盛の方が把握しやすいと思います。
一般に、プレゼン用等に用いる場合は普通目盛がよく使用されますが、
対数に慣れていない、知らない方が多い等の理由により普通目盛が使用されている場合が多いと思います。

量のデータを時系列に並べるときは、対数目盛の方が判断しやすいですが、比率のデータを時系列に並べるときは、そのまま普通目盛でいいと思います。

比に注目するときは対数目盛、量に注目するときは普通目盛ですが、分析は、比に注目する場合がほとんどですので対数目盛がよく用いられます。
学会などで発表する場合、グラフは分析のために使用する場合が多いので、原則、対数目盛です。
（散布図でも対数目盛が推奨されます）

慣れるまでは、普通目盛と対数目盛によるグラフ両方を作成しどちらが理解しやすいか検討してください。
是非、対数目盛を活用してください。

質問　エアコン売上高について、２２年１～１２月の予測値が分かったあと、テキストP２９の折れ線グラフは最終的にどうしますか。

回答

予測の手順は下記の通りになります。

1）季節指数を求める
2）TCの予測値を求める
　・2年分のデータを用いて12項移動平均により20年7月～21年6月迄の値を求める（P29のオレンジ色の実線）
　・20年7月～21年6月迄の値（P29のオレンジ色の実線）を用いて最小二乗法により、21年7月以降を予測する。
　　目的は22年1月以降の予測ですが、そのためには21年7月から12月の値も予測し、この値を用いることになります。
3）2022年1月以降の予測値は、TCの予測値×季節指数になります。（EXCELシート　TC予測を参照）

P29の売上高実績グラフに22年1月以降を追加してグラフを作成したい場合は、上記３）の予測値を続けて入力します。
12項移動平均は、あくまでも過去の24か月の実績データから傾向（TC）を把握するための分析方法です。
この場合のデータは実績データのみであり予測データは使いません。
従って、22年の予測値を使って12項移動平均を行っても意味はありません。

質問　エアコン売上高について、季節指数は直近の年から取るのが通常だと思いますが、エアコンの様に猛暑・冷夏などの条件が季節指数に影響する場合、過去の年で傾向が類似する年からひっぱってくるのでも良いのでしょうか。

回答

それでいいと思います。
予測方法（トレンド、季節指数）の算出方法は分析者に委ねられます。
例えば、猛暑が予想されるのであれば過去猛暑の年度を、分からなければ過去の平均を使用することが多いと思います
トレンドも、最近急に伸びているようでしたら最近の年度で算出し過去は無視してもいいと思います。

質問　事例2「地域別男性用化粧品市場規模と男性人口」について、質問です。男性人口とホワイトカラー人口の数字って場合によっては重複しているのではないかと思います。（男性かつホワイトカラーの人は両方にカウントされるはず）。こういった重複が発生しうる2つの項目を両方とも説明変数にしてしまうことに対して若干モヤモヤしたのですが、2つの項目に相関がないことが確認できれば、両方とも説明変数にしてしまっても問題ないのでしょうか？

回答

説明変数は独立している変数で構成されるのがベストですが、
例えば、
売上高が性別の影響を受け（例えばデザインが男性受けする）、かつ所得の影響を受ける（高額商品）の場合、
従属変数は売上高、説明変数は性別、所得で分析を行います。
そして分析結果は、回帰式と精度（決定係数）、及び性別と所得がどの程度の割合で売上高に影響を与えているかについて求めます。

2つの項目に”無相関”はあり得ないので、ある程度相関があっても分析を行い、分析結果の解釈時に勘案するのが一般的であると思います。

質問　百貨店の過去３年間の売上高予測について、季節変動の平均は、直近の実績を重視するならば加重平均でも良いとのことですが、その場合の計算式を教えてください。

回答

季節変動の加重は、分析者に委ねられます。
・予想に、直近の季節変動の動きを重視したい場合
　直近に重きを置いた加重平均を行います。

　（例）1年前の実績（a）50％、2年前の実績（ｂ）25％、3年前の実績（ｃ）25％の場合

　　　　　a×0.5+ｂ×0.25∔ℭ×0.25

　となります。上記％は、分析者が恣意的に設定します。

質問　P36で、切片６．２、X＝１．６５・・・とあります。これは２０１６年を１としてナンバリングした時ですね。他方、分析ツールのX値に１，２，３ではなく、2016、2017、・・・・2021と当てはめるのはだめでしょうか。回帰式は異なりますが、予測値としては同じ数値（例えば2022年は17.8）が算出されます。できるだけデータを編集せずにそのまま使えるならば、その方が人為的ミスや誤解が生じにくいと思って、この質問をさせていただいています。

回答

どちらでも同じ答えが出ますので結構です。
分かりやすい方を使用して下さい。

実践力の養成4

2023年12月27日カテゴリー：I．実践力の養成4

質問　Research Question1について私の理解が正しいかどうか確認させてください。分析の前半で相関行列を出しています。特にデザイン、機能、サイズの3指標間の相関係数が0.7台と比較的高い傾向にあります。第1回講義で説明変数相互の席率相関係数は低い方が良いことを学びました。0.8以上ある場合は再検討すべきだというお話だったと思います。今回のResearch Question1では0.7台（0.8未満）なので特に問題として扱わなかったということなのでしょうか？

回答

重回帰分析における説明変数同士の強い相関から生じる問題のことを、「多重共線性の問題」といいます。おっしゃる通り、目安として相関係数が0.8以上のとき、多重共線性を疑います（正しくご理解されています）。Research Question1の相関行列は0.8を下回っているので大丈夫そうです。
多重共線性の問題が生じていると、決定係数がとても低くなります（当てはまりが悪くなります）。実務では、そこで「あれ？」と気が付くことがよくあります。

ご参考までですが、多重共線性を診断する指標としてVIFというものがあります。VIFが10を越えていたら多重共線性を疑いますが、私の計算では、DESIGN 2.6、FUNCTION 2.6、SIZE 2.5、PRICE 1.0で全て大丈夫でした（VIFをEXCELで計算するのは大変なので、統計分析パッケージを使いました）。

質問　ご回答いただいた内容を受けて更に質問したいのですが、今回の調査分析でもしもデザインと機能の相関係数が0.8以上となってしまった場合、どのように分析を進めたらよいのでしょうか？（どちらかを除外して回帰分析を実施すべきかとも思いましたが、もともとのお題が購入意向に効く指標が何か？なのでいずれかの項目を分析から除外するのも適切ではないと感じました）

回答

もし説明変数同士の相関が強く、多重共線性の問題が生じていると考えられる場合、普通は相関の強い2つの変数のどちらかをモデルから除外します。それで決定係数やp値がある程度改善します。研究の目的にもよりますが、重回帰分析は探索的な分析なので、モデルに合わない変数を無理に残すことはありません。
じゃあ、デザインと機能のどちらの変数を残すか？なんですが、これは実際に重回帰分析を実行してみて、決定係数の良い（値の大きい）モデルの方を採用すればいいと思います。説明変数を入れ変えながら重回帰分析を段階的に繰り返し、もっとも決定係数の高くなるモデルを追求するやり方を「ステップワイズ法」といって、重回帰分析ではよく行われます。

質問　また2つ目のケースとして、デザインと機能とサイズの3つすべての指標同士の相関係数が0.8以上だった場合は今回の検証を諦めざるをえないのでしょうか？

回答

このケースだと、決定係数やp値が非常に小さい値になると思います。無理に重回帰分析にしなくても良いと思います（単回帰を試してみて下さい）。

質問　Research Question1についてもう1点質問させてください。回帰分析を実施した結論として機能が最も強く購買意欲に影響していたとありますが、相関行列を見ると機能と購買意欲の相関係数は0.87と最も高いです。回帰分析を実施せずとも相関行列だけで機能が最も強く購買意欲に影響していたという結論を導いてはいけないのでしょうか。（おそらく導いてはいけない気がするのですが、その理由がわからなかったので質問しております）

回答

相関係数とは、変数同士一対一の関係から算出されます。例えば、機能と購買意欲の相関係数は0.87ですが、この0.87にデザインや価格やサイズなど他の変数は全く関係していません。他の変数がいくらだろうと、機能と購買意欲の相関はr=0.87です。
一方、偏回帰係数はそうではありません。ある説明変数（機能）から他の説明変数（デザイン、価格、サイズ）の影響を除いた残差変数によって、従属変数（購買意欲）を予測するものです。従って、他の説明変数の存在によって、偏回帰係数は変わってきます。機能、デザイン、価格、サイズの4つの説明変数の中で、機能が最も影響力が強いと主張したいときは、標準偏回帰係数を計算した方が説得力があると思います。ただ、偏回帰係数の計算には相関係数がかかわっているので、両者は全く無関係ではありません。

質問　恒常和法について、合計が１０１や９９となった場合に、それらの人（ID）の回答はどう取り扱いますか。不適切なデータとして該当IDの回答を全部除外しますか。ほぼ１００なので、これらのIDの回答の傾向に大きな影響は無い様に思えます。特に、サンプル数（ID数）が少ない場合など、できるだけ回答を除外せずに生かしたい場合もあると思います。調査に求められる厳密性や調査内容に依って判断が分かれるところもあるので、一概には言えないと思いますが、基本的な考え方や考慮の仕方についてアドバイス頂けましたら幸いです。

回答

質問　P78の欠損値の処理で、エクセルは①がエラーになることが多い、とのことですが、これは「．」ではなくて、「０」を代わりに入力したらエラーを回避できると思いました。０ですと平均値には影響しませんので。この場合に、何か私が気づいていない不具合が出るのでしたら、お教えくださいますか。※欠損項目ではなくて０を回答する人がいる様な場合は、後から見た時に、そもそもの回答が「０」なのか、欠損値だから０になったのかが分からなくなる、という不都合はある様に思います。

回答

質問　１８－１で、t.test(a$INTENTION ~ group.beauty)の式を書く時に、間違えてc$INTENTIONと入れてしまいました。HighとLowのグループの結果の平均値がそれぞれ変な数値になったので、おかしいと気づいたのですが、いつも気づけるか不安です。Rで各アルファベットに入れた数値が何だったのか、なかなかパッと分からないのですが（スクロールが見辛いのもあります）、これは練習を重ねれば解決することでしょうか。上手く見分けたり管理したりする方法があれば、ぜひ教えてください。

回答

私が自分でやっていることは、平均値をRの別のコマンドやEXCELでも計算してみて、間違っていないか目視で突合します。

質問　Research Question4（テキストP112）で、相関分析でも可、と記載がありましたが、その時の手順はどうなりますか。HighとLowにグループを分けた後で相関行列を作ればよいのかと思いましたが、どのようにコードを書けば良いか分かりませんでした。

回答

次にように書きます。

cor(a$INTENTION,d$beauty)
[1] 0.8844945

購買意欲と美容得点の相関係数は0.884で、強い相関関係がみとめられます。

実践力の養成3

2023年12月27日カテゴリー：H．実践力の養成3

質問　演習10-1についての質問です。以下のURLはどこから導き出されたものなのでしょうか。後段の部分にCityやAPIコードを挿入することは理解したのですが、そもそもの大本となっているURLがどこから来たものなのかわかりませんでした http://api.openweathermap.org/data/2.5/weather?q

回答

OpenWeatherMapのAPIエンドポイント（URL）は、公式のOpenWeatherMap APIドキュメントから導き出されています。特定のデータを取得するためのAPIエンドポイントは、ドキュメントで提供される標準的なURL構造に基づいています。

今回のURL:

http://api.openweathermap.org/data/2.5/weather?q

は、特定の都市の天気情報を取得するためのものです。このURLのベース部分（http://api.openweathermap.org/data/2.5/weather）は、天気情報を取得するためのエンドポイントです。そして、?qの部分はクエリパラメータの始まりを示しており、その後に都市名やその他のパラメータを追加することで、特定の都市の天気情報を取得することができます。

具体的には、以下のように使用します：

http://api.openweathermap.org/data/2.5/weather?q={City Name}&appid={API Key}

ここで、

　・{City Name} は天気情報を取得したい都市の名前に置き換えます。

　・{API Key} はOpenWeatherMapで発行されたAPIキーに置き換えます。

例えば、東京の天気情報を取得したい場合、URLは次のようになります：

http://api.openweathermap.org/data/2.5/weather?q=Tokyo&appid=YOUR_API_KEY

この情報は、OpenWeatherMapの公式ドキュメントの「Current Weather Data」セクションで確認することができます。公式ドキュメントには、利用可能なエンドポイントやクエリパラメータの詳細が記載されていますので、参照してみてください。

質問　解説のP124（str.formatの使用）を記載してますが、P127に記載されているコードでは別のコードが記載されているように見える（params=以降）のですが、これはどう理解したらいいでしょうか。

回答

P124では、Pythonのstr.formatメソッドを使って、URLに必要なパラメータを挿入する方法が紹介しています。これは以下のように記述されます。

city = “Tokyo” api_key = “YOUR_API_KEY” url = “http://api.openweathermap.org/data/2.5/weather?q={}&appid={}”.format(city, api_key)

このコードでは、str.formatメソッドを使用して、プレースホルダ {} に city と api_key の値を挿入しています。この方法は直感的であり、簡単に文字列を構築できます。

P127では、requestsライブラリを使用して、クエリパラメータを設定する方法が紹介しています。この方法は以下のように記述されます。

import requests url = “http://api.openweathermap.org/data/2.5/weather” params = { ‘q’: ‘Tokyo’, ‘appid’: ‘YOUR_API_KEY’ }

response = requests.get(url, params=params)

このコードでは、paramsという辞書を作成し、クエリパラメータを設定しています。requests.getメソッドにparams引数を渡すことで、自動的にURLにクエリパラメータが追加されます。この方法は、URLエンコードを自動的に処理してくれるため、安全かつ簡単にパラメータを追加できます。

両者の違いと理解

　・str.format の使用: シンプルでわかりやすいですが、自分で文字列を構築する必要があります。

　・params の使用: より安全で、可読性が高く、requestsライブラリによって自動的にエンコードされるため、エラーが少なくなります。

どちらの方法も有効ですが、paramsを使った方法の方が、特に多くのパラメータを扱う場合やセキュリティ面で推奨されることが多いです。URLの構築が複雑になった場合でも、paramsを使えばシンプルに保てます。

質問　P124の方のcntを1に置き換えという部分について、cntが何なのかがわからなかったのと、なぜそれを1に設定するかもわかりませんでした。

回答

cntは、OpenWeatherMap APIの一部のエンドポイントで使用されるパラメータで、取得するデータの数を指定します。例えば、複数の日の天気予報を取得する場合などに使用されます。

cnt パラメータについて

1. cntの意味

cntはcountの略で、取得するデータポイントの数を指定します。例えば、5日間の天気予報を取得するために使用されます。

2. 使用例

以下は、cntを使って5日間の天気予報を取得する場合の例です。

city = “Tokyo”

api_key = “YOUR_API_KEY”

url = “http://api.openweathermap.org/data/2.5/forecast/daily?q={}&cnt={}&appid={}”.format(city, 5, api_key)

この例では、Tokyoの5日間の天気予報を取得しています。

cntを1に設定する理由

P124に記載されているように、特定のエンドポイントで取得するデータの数を1に制限するためにcntを1に設定しています。これは、特定の用途において最新のデータポイントのみを取得したい場合などに便利です。

例

もし現在の天気情報（最新のデータポイント）のみを取得したい場合は、cntを1に設定することがあります。例えば、以下のようになります：

city = “Tokyo”

api_key = “YOUR_API_KEY”

url = “http://api.openweathermap.org/data/2.5/forecast/daily?q={}&cnt={}&appid={}”.format(city, 1, api_key)

このURLは、Tokyoの1日分の天気予報（最新のデータポイント）を取得します。

実践力の養成2

2023年12月27日カテゴリー：G．実践力の養成2

質問　「BDS_G実践力の養成２_演習プログラミング.ipynb」を実行していますが、 import cv2のコードでエラーが出ています。解決法をご教示ください。
---------------------------------------------------------------------------
ModuleNotFoundError
Cell In[5], line 3
　（中略）
ModuleNotFoundError: No module named 'cv2'

回答

OpenCVはデフォルトではPythonに含まれていません。インストールするには、通常はpipコマンドを使用します。ただし、Jupyter Notebook環境の場合、!pip install opencv-pythonコマンドを実行することでインストールできます。
以下が成功例です。

質問　Jupyter Notebookで下記コードを実行したら、エラーが出ます。
------------------------------------------------------------------
# [演習2-2]　与えられた画像ファイルから中央の部分をクロップし、
# そのクロップされた部分を指定されたサイズにリサイズして表示するプログラムを作成してください。
from google.colab.patches import cv2_imshow

回答

質問　from google.colab.patches import cv2_imshow のコードを実行すると、jupyter notebookで「ModuleNotFoundError: No module named 'google'」とエラーが出てきます。

回答

どの問題か不明ですが、おそらく、
!pip install opencv-pythonコマンドを実行することでインストールできます。

質問　# [演習3-3]　
SIFTやSURFなどの特徴抽出方法を用いて、与えられた画像からキーポイントと　# ディスクリプタを抽出し、それらのキーポイントを画像上に表示せよ。　
ダウンロードした資料のコードのとおり実行したら、エラーが出ました。　
AttributeError: module 'cv2' has no attribute 'xfeatures2d'　

回答

実践力の養成1

2023年12月27日カテゴリー：F．実践力の養成1

質問　演習2のMMMについて質問です。MMMの目的の１つとして広告投下の最適化が挙げられると思います。「演習2-4: 残存効果・非線形性の考慮」の分析結果から、「より売上に寄与しているように見えるTV CMとWeb広告に注力すべきである。一方で寄与が見られないOOHについては広告費を抑えるべきである」という結論を見出して問題ないかどうかお伺いしたいです。

回答

「効果があった」という主張は言及しやすい（もちろん、擬似相関には注意が必要です）のですが、「効果がなかった」という主張は非常に難しい側面があります。

特に、今回のモデルは良くても決定係数~0.7程度ですから、モデルの精度としてもまだ向上の余地があり、OOHの効果を十分に反映できていない可能性がある点は、分析者として気をつけるべきです。

モデルの結果から何かを主張するのであれば、そのモデルの「信頼性」（≒精度、妥当性）が担保されていることが前提です。

経営層が効果あると思って投下しているのであれば、OOHの効果が見えるようなチューニングが足りていない可能性があります。

例えば、

・OOHの効果が時間遅れで発生する可能性があれば、ラグを考慮して、OOHのデータを1週間や2週間ずつずらしたものを説明変数として加える

・残存効果や非線形効果のチューニングを行う（係数の調整、非線形の式の変更、など）

・特にOOHは屋外であることから、季節性の影響も大きそうなため、「月」との交互作用項を加える

などです。

これらを施しても効果が見えなかったり、あるいは、他のチューニングで決定係数が0.9近くまで上がっているのにOOHの効果が薄かったり、ということであれば、確かにOOHの広告費は抑えた方が良いという主張にも繋がり得ると思います。

また、回帰係数のp値も併せて見た方が良いかと思います。

あとは、MMMの構築目的にも依存すると思います。

費用対効果を見たいのであれば、今回のデータは直接的な予算金額ベースとは異なりますから、もしOOHの広告費が安いのであれば、費用対効果的にはそれほど悪くないという可能性もありえます。

また、時期も含めて、「いつ、何を投下すべきか」検討したい場合には、積極的にOOHの予算削減まで言及しなくても良いように思います。

分析目的と、モデルの信頼性がポイントになってくるかと思います。

質問　macを使っています。
mlxtendをインストールする際に、ターミナルへconda install -c conda-forge mlxtendを貼り付けてインストールすることで、jupiterでもインポートできるのかと思うのですが、ターミナルへ貼り付けてもインストールされている気配がなく。
こちらは、どのように貼り付けすれば良いか？などありますでしょうか？（以前からターミナルへ貼り付けインストールもあまり上手くいっておらず）

回答

私自身もMac環境なのですが、同様の現象が再現できておりません。もう少し詳しくご教示いただければと思います。

ターミナルにて、

conda install -c conda-forge mlxtend

を実行してもうまくいかないとのことですが、ターミナル上ではどのような反応（表示メッセージなど）なのでしょうか。

上記を実行すると、通常、ターミナル上に下記のようなメッセージが流れたのち、インストール継続確認の “y/n?” を聞かれるのですが、何も表示されない状況なのでしょうか。

Retrieving notices: …working… done

Collecting package metadata (current_repodata.json): done

Solving environment: done

あとは、Jupyter Notebook上で、

!conda install -c conda-forge mlxtend（先頭にビックリマークを付与）

の実行もお試しいただけたらと思います。

上記でもうまくいかなければ、ターミナル上から、pip install mlxtendを実行してみてください。

質問　講義ではヒートマップのすべてのセルに数値が入っていますが、私の方は最上行のセルのみ表示されています。講義ビデオと同じ表示にするために何かできる対処はありますか。

回答

相関行列の1行目には正しく数値が表示されているとのこと、seabornライブラリ側のバグの可能性があるかと思います。

下記でも同様の現象が報告されていますが、seabornのバージョンアップで解決されています。

https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10296680025

下記の通り、seabornのバージョンアップを試して見ていただけますでしょうか。

（再掲：Anaconda環境→ Jupyter Notebook上で !conda update seaborn ／それ以外の環境→ Jupyter Notebook上で !pip install seaborn –upgrade）

※バージョンアップ後、Jupyter Notebookの再起動が必要です

上記で解消されない場合、seabornのバージョン、matplotlibのバージョンをご教示いただければと思います。

▼seabornバージョン確認方法

import seaborn as sns

print(sns.__version__)

▼matplotlibのバージョン確認方法

import matplotlib

matplotlib.__version__

質問　月毎の平均値のヒートマップ(映像の4時間26分頃)で、日付の２列目に2016-08-05 16:00:00などの数字が入っています。これは何の数字でしょうか。（2016-08-05が2016年8月5日ならばデータはその日に存在しないですね。）不要な列であれば非表示できますか。

回答

この集計後の「日付」列は、仰せの通り、意味をなさない列です。

非表示化するためには、下記のコードにて、当該日付列をdropしていただければと思います。

df_by_month = df.groupby( df[‘日付’].dt.month ).mean().drop(columns=’日付‘)

また、集計後の「月」の列名が日付のままで違和感ある場合は、下記コードで列名を修正することもできます。

df_by_month = df.groupby( df[‘日付’].dt.month ).mean().drop(columns=’日付’).reset_index().rename(columns={‘日付‘:’月‘})

また、こうなってしまう理由ですが、日付列の「月」で集計を行った際、自分自身の列すなわち「日付」列に対しても（意味なく）月毎の集計を行ってしまっています。

例えば1月の場合、「2015年1月」「2016年1月」「2017年1月」に該当するデータの日付の平均値を無理やり求めており、

その計算結果が 2016年8月5日 16:00:00 になっているものと思われます。月によっては秒数まで端数が出るため、このような細かい数値になっています。

（なお、.mean() 部分を .max() に変えれば、今度は2017年の当該月の月末値が表示されるかと思います）

質問　休日フラグの結果が正しく反映されません。お盆と年末年始の設定は講義と同じで、その次のTrueフラグの設定も同じです。例えば、74行目はTrueになります。休日フラグ以外の数値は講義と同じです。どこに課題がありますでしょうか？

回答

改めて私の方でも実行してみたのですが、動画と同じ結果になっています。

74行目がTrueとのことですが、当該行の日付は2017/1/9になっていますでしょうか。

また、お手数ですが、下記コードを実行いただいて、出力された表のキャプチャも、質問アドレス宛にメールお送りいただけたらと思います。

df[df[‘休日フラグ’]==True]

質問　アプリオリ実行の後の結果出力以降が講義画面と異なります。itemsetsで5行目は(ジュース、牛乳)となり順番が逆です。次のソート結果も所々順番が異なります。結果、rule2のリフト値上位ランキングも異なります。設定は全て同じ様に見えるのですが、どんな解決策が考えられますか。

回答

ライブラリのバージョンに依存している可能性もあるので、下記コードにて出力されるバージョンをご教示ください。

import mlxtend

print(mlxtend.__version__)

質問　評価値を予測したアイテムのランキング（演習０４の一番最後）で、「評価済みの場合はスキップ」を外して実行してみると、「いか」が2.8となり、実際の評価４から大きく乖離しました。これは理解の仕方としては、”まぁこれくらいの乖離はあるかな”ということでしょうか。他は誤差0.5の範囲が程度なので予測の精度はそれなりに良い様に感じました。例えばこのデータを社内の人に説明する際に、「いか」の結果を見ると、説明の仕方によっては、この予測を信頼して良いのか疑義が出る様な気もしましたので、質問させていただきました。

回答

今回の協調フィルタリング手法も含め、レコメンデーションの多くは基本的に教師なし学習なので、レーティングの値まで精度良く合わせに行くのはなかなか難しい部分もあります。

特に、レーティングの値は蓄積された学習データに大きく依存します。

実際、下記コードで「いか」スコアの頻度集計を見ると、評価4の割合が高くなっており（4: 613件、3: 378件、2:265件、1: 133件、0: 68件）、それに引っ張られているであろうことが推測されます。

df_score[‘3:いか’].value_counts()　

そのため、レーティングそのものよりも、相対的な順位（ランク）で捉えた方が良いことも多いです。（レーティングを予測したければ回帰分析の方が適合することもある）

なお、「いか」が2.8で実際の評価4から乖離していたとのこと、私の環境で実行すると「いか」の評価は「3.066」となったのですが、

もし3.066とすると、このユーザー（ID: 0）の中では最もランキングが高いネタであることになり、（定量的にはあまり合っていなくても）定性的な傾向、相対的な位置付けとしては合致していると思います。

講義では割愛しましたが、レコメンデーションにも評価指標は存在しており、

今回のようなレーティング（数値）予測の場合、通常の数値予測と同じような精度指標（MAE: 平均絶対誤差、RSME: 二乗平均平方根誤差など）を用いて、その予測精度を評価することもありますが、

上述の通り、レーティングまで精度良く合わせに行くのは難しい部分もあることから、あくまで「ランキング（順位）」さえ合っていれば良いというスタンスで、ランクの精度指標（MRR: 平均逆順位、nDCG: 減損累積利得など）を用いることもあります。

質問　私のPCで最後の２つのセルを実行すると、以下の様なワーニングが出ます。どのように対処すれば良いでしょうか：FutureWarning: Series.__getitem__ treating keys as positions is deprecated. In a future version, integer keys will always be treated as labels (consistent with DataFrame behavior). （後略）

回答

“FutureWarning” は、将来のライブラリアップデートで廃止予定の関数を用いている場合に、出力されるWarningです。

したがって、現時点（実行できている今時点）では問題は発生していません。

私の環境では当該Warningが出ないため、下記の共有をお願いします。

・使用pandasのバージョン

・エラー文の全体（いただいた略文だけでは、コードの何行目でエラーが起こっているか不明のため）

（参考：pandasバージョンの確認方法）

import pandas as pd

print(pd.__version__)

バージョンに起因する問題が多いように思うので、WarningやError、また動画と結果が異なる、などの場合は、

先のmlxtendのように、下記コードにて出力されるバージョンをご教示ください。

import ライブラリ名

print(ライブラリ名.__version__)

質問　アソシエーション分析やレコメンデーションモデルについて、非常に面白い内容だったのですが、Pythonを使っての分析はどんな時に使いますか？Webサイトにリアルタイムで実装できないですよね？例えばECサイトレビュー分析の特徴語の可視化はSEOのキーワード抽出にも使えると思います。

回答

Webサイトへのリアルタイム実装は十分可能です。

というのも、レコメンデーション分析はそもそも、ユーザーへのアイテム推薦機能としてAmazonやNetflixはじめ、様々なサービスやECサイトで運用されています。

特に、YouTubeやInstagramはサイト自体がPythonベースで作られているようなので、

Pythonで作られたレコメンデーションモデル（実際には講義で扱ったモデルよりももっと複雑と思います）がそのまま組み込まれている可能性もあるかと思います。

アソシエーション分析についても、リアルタイムに頻出パターンのアイテム組合せを提示することは可能ですが、

どちらかというとこちらはシステムに組み込むというよりも、レシートデータを用いて、様々な「意外性のある」同時購入のパターン（例えば、オムツとビール、咳止めとジュース、など）を見出そうとする発見的な分析手法です。

正解データ不要で分析できる（教師なし学習）ため、ひとまずやってみるか、という感じでやることも多いかと思います。

また、私自身の例で恐縮ですが、この手法を他分野適用して、製造業における不良パターンの同時発生分析や、医療における合併症の分析なども行ったことがあります。

ECサイトレビューの特徴語可視化は、例えば大量のアンケートデータにおける自由記述部分を大まかに内容把握したり、直近のニュースやSNSでの話題把握などに活用されています。

SEOキーワード抽出というのも大変興味深い着眼点で、検索用語は本来単語レベルではありますが、

実際には「分析　アソシエーション　用途」などのように、スペース繋ぎで、ある種の文のような形でデータが収集されるかと思うので、本手法を適用する価値は十分あるように思います。

質問アソシエーション分析について質問です。アソシエーション分析の信頼性や有効性は➀信頼度、②支持度、③リフト値で見るということを講義でお話しされています。③リフト値は1.0以上が望ましいということでしたが、➀信頼度や②支持度についても基準値のようなものはあるのでしょうか？

回答

リフト値は1.0以上が望ましいというよりは、式の定義上、1.0以上でないと有効なルールとはいえない（同時購入の方が単独購入よりも購買が促進されるとは言えない）

ということなので、1.0以上は最低条件であり、より値が高いものを見ていく必要があります。

一方、信頼度と支持度は、データの件数に大きく影響を受けます。

例えば、全体のデータ件数=10000件、うち商品A購入＝1000件、うちAもBも購入=100件

→ 信頼度100/1000=0.1、支持度=100/10000=0.01ですが、

商品A購入件数も全体のデータ件数もこの10倍になれば、

→ 信頼度100/10000=0.01、支持度=100/100000=0.001に一気に下がります。

つまり、データによって分母が変わるため、絶対的な比較は難しい指標です。

同一のデータ内で、その大小関係を（相対的に）比較していくことに意味があります。

提出課題5

2023年12月27日カテゴリー：E.Pythonによるﾋﾞｯｸﾞﾃﾞｰﾀ解析

Pythonによるビッグデータ解析

2023年12月27日カテゴリー：E.Pythonによるﾋﾞｯｸﾞﾃﾞｰﾀ解析

質問　相関行列に対するヒートマップで色付けをする件です。講師の方が記載された式を実行したところ、色付けはされましたが、各箱の上に相関係数が記載されませんでした。これはNotebookのバージョンによる異常でしょうか。

回答

df にデータを格納した上で、下記コードを実行しても中の数字は表示されませんでしょうか。

import matplotlib.pyplot as plt

import seaborn as sns

colormap = plt.cm.RdBu_r

sns.heatmap(df.corr(numeric_only=True), linewidths=0.1, linecolor=’white’,

vmax=1.0, vmin=-1.0, cmap=colormap, annot=True, annot_kws={‘fontsize’:8}, fmt=’.2f’)

上記コードの annot=True が箱内への数字を出力するためのオプションです。

また、もしかするとその後の数値書式設定（annot_kws）が悪さをしている可能性もあるので、annot_kws={‘fontsize’:8}, fmt=’.2f’ 部分を削除した上で改めて実行してみてください。

上記でうまくいかない場合、ご指摘の通り、バージョンの問題の可能性があります。

この場合、Jupyter Notebookというよりは、当該描画機能のseabornのバージョンの問題の可能性が高いです。バージョン確認のために以下を実行してみてください。

import seaborn as sns

print(sns.__version__)

私は “0.12.2” でしたので、これよりもかなり古そうであれば、バージョンアップデートをしていただいた方が良いかと思います。

（Anaconda環境→ Jupyter Notebook上で !conda update seaborn ／それ以外の環境→ Jupyter Notebook上で ! pip install seaborn –upgrade）

質問　Pythonの学習に入ってから式の種類が膨大で、全てを覚えるのは困難だと感じています。何をどこまで覚えればよいのか線引きが難しいです。（pairplotやgroupbyなどExcelと比べて優秀な式は覚えようとしていますが）、受講者や実務でPythonをやられている方はどうされているのでしょうか。

回答

コードを全部覚える必要は全くありません。
例えば今回配布したコードは、dfという変数名でデータを入れ替えるだけで（別のExcelデータをdfという変数にread_excelするだけで）先程の相関行列も含め、多くの部分がそのまま動作します。
私もそうですが、多くの分析者は、過去に自分が作ったコードや、Web上に掲載されているコードを流用しています。
逆に言えば、都度、流用しやすいようにコードを作っておく工夫はした方が良いかと思います。（例えば、dfのように、大元となるデータの変数名は共通化しておく、など）

一方で、まさにご指摘の通りで、pairplotやgroupbyなど、非常に有名かつ頻度の高いものは（自ずと）覚えてしまっているケースが多いです。裏を返せば、使っていく中で覚えていけば良いかと思います。
プログラミング言語も、あくまで「言語」の一種なので、継続的、日常的に使っていくことが何よりも大切です。（使用頻度が低いと英語が上手くならないのと類似）
できる限り、毎日に近いくらい触れていくことと、これも自然言語同様、そのままリピート実行するのではなく少し自分でアレンジして実行してみることが極めて重要です。

質問　演習04について質問です。序盤にPython上では統計量や相関行列、ヒストグラムはもともと数値が入っている項目のみを対象にしていて、数値化していない”性別”や”Embarked”の傾向は見ていません。これら2つの項目はロジスティクス回帰を行うタイミングで初めてダミー変数化させていますが、傾向を見たいのであれば統計量や相関行列を見るタイミングで数値化してしまうのもあり得るのかなと思ったのですが、実務の世界ではどうなのでしょうか？

回答

大変良いご指摘です。第一のお答えとしては、お好みになるかなと思います。
これは非常に深い話にも繋がり、そもそもカテゴリー値（名義尺度、順序尺度）の相関係数にどれほど意味があるか？という点にも繋がります。

通常の相関係数（ピアソンの積率相関係数）は本来、数値間の間隔に意味を持つ、数値データ（間隔尺度、比例尺度）が前提です。

したがって、性別の0/1や、順序尺度（アンケート回答の1~5など）では、本来間隔に意味を持たないので、この相関係数自体、あまり意味をなさないことになります。

しかしながら、数値化（ダミー変数化）していれば、とりあえず相関係数の算出自体はできてしまいますし、その算出値には（定量的な厳密性はなくとも）ある程度の傾向は反映されていますので、参考値にはなります。

ただ、そこから得られる情報は、後述するクロス集計でも十分読み取れるため、わざわざ相関係数を出さなくても問題ないケースも多いです（無論、別途カテゴリー値を対象としたデータ観察を丁寧に行うことが前提です）。

一方で、出港地（Embarked）に関しては、講義では手始めとして、C, Q, Sを0, 1, 2と連続値化しましたが、

本来これらには大小関係が定義できないはずですので、この相関係数自体、意味を持ちません。

※1 ただし、出港地の時間的順序関係がC→Q→Sの順で、かつ、この順序関係が目的変数に影響を与えているという前提があれば、相関係数にもある程度意味が出てくるかと思います

※2 なお、この出港地という変数に関しては、厳密には、C or not （0/1）, Q or not (0/1), S or not (0/1) といった、0/1フラグ（one-hotベクトル形式）でのダミー変数化が有効となります

したがって、出港地については、講義でも扱ったように、ダミー変数化した後にクロス集計などで観察するのが一般的です。

ヒストグラムも同様で、カテゴリー値のヒストグラムは単なる棒グラフに他ならない（カテゴリーごとの頻度集計）ので、カテゴリー値を対象としたデータ観察の中で、棒グラフで確認すれば十分です。

ただ、例えばdf.hist()などで、数値データと合わせて一括して確認したい場合には、あらかじめダミー変数化しておく必要があります。

まとめると、カテゴリー値を対象としたデータ観察（クロス集計、棒グラフなど）を丁寧に行なっていれば、事前にダミー変数化する必要は特にありませんが、

先述のように、数値データと一緒くたにして俯瞰的に観察したい場合には、ダミー変数化を事前にしても良いかと思います。

プロセスを定型化するよりも、「何をどう観察するか」の目的意識が重要です。

また、ご参考までに、相関係数の代わりに、カテゴリー値で用いられる類似指標として下記のようなものがあります。

こちらのサイト（https://www.neclearning.jp/sample_text/DB101-1.pdf）が非常にわかりやすいですので、参考にしていただければと思います。

l 数値データ×数値データ・・・ピアソンの積率相関係数
（順序尺度×順序尺度・・・スピアマンの順位相関係数）

l 数値データ×カテゴリー値・・・相関比

l カテゴリー値×カテゴリー値・・・クラメールの連関係数

質問　スライド50Pの相関行列においてコードを実行したところPassengerId以外のデータ数値が表示されない結果となりました。お手本のように全ての数値を表示させたいのですがどのように対応したらよいか、アドバイスいただけますと幸いです。

回答

seabornライブラリ側のバグの可能性があるかと思います。

下記でも同様の現象が報告されていますが、seabornのバージョンアップで解決されています。

https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10296680025

下記の通り、seabornのバージョンアップを試して見ていただけますでしょうか。

（再掲：Anaconda環境→ Jupyter Notebook上で !conda update seaborn ／それ以外の環境→ Jupyter Notebook上で ! pip install seaborn –upgrade）

※バージョンアップ後、Jupyter Notebookの再起動が必要です

上記で解消されない場合、seabornのバージョン、matplotlibのバージョンをご教示いただければと思います。

▼seabornバージョン確認方法

import seaborn as sns

print(sns.__version__)

▼matplotlibのバージョン確認方法

import matplotlib

matplotlib.__version__

質問　重回帰分析について質問です。野口先生は決定係数を”重決定 R2”（Excelで回帰分析を行った場合の指標名）で見られていると思うのですが、他の講師の方々は”補正 R2”を見ていらっしゃると思います。まずは上記理解が正しいかどうかと、もしも正しい場合は、”重決定 R2”と”補正 R2”をデータサイエンティストの方々はどのように使い分けられているのかを知りたいです。

回答

大変鋭いご指摘をありがとうございます。

おっしゃる通りで、決定係数は説明変数が増えれば上昇する性質のものなので、ある説明変数を追加して決定係数が改善した場合に、

追加した説明変数が本質的に目的変数に影響を与えているのか、（本当は影響していないのに）説明変数の数が増えただけの影響なのか、の判断が難しくなります。

従って、厳密には他講師の説明通り、説明変数の数（正確には自由度の数）で補正した補正Rを用いて、追加した説明変数の影響度を見るべきかと思います。

一方で、今回私の講義内にてメインで用いている “scikit-learn” の機械学習ライブラリでは、回帰分析において、この補正R（自由度調整済み決定係数）を求めるメソッド（関数）が用意されていません。

従って、これを求めるには、自作関数を作るか、statsmodelライブラリの回帰分析を用いる必要があります。

“scikit-learn” と “statsmodel” は思想の違いがあり、scikit-learnはどちらかというとデータマイニング的にTrial and Errorを重ねながらクイックに分析を行う位置付けになっている印象です。（例えば多重共線性を評価する指標である “VIF” 統計量も、scikit-learnにはありませんが、statsmodelにはあります）

今回私が補正Rを用いていないのは、あくまでデータマイニング的に分析を行なっており必ずしも厳密性を追求する目的ではない（例えば、追加した説明変数の有意性を示したいわけではない）ために簡便に扱えるscikit-learnのアルゴリズムを用いていることと、また、補正Rの定義式上、差が生じるのは {(n – 1)/(n – k – 1)} の部分なので、データ数が十分あればそこまでの大きなインパクトがないだろうという理由からです。

（参考）

・決定係数 = 1 – (残差平方和)/(偏差平方和)

・自由度調整済み決定係数 = 1 – {(残差平方和)/(偏差平方和)} x {(n – 1)/(n – k – 1)}　　※n: データ数、k: 説明変数の数

繰り返しますが、厳密性を追求する場合（アカデミックや、当該変数の有意性を調べたい場合など）には、補正Rを用いた方が良いです。

提出課題4

2023年12月27日カテゴリー：D.Pythonによるﾃﾞｰﾀ解析入門

Pythonによるデータ解析入門

2023年12月27日カテゴリー：D.Pythonによるﾃﾞｰﾀ解析入門

質問　課題を行う中で、箱ひげ図が作れず。問題点を教えていただけますでしょうか？ labelsは何の設定かがよくわからない状況です。
I = sns.load_dataset("tips")
#設定
fig, ax = plt.subplots()
NAME = I.columns
ax.boxplot(I,showmeans = True, labels =tip )

回答

少々文字化けしていて分かりませんでしたが、labelsにtipとあるので、データセットはtipsだと思いますので、それで説明します。
まず、labelsは何の設定か分からないという部分についてお伝えします。講義で使っていたデータは下記データです。

さらに、講義のときの命令文は

#設定
fig, ax = plt.subplots()
NAME = BOX.columns#線の凡例用に、DataFrameの列名を取得
ax.boxplot(BOX,showmeans = True, labels = NAME)

こうなっていたと思います。BOXという変数に上の表のデータが入っています。
ここで、NAMEという変数には、BOXのカラムが格納されていますね？
カラムとは列のことであり、BOX.columnsによって列名が取得されています。
すなわち、labelsには列名を入れているということが分かると思います。
実際のこの命令を実行したら、箱ひげ図が３つ作成されて、ラベルがShopAとＢとＣになっていたと思います。
ここから、labelsというのはその名の通り、ラベルを振る名前のことです。

さて、tipsのデータで箱ひげ図を作ろうとしてもうまくいかないとことでしたね？
なぜうまくいなかいかというと、tipsのデータは下記の通りです。

まず

> NAME = I.columns
> ax.boxplot(I,showmeans = True, labels =tip )

ここですが、上図の列名がNAMEに格納されています。
続いて、ax.boxplotによって、Ｉという変数の箱ひげ図を作れと命令され、平均値も算出しろ、と命令していますが、上図のとおり、どう見ても平均値の算出とか、四分位数の計算すらできなさそうな列が入っていることが分かります。
そのためエラーが出るのです。
四分位計算して箱ひげ図作って、かつ平均値出せと言われたけど、どうやって出したら良いの？とコンピューター側が困っている、という状態です。
なので、たとえば、total_billとtipとsizeの箱ひげ図を出すとしましょう。
まず複数の列を抽出してほかの変数に格納しましょう。

I2 = I[[“total_bill”, “tip”, “size”]]
I2

この時注意するのは、I[“”]で列名を出せたと思いますが、今回複数なので、複数のときにはST = [“a”,”b”,”c”]と[]で入れてましたよね？
だからここでは[]の中に複数の[]を入れていて、[]の中に[]でリスト化していると思います。カッコの数を間違えるとエラーが出るのでお気を付けください。
これで、I2に数値だけのデータフレームができましたので、箱ひげ図を作ってみましょう。

fig, ax = plt.subplots()
NAME = I2.columns
ax.boxplot(I2,showmeans = True, labels =NAME )

同じ図が出来ましたでしょうか？
もしまた何か分からないことがありましたら、お気軽にお問い合わせください。

質問　seabornのデータを元に課題をおこなっておりますが、pairplotは出せますが、相関が出せない状況です。
I.corr()でエラーが出ますが、何が原因でしょうか？
I = sns.load_dataset("tips")
I.head()
I.corr()

回答

I.corr()は、相関係数を算出する関数です。
相関係数を算出するためには、平均値と標準偏差が必要ですね？
すなわち、量的な計算することが可能な状態ではないと計算できません。
恐らくtipsを使っているのだと思うので、そのデータをまず見てみましょう。

このようなデータがtipsのデータです。
この中から、sexやsmokerなど、平均値と標準偏差が計算できないようなデータが入っています。
Pairplotは動いたとのことですが、図を見ると

こういう感じでしたよね？
これ、自動的に数値として計算できないものは入ってないことが分かりますか？pairplotは自動的に、数値データじゃないものを除外して、図を作ってくれます。しかしながら、corr()は真面目な関数で、愚直に全てで相関を出そうと頑張ってくれる結果、数値データも計算しようとして、混乱してエラーが出てます。
なので、私たち側がcorr()の関数で計算できるように、数値データだけの変数を作ります。

I2 = I[[“total_bill”, “tip”, “size”]]
I2

このように列を複数選択します。
このとき、注意するのは、I[“”]で列名を出せたと思いますが、今回複数なので、複数のときにはST = [“a”,”b”,”c”]と[]で入れてましたよね？
だからここでは[]の中に複数の[]を入れていて、[]の中に[]でリスト化していると思います。
カッコの数を間違えるとエラーが出るのでお気を付けください。
このＩ2に対して、corr()をやってみてください。恐らく問題なく動くと思います。

ちなみに、sexやsmokerをダミー変数としてreplaceしてってことであれば、相関係数も算出可能になります。
またはget_dummiesなどを使って、ダミー変数に変換するとそのまま使えたりします。

質問　Pythonの起動について質問です。Anaconda NavigatorからJupyter notebookをLaunchしてNewをクリックしてもプルダウンメニューにPython3が表示されていません。（Notebook, Terminal, Console, New File, New Folder のみ)　何かインストールが不足していたということでしょうか。

回答

Python3が表示されない場合で考えられるのはPython3がインストールされていないことが原因である可能性が高いと考えられます。
以下のサイトにあります、ダウンロードのページからPython3をダウンロードし、インストールしてみてください。

https://www.python.org/

これによって表示されるようになると思われます。

質問　SAMPLE3.xlsxのSheet２のZ値について、計算式を教えてください。(Sheet1の各値と平均値の差)/(標準偏差)かと思いましたが、計算結果が合致しませんでした。

回答

こちらのZ値の算出は、不偏分散から算出されております。母集団を想定した、分析となるため、回帰分析に使用するＺ値は基本不偏分散を使用します。
恐らく値が一致しなかったのは、STDEV.Pの関数での計算を実施していたのではないかと思います。
RでZ値変換の関数を使用すると、基本母集団想定のバラつきが算出され、Pythonでは基本は普通のバラつきが算出されます。

RSS

原文

課題解決プレゼンテーション

実践力の養成5

実践力の養成4

実践力の養成3

実践力の養成2

実践力の養成1

提出課題5

Pythonによるビッグデータ解析

提出課題4

Pythonによるデータ解析入門

統計学活用支援サイト