データサイエンス研究所　FAQ アーカイブ - データサイエンス研究所　

error Traceback (most recent call last)
<ipython-input-2-ff80a99aad61> in <cell line: 7>()
5
6 chest01 = cv2.imread(‘./JPCNN005.dcm’)
—-> 7 plt.imshow(cv2.cvtColor(chest01, cv2.COLOR_BGR2RGB))
8 plt.show()

error: OpenCV(4.8.0) /io/opencv/modules/imgproc/src/color.cpp:182: error: (-215:Assertion failed) !_src.empty() in function ‘cvtColor’
このエラーは、OpenCVのcv2.imread関数がDICOMファイルを正しく読み込めなかったことを示しています。cv2.imreadは主に画像ファイル（JPEG、PNGなど）を読み込むための関数であり、DICOMファイルの読み込みには対応していません。

DICOMファイルを読み込むには、前述したようにpydicomライブラリを使用する必要があります。以下のコードは、DICOMファイルを読み込んで表示する方法を示しています：

!pip install pydicom pillow

import pydicom
from PIL import Image
import matplotlib.pyplot as plt

# DICOMファイルを読み込む
dcm = pydicom.dcmread(‘./JPCLN005.dcm’)

# PIL形式のイメージに変換
im = Image.fromarray(dcm.pixel_array)

# イメージを表示
plt.imshow(im, cmap=’gray’)
plt.show()

以上で、お試しください。

（7）Web APIによるデータ処理Ⅱ

2023年05月19日カテゴリー：Ⅴ．ｵｰﾌﾟﾝﾃﾞｰﾀによる実践演習

質問　data = requests.get(url).json()ですが、演習2に出てくるこのコードは問題なく実行出来ております。しかし、演習3は実行できません（data以下をコメントアウトしてurlを読み込むまではできるのでurlの変更等ではないと思われます）。一度消去し再度uploadしたノートブックでも同様でした。どのような問題が想起されますでしょうか？

回答

このエラーは、requests.get(url).json() の部分で JSON データを解析しようとした際に、期待される値が見つからなかったことを示しています。これは、指定された URL から有効な JSON データが返されなかった可能性があります。これを解決するには、以下のステップを試してみてください。

response = requests.get(url)
print(response.status_code)

ステータスコードが 200 であれば、リクエストは成功しています。
実際に行ってみますと、404が出てきます。

ステータスコード 404 は、指定された URL にリソースが見つからないことを示しています。これは、URL が間違っているか、リクエストされた日付のデータが存在しない可能性があります。

https://www.jma.go.jp/bosai/amedas/data/point/74447/20230406_00.json

に注目しますと、これは2023年4月6日のデータの取得になっていますが、アメダス・データはすでに提供されていないということになります。

そこで、
20230406を本日20240215にしてみてください。
現在の日付に変更すれば、グラフが描けるはずです。

（6）Web APIによるデータ処理Ⅰ

2023年05月19日カテゴリー：Ⅴ．ｵｰﾌﾟﾝﾃﾞｰﾀによる実践演習

（5）ネットニュースのヘッドライン・画像スクレイピング

2023年05月19日カテゴリー：Ⅴ．ｵｰﾌﾟﾝﾃﾞｰﾀによる実践演習

質問　全画像の取得時ですが、演習でも課題でも、AttributeError: type object "Image! has no attribute "open"のメッセージが出て実行できません。

回答

jupyter notebookで画像取得できますが、ご指摘のプログラムを確認させてください。
具体的な演習番号、課題番号をお知らせください。プログラムのコピーでも構いません。

質問　私はGoogle Colaboratoryを使用しております。ネットニュースのヘッドラインや画像をスクレイピング.ipynbの、演習７と８が上手く実行できません（演習1から6までは問題ありません）。前回は演習８に対してでしたが、今回改めて開いたところ、演習７のicrowlerの実行で、以下のエラーメッセージが出ます。 --------------------------------------------------------------------------- FileNotFoundError Traceback (most recent call last) in () 1 # 画像を表示する 2 for i in range(100): ----> 3 img = Image.open(f"dog_images/{i+1:06}.jpg") 4 img.show() /usr/local/lib/python3.10/dist-packages/PIL/Image.py in open(fp, mode, formats) 3225 3226 if filename: -> 3227 fp = builtins.open(filename, "rb") 3228 exclusive_fp = True 3229 FileNotFoundError: [Errno 2] No such file or directory: 'dog_images/000008.jpg' ※dog_images/000008.jpgは取得出来ておりますまた演習8については、今回の実行では全メールに記載したエラーメッセージは出ずに、実行は出来ているのですが、画像が表示されないので、show_dog_images()が実行できていないようです。

回答

Google Colab上で犬の画像を100枚集めて表示することができます。ただし注意点として、img.show() はColab環境ではうまく動作しないことがあるため、代わりに display() 関数を使用することをお勧めします。
演習７
!pip install icrawler
from icrawler.builtin import BingImageCrawler
crawler = BingImageCrawler(storage={“root_dir”: “dog_images”})
crawler.crawl(keyword=”dog”, max_num=100)
from PIL import Image
from IPython.display import display
import os
# ダウンロードした画像を表示する
for filename in os.listdir(“dog_images”):
img_path = os.path.join(“dog_images”, filename)
img = Image.open(img_path)
display(img)
演習８
BeautifulSoupを使ってGoogle画像検索から犬の画像をスクレイピングし、100枚集めて表示するプログラムは、現時点で、Googleの規約やポリシーに違反する可能性があります。Googleは自動化されたスクレイピングを禁止しており、これに違反するとアクセスがブロックされることがあります。
代わりに、公式のAPIやライブラリを使用して画像を取得することをお勧めします。例えば、演習7の icrawler ライブラリを使用する方法があります。

（4）自治体ポータルサイトからデータ活用

2023年05月19日カテゴリー：Ⅴ．ｵｰﾌﾟﾝﾃﾞｰﾀによる実践演習

（3）政府統計のデータ活用

2023年05月19日カテゴリー：Ⅴ．ｵｰﾌﾟﾝﾃﾞｰﾀによる実践演習

質問　データ件数を出すprint(len(df)について質問があります。講義では左記関数の返り値が47ですが、例えばdf.shapeで実行すると行数48と返ってきます（最初の処理でトップ行は削除済です）。この違いをご教示ください。

回答

PythonのPandasライブラリでデータフレームを操作する際、二つの方法はデータの行数を調べるためによく使用されますが、通常は同じ結果を返すはずです。
len(df)はデータフレームの行数のみを返します。
df.shapeはタプルを返し、その第一要素が行数、第二要素が列数です。
理論上は、両者は同じ行数を返すべきであり、違いがある場合はデータフレームの状態の違いや、コードの実行タイミングの違いによる可能性が高いです。操作を一つずつ確認し、どの段階で行数に差異が生じるのかをご確認いただけますか？

質問　講義内ではDLしたCSVファイルを「メモ帳」で確認とありますが、CSVファイルそのままで内容は確認できますので、メモ帳で開く作業は必要でしょうか？

回答

CSVファイルを立ち上げた場合に、自動的に「メモ帳」が立ち上がる設定の場合を想定しました。

質問　 !pip install japanize-matplotlib→import_matplotlibで日本語表示は可能だと思うのですが、講義のように%matplotlib inlineが必要な理由を教えてください。

回答

%matplotlib inlineは、Jupyter NotebookやJupyter LabなどのIPython環境でMatplotlibを使用する際に、図やグラフをノートブック内に直接表示させるためのマジックコマンドです。!pip install japanize-matplotlibでjapanize-matplotlibをインストールした後、import matplotlib.pyplot as pltを行っても、このマジックコマンドがなければ、作成したグラフや図は自動的にノートブック内に表示されません。

質問　df["65～74歳"] = pd.to_numeric(df["65～74歳"].str.replace("," , ""))を実行時にエラーが出ます。～が全角だからかもしれませんが、試しにCSVから直接コピペしても実行できません（同じ式に75歳以上を入れた場合は問題ありません）。講義画面では～ではなく？をお見受けしたので、それも試しましたが実行できませんでした。解決方法を教えてください。

回答

エラーの原因として考えられるのは、指定している列名がDataFrameに存在しないか、あるいは列名の指定方法に誤りがある可能性があります。また、列名に使用されている文字が全角か半角か、特殊文字が含まれているかどうかも影響する可能性があります。対処方法です。
(1) まず、DataFrame df の列名を確認して、指定しようとしている列が正確に存在するかを確認してください。これは print(df.columns) を実行することで行えます。
(2) 列名が正しく存在することを確認したら、指定する列名が完全に一致するようにしてください。全角文字や半角文字、特殊文字（～や?など）が含まれている場合、正確にそれらを指定する必要があります。

質問　動画の中に『演習1-1 全国の人口推計データのダウンロード』の手順が①～⑥までしかありませんが⑨と⑩の手順はExcelで行ってもよろしいでしょうか。
それとも実際にダウンロードは行わず、関連ファイルのCSVを用いればよろしいのでしょうか。

回答

ご指摘ありがとうございます。
⑨と⑩の手順はExcelなどで行ってください。ただしオープンデータは日々更新されることが考えられますので、ダウンロードしたファイル名が関連ファイル名と同一になりませんが、問題ありません。
実際にダウンロードされない場合は、関連ファイルのCSVを用いれば、それ以降の演習を行うことができます。

質問　df = pd.read_csv("/content/FEH_00200524_230225113928.csv", index_col="全国・都道府県", encoding="shift_jis")
このコードのオプション引数のindex_col="全国・都道府県"はこのcolumnsをインデックス[0]とするということでしょうか。
この演習であれば元データの「表章項目」～「時間軸」までのcolumnsを省いて「全国・都道府県」のcolumnsを先頭のインデックスにするということですか？

回答

index_col=”全国・都道府県”という引数をpd.read_csv()に指定することで、CSVファイルの中の「全国・都道府県」列がデータフレームのインデックス（行の名前やラベル）として使われるようになります。つまり、この列がデータフレームの行を識別するキーとして機能するのです。

他の列、例えば「表章項目」や「時間軸」などについては、このindex_col引数では何も操作をしていません。これらの列は通常通りデータフレームの中にデータ列として読み込まれます。ただし、これらの列をデータフレームから除外したい場合は、usecols 引数を使用して読み込む列を限定することができます。

つまり、index_col引数は特定の列をデータフレームのインデックスに設定するだけであり、他の列には影響を与えません。他の列の取り扱い（除外するかどうかなど）は別途指定が必要です。

原文

（2）オープンデータの加工

（1）オープンデータとは

プレゼンテーション

（9）異常値検知

（8）医療画像データ処理

（7）Web APIによるデータ処理Ⅱ

（6）Web APIによるデータ処理Ⅰ

（5）ネットニュースのヘッドライン・画像スクレイピング

（4）自治体ポータルサイトからデータ活用

（3）政府統計のデータ活用

統計学活用支援サイト