データ容量は年々増えていくばかりで、データサイエンティストが求められている時代です。データはあるのですが有効性を見つけるのが難しい。Google透明性レポートのデータ量はドメインデータだけで10GBになってました。2017年10月ドメインデータは約6GBです。
CSVファイルは3点とREDME.txtです。 (〜2017年10月)のデータ容量です。
macOSデフォルトの解凍ではエラーになる場合があります。
行数を知るのも嫌になる程ですがそんな時はJupyter
import numpy as np
CSVを読み込みます。
要約データ 著作権者
df_requests['Copyright owner name'].describe()
count 8893336
unique 184693
top BPI LTD MEMBER COMPANIES
freq 304847
Name: Copyright owner name, dtype: object
要約データ 申請者
df_requests['Reporting organization name'].describe()
count 8893363
unique 154001
top AudioLock.NET
freq 1874529
Name: Reporting organization name, dtype: object
Date
2011-12-31 00:00:00+00:00 3197789
2012-12-31 00:00:00+00:00 54334051
2013-12-31 00:00:00+00:00 221953070
2014-12-31 00:00:00+00:00 321708463
2015-12-31 00:00:00+00:00 519966272
2016-12-31 00:00:00+00:00 914786076
2017-12-31 00:00:00+00:00 695231476
2018-12-31 00:00:00+00:00 226595146
2019-12-31 00:00:00+00:00 186488673
2020-12-31 00:00:00+00:00 43851505
Freq: A-DEC, Name: URLs removed, dtype: int64
import matplotlib.pyplot as plt
グラフにしてみます。
2017年9月ごろから急に減っています。
3つのファイルは紐付きされているわけではなくちょっと面倒です。
著作権問題によるコンテンツの除外レポートデータ
google-websearch-copyright-removals,.zip 4GBCSVファイルは3点とREDME.txtです。 (〜2017年10月)のデータ容量です。
macOSデフォルトの解凍ではエラーになる場合があります。
- domains.csv
10.25 GB (6.36 GB) - requests.csv
1.23 GB (710 MB) - urls-no-action-taken.csv
14.66 GB (11.36 GB)
行数を知るのも嫌になる程ですがそんな時はJupyter
容量の少ないrequests.csvから
このデータは削除リクエストされた情報です。Lumenのリンクから著作権者・代理業者、件数のデータです。Jupyterを使ってデータを見ていきます。- Lumen URL
- Copyright owner ID
- Copyright owner name
- Reporting organization ID
- Reporting organization name
- URLs removed
- URLs that were not in Google's search index
- URLs for which we took no action
- URLs pending review
- From Abuser
import numpy as np
CSVを読み込みます。
要約データ 著作権者
df_requests['Copyright owner name'].describe()
count 8893336
unique 184693
top BPI LTD MEMBER COMPANIES
freq 304847
Name: Copyright owner name, dtype: object
要約データ 申請者
df_requests['Reporting organization name'].describe()
count 8893363
unique 154001
top AudioLock.NET
freq 1874529
Name: Reporting organization name, dtype: object
Date
2011-12-31 00:00:00+00:00 3197789
2012-12-31 00:00:00+00:00 54334051
2013-12-31 00:00:00+00:00 221953070
2014-12-31 00:00:00+00:00 321708463
2015-12-31 00:00:00+00:00 519966272
2016-12-31 00:00:00+00:00 914786076
2017-12-31 00:00:00+00:00 695231476
2018-12-31 00:00:00+00:00 226595146
2019-12-31 00:00:00+00:00 186488673
2020-12-31 00:00:00+00:00 43851505
Freq: A-DEC, Name: URLs removed, dtype: int64
import matplotlib.pyplot as plt
グラフにしてみます。
![]() |
〜2019年3月 |
![]() |
〜2017年10月 |
- 2017年9月頃から減っている原因は絞り込んでチェックする必要がありそうです。
- URLs for which we took no actionが2016年から多いので、この頃から著作権に関係ない悪用があるのかもしれないですね。
関連記事
- Google 透明性レポート DomainsをJupyterで解析
https://www.redforce.tokyo/2020/03/google-transparencyreport--domain-jupyter.html
リンク
- 著作権問題によるコンテンツの除外 – Google 透明性レポート
https://transparencyreport.google.com/copyright/overview?hl=ja - Project Jupyter | Home
https://jupyter.org/