先日のrequestsデータに続いて「Google 透明性レポート 著作権問題によるコンテンツの除外」domainsデータをチェックしますが、容量が10GBになると手間がかかります。様々なドメインがありますので「.jp」ドメインを抽出して確認したいと思います。
CSVを読み込みます。
import pandas as pd
import numpy as np
要約 rapidgatorの削除リクエストが最も多い
sdc['Domain'].describe()
count 279,043,465
unique 2,841,802
top rapidgator.net
freq 609,554
Name: Domain, dtype: object
データ作り
sdcs = sdc[sdc['Domain'].str.contains(r'.*.jp$')]
grouped = sdcs.groupby('Domain')
type(grouped)
pandas.core.groupby.generic.DataFrameGroupBy
sdpiv = grouped.sum().round(1).sort_values('URLs removed', ascending=False)
sdpiv.head()
50件のみグラフにします。
import matplotlib.pyplot as plt
.jpドメイン TOP 50
.jpドメインの大手ポータルやブログが多いですが、いくつかのサイトはすでに消えていますが.... 続いて何も処理されなかったURLや審査待ちのURL、Googleにインデックスされていないページも含めます。
青が対処しなかったURLになりますが、おそらくブックマーク的な扱いのページと思われます。リーチサイトにあるページをブックマークしているもので削除されない or 申請不備の可能性があります。個別に時系列でチェックする必要がありそうですが、その場合はGoogleのサイトで直接チェックしたほうが早いでしょう。
権利者は料金に含まれないコストで削除申請をしなければいけないと思うと切ない構図。
domains.csv
このデータは削除申請されたURLの情報になります。リクエスト単位のIDで管理され申請されたURLの状態がまとめられています。- Request ID int64
- Domain object
- URLs removed int64
- URLs that were not in Google's search index
- URLs for which we took no action int64
- URLs pending review int64
- From Abuser bool
CSVを読み込みます。
import pandas as pd
import numpy as np
要約 rapidgatorの削除リクエストが最も多い
sdc['Domain'].describe()
count 279,043,465
unique 2,841,802
top rapidgator.net
freq 609,554
Name: Domain, dtype: object
データ作り
sdcs = sdc[sdc['Domain'].str.contains(r'.*.jp$')]
grouped = sdcs.groupby('Domain')
type(grouped)
pandas.core.groupby.generic.DataFrameGroupBy
sdpiv = grouped.sum().round(1).sort_values('URLs removed', ascending=False)
sdpiv.head()
50件のみグラフにします。
import matplotlib.pyplot as plt
.jpドメイン TOP 50
![]() |
~2017年10月 |
![]() |
〜2020年3月 |
青が対処しなかったURLになりますが、おそらくブックマーク的な扱いのページと思われます。リーチサイトにあるページをブックマークしているもので削除されない or 申請不備の可能性があります。個別に時系列でチェックする必要がありそうですが、その場合はGoogleのサイトで直接チェックしたほうが早いでしょう。
権利者は料金に含まれないコストで削除申請をしなければいけないと思うと切ない構図。
関連記事
- Google 透明性レポート RequestsをJupyterで解析
https://www.redforce.tokyo/2020/03/google-transparencyreport-jupyter.html
リンク
- 著作権問題によるコンテンツの除外 – Google 透明性レポート
https://transparencyreport.google.com/copyright/overview?hl=ja - Project Jupyter | Home
https://jupyter.org/