著作権問題によるコンテンツの除外 ドメインデータをJupyterで解析

先日のrequestsデータに続いて「Google 透明性レポート 著作権問題によるコンテンツの除外」domainsデータをチェックしますが、容量が10GBになると手間がかかります。様々なドメインがありますので「.jp」ドメインを抽出して確認したいと思います。

domains.csv

このデータは削除申請されたURLの情報になります。リクエスト単位のIDで管理され申請されたURLの状態がまとめられています。
  • Request ID                           int64
  • Domain                              object
  • URLs removed                         int64
  • URLs that were not in Google's search index
  • URLs for which we took no action     int64
  • URLs pending review                  int64
  • From Abuser                           bool 

CSVを読み込みます。 

import pandas as pd
import numpy as np


要約 rapidgatorの削除リクエストが最も多い
sdc['Domain'].describe()
count          279,043,465
unique           2,841,802
top       rapidgator.net
freq              609,554
Name: Domain, dtype: object

データ作り
sdcs = sdc[sdc['Domain'].str.contains(r'.*.jp$')]
grouped = sdcs.groupby('Domain')
type(grouped) 


pandas.core.groupby.generic.DataFrameGroupBy

sdpiv = grouped.sum().round(1).sort_values('URLs removed', ascending=False)
sdpiv.head()


50件のみグラフにします。

import matplotlib.pyplot as plt

.jpドメイン TOP 50

2017年10月までGoogle Search Removals (.jp) Domains グラフ図
~2017年10月

2020年3月までGoogle Search Removals (.jp) Domains グラフ図
〜2020年3月
.jpドメインの大手ポータルやブログが多いですが、いくつかのサイトはすでに消えていますが.... 続いて何も処理されなかったURLや審査待ちのURL、Googleにインデックスされていないページも含めます。

2020年3月までGoogle Search Removals Action(.jp) Domains グラフ図
青が対処しなかったURLになりますが、おそらくブックマーク的な扱いのページと思われます。リーチサイトにあるページをブックマークしているもので削除されない or 申請不備の可能性があります。個別に時系列でチェックする必要がありそうですが、その場合はGoogleのサイトで直接チェックしたほうが早いでしょう。

権利者は料金に含まれないコストで削除申請をしなければいけないと思うと切ない構図。

関連記事

      リンク