著作権問題によるコンテンツの除外ドメインデータをJupyterで解析

先日のrequestsデータに続いて「Google 透明性レポート著作権問題によるコンテンツの除外」domainsデータをチェックしますが、容量が10GBになると手間がかかります。様々なドメインがありますので「.jp」ドメインを抽出して確認したいと思います。

domains.csv

このデータは削除申請されたURLの情報になります。リクエスト単位のIDで管理され申請されたURLの状態がまとめられています。

Request ID int64
Domain object
URLs removed int64
URLs that were not in Google's search index
URLs for which we took no action int64
URLs pending review int64
From Abuser bool

CSVを読み込みます。

import pandas as pd
import numpy as np

要約　rapidgatorの削除リクエストが最も多い
sdc['Domain'].describe()
count          279,043,465
unique           2,841,802
top       rapidgator.net
freq              609,554
Name: Domain, dtype: object

データ作り
sdcs = sdc[sdc['Domain'].str.contains(r'.*.jp$')]
grouped = sdcs.groupby('Domain')
type(grouped)

pandas.core.groupby.generic.DataFrameGroupBy

sdpiv = grouped.sum().round(1).sort_values('URLs removed', ascending=False)
sdpiv.head()

50件のみグラフにします。

import matplotlib.pyplot as plt

.jpドメイン TOP 50

~2017年10月

〜2020年3月

.jpドメインの大手ポータルやブログが多いですが、いくつかのサイトはすでに消えていますが.... 続いて何も処理されなかったURLや審査待ちのURL、Googleにインデックスされていないページも含めます。

青が対処しなかったURLになりますが、おそらくブックマーク的な扱いのページと思われます。リーチサイトにあるページをブックマークしているもので削除されない or 申請不備の可能性があります。個別に時系列でチェックする必要がありそうですが、その場合はGoogleのサイトで直接チェックしたほうが早いでしょう。

権利者は料金に含まれないコストで削除申請をしなければいけないと思うと切ない構図。

Google 透明性レポート RequestsをJupyterで解析
https://www.redforce.tokyo/2020/03/google-transparencyreport-jupyter.html

リンク

著作権問題によるコンテンツの除外 – Google 透明性レポート
https://transparencyreport.google.com/copyright/overview?hl=ja
Project Jupyter | Home
https://jupyter.org/

Dela RedForce

このブログを検索