Quantcast
Channel: プログラミング
Viewing all articles
Browse latest Browse all 8482

スクレイピング・クローリングに関する疑問に対する根拠まとめ - Yoshimaru's Blog

$
0
0

自分自身スクレイピングやクローリングで研究したりするのですが,その際にいつも思いつく疑問とそれに対する答え・根拠をまとめます.

スクレイピングする際は自己責任でお願いします.


そもそもスクレイピングは合法?

スクレイピングしたものの著作権は?

  • もちろんWebサイト運営側に帰属.なので著作権保護法の全てが適応される.*2

Webサイトにスクレイピング禁止と書かれている場合は?

  • これはダメ.Webページの利用規約違反になる.そもそもWebページの利用規約はアカウント停止や損害賠償請求が課せれる場合がある.*3

リクエストの間隔は1秒あければよい?

  • これには明確な根拠なし.Librahack事件のとき,1秒間隔でリクエストしていて,これはスクレイピングする人にとっては常識の範囲だったが,サーバの事情で負荷がかかった模様.どんな工夫をしたとしても,向こうがDDOS攻撃だと思ったらこっちが悪くなる.(← おそらくスクレイピングする人が考えるべきことはここだと思う.)

スクレイピングしたデータの解析,ブログや論文などで公開していい?

  • いわゆる二次創作物になる.つまり一次創作(スクレイピングしたWebサイト)を題材に作った創作物にあたる.そして二次創作の著作権に関してはかなりグレー.許可がないと基本ダメ*4

スクレイピングしたデータの解析をもとにしたサービスを提供して金銭を得ていい?

  • 二次創作物で金銭を得る行為なので同人誌関連を見るべきか.*5

結論

商用利用しない場合,ここが肝になるかと.

リクエストの間隔は1秒あければよい?

スクレイピングしようがその解析結果を論文で公表しようが,その際のスクレイピングDDOS攻撃だと認識されてしまえばアウト.こちらがどんだけ気を遣ってアクセスしようが,向こうで実害が起きたら(というか実害だと判断されたら)攻撃されたことになる.あと,いざ責任問題になった時にネットワークの所在とかになるので,所属機関(大学や会社)ではないところからしたほうがいいのでは?

なのでスクレイピングする時に我々にできることは,

  • Webサイトの利用規約に明確にスクレイピング禁止と書いているかを確認
  • 最大限の努力でサーバに負荷がかからないようにコードを書く
  • ネットワークは所属機関に迷惑がかからないように,自宅や自分名義で契約しているネットワークを使用
  • 相手のサーバで異変が起こらないように祈る

くらいかなと思います.


Viewing all articles
Browse latest Browse all 8482

Trending Articles