自分自身スクレイピングやクローリングで研究したりするのですが,その際にいつも思いつく疑問とそれに対する答え・根拠をまとめます.
- そもそもスクレイピングは合法?
- スクレイピングしたものの著作権は?
- Webサイトにスクレイピング禁止と書かれている場合は?
- リクエストの間隔は1秒あければよい?
- スクレイピングしたデータの解析,ブログや論文などで公開していい?
- スクレイピングしたデータの解析をもとにしたサービスを提供して金銭を得ていい?
- 結論
※スクレイピングする際は自己責任でお願いします.
そもそもスクレイピングは合法?
スクレイピングしたものの著作権は?
Webサイトにスクレイピング禁止と書かれている場合は?
リクエストの間隔は1秒あければよい?
- これには明確な根拠なし.Librahack事件のとき,1秒間隔でリクエストしていて,これはスクレイピングする人にとっては常識の範囲だったが,サーバの事情で負荷がかかった模様.どんな工夫をしたとしても,向こうがDDOS攻撃だと思ったらこっちが悪くなる.(← おそらくスクレイピングする人が考えるべきことはここだと思う.)
スクレイピングしたデータの解析,ブログや論文などで公開していい?
スクレイピングしたデータの解析をもとにしたサービスを提供して金銭を得ていい?
- 二次創作物で金銭を得る行為なので同人誌関連を見るべきか.*5
結論
商用利用しない場合,ここが肝になるかと.
リクエストの間隔は1秒あければよい?
スクレイピングしようがその解析結果を論文で公表しようが,その際のスクレイピングがDDOS攻撃だと認識されてしまえばアウト.こちらがどんだけ気を遣ってアクセスしようが,向こうで実害が起きたら(というか実害だと判断されたら)攻撃されたことになる.あと,いざ責任問題になった時にネットワークの所在とかになるので,所属機関(大学や会社)ではないところからしたほうがいいのでは?
なのでスクレイピングする時に我々にできることは,
- Webサイトの利用規約に明確にスクレイピング禁止と書いているかを確認
- 最大限の努力でサーバに負荷がかからないようにコードを書く
- ネットワークは所属機関に迷惑がかからないように,自宅や自分名義で契約しているネットワークを使用
- 相手のサーバで異変が起こらないように祈る
くらいかなと思います.
*1:https://tokyo-startup-law.or.jp/magazine/category01/unauthorized-access-prohibition-law/
*2:https://www.authense.jp/komon/blog/compliance/2294/
*3:https://it-bengosi.com/blog/seisaisochi/
*4:https://business.best-legal.jp/2772/#:~:text=%E4%BA%8C%E6%AC%A1%E7%9A%84%E8%91%97%E4%BD%9C%E7%89%A9%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8B%E4%BA%8C%E6%AC%A1%E7%9A%84%E8%91%97%E4%BD%9C,%E8%B2%A9%E5%A3%B2%E3%81%99%E3%82%8B%E3%81%93%E3%81%A8%E3%81%AF%E3%81%A7%E3%81%8D%E3%81%BE%E3%81%9B%E3%82%93%E3%80%82