ウェブサイトからデータ収集する際の注意事項について(必ず読んでね)
小説家になろうのデータは基本的にインターネットからしか取得できません。
データ取得のため小説家になろうのサーバーにアクセスするのですが、その時のルールがあります。
今回はそういったウェブサイトからデータ収集する際の注意事項について話していきます。
守らないと逮捕されることもあるので注意が必要です。
「それじゃぁ、始めていこうか」
「はい! 先生! 宜しくお願いします!」
「まずデータ分析する際に注意することがあるよ。まずはそれから説明しよう」
「注意することですか?」
「うん、手元にデータがあるときはいいんだけど、今回のようにインターネットからデータを集めるときにはいくつかのルールがあるんだ。それを守らないと最悪の場合、逮捕されちゃう」
「えっ!? 逮捕ですか!」
「うん、注意することは、3つある。
1つ目は、Webデータに連続してアクセスする場合は、必ず1秒以上の間隔をあけること。
2つ目は、取得するサイトの利用規約で『スクレイピング(※1)禁止』と記載されていないか確認すること。
3つ目は、収集したデータをそのまま他人に譲渡(ネット配信なども含む)しないこと。
それぞれ説明するね。
まず1つ目の、Webデータに連続してアクセスする場合は、必ず1秒以上の間隔をあけること。
これは国立国会図書館のデータ収集の資料に書かれたクローラー(※2)の運用ルール(※3)なんだ。その資料にはアクセス間隔を1秒以上あけることが記述されている。
最大1秒に1回のアクセスは、1人がブラウザを使って実現できるアクセス間隔。人力で出来てしまうのであれば、支障が出てもそれは個人の責任ではなく、サーバー側の問題と判断されやすい。もし、プログラムにより、サーバーをダウンさせるようなことがあれば、営業妨害で訴えられる可能性もある。
これに関して興味があれば『LibraHack事件』(※4)を調べてみるといいよ」
「営業妨害ですか……」
「高頻度にアクセスする場合は、相手側に配慮する必要があるってことを覚えておけばいいかな。
さて、2つ目の説明にいくよ。
2つ目は、取得するサイトの利用規約で『スクレイピング禁止』と記載されていないか確認すること。
サイトによっては、こういったデータ収集を禁止しているところもある。
さっきも言ったけど、データ収集で大量にアクセスするとサイトのサーバーに大きな負荷がかかる。それが嫌なサイトは初めから禁止してたりする。
そういったサイトでデータ収集する場合は、利用規約や利用規約違反になり、損害賠償請求などがされる可能もあるよ。
そうでなくとも利用規約はきちんと読んでおいたほうがいいね。
ちなみに、小説家になろうだと、利用規約 第14条 禁止事項の20にこんなことが書かれている。
『当グループ又は他者のサーバに負担をかける行為、もしくは、本サービスの運営やネットワーク・システムに支障を与える行為、又はこれらの恐れのある行為』
スクレイピングは禁止されてないけど、大きな負荷はかけてはいけないようだね」
「利用規約……。きちんと読んでないです……」
「これがなくとも、利用規約はきちんと読んでおいたほうがいいよ。
じゃぁ最後、3つ目。
3つ目は、収集したデータをそのまま他人に譲渡(ネット配信なども含む)しないこと。
これは著作権法がからむんだ。こういったデータ分析は他の人のサイトから情報を取得することになる。そのようなコンテンツをコピーしたり、自分のサーバに保存する行為は、著作権者の同意がない限りは、著作権侵害になる行為なんだ。
だけど著作権法47条の7では、例外規定として、情報解析のための複製等を著作権者の同意なく行うことを認めている。
これが認められるのは情報解析のためだけ。
それ以外で、同意なく他の人のコンテンツを情報収集することは認められてないから、注意が必要。あと集めた情報をそのまま他の人に渡すのは複製になるからダメ。
もし、渡すのなら分析や解析をして加工してからじゃないといけない。取得したデータは自分で何かしらのオリジナリティのある工夫を加える必要がある。例えばグラフ化したり、集計して表にまとめる、といった行為が考えられるね」
「著作権法とかも絡むんですね。いろいろと難しいです」
「まぁ、他の人が作ったデータを集めるからね。ルールがないと何でもありになっちゃうから。サイト管理者に感謝して行わないといけないね。ということで、今日はこの辺にしておこうか」
「はい、ありがとうございます!」
本日のまとめ
※1 ウェブスクレイピング(英: Web scraping)とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。ウェブ・クローラーあるいはウェブ・スパイダーとも呼ばれる。 通常このようなソフトウェアプログラムは低レベルのHTTPを実装することで、もしくはウェブブラウザを埋め込むことによって、WWWのコンテンツを取得する。(wikiより)
※2 クローラー(ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラム)
※3 参考:『国立国会図書館法によるインターネット資料の収集について』参考:http://warp.da.ndl.go.jp/bulk_info.pdf(最終検索2018年11月)
※4 正式名称は『岡崎市立中央図書館事件』。クローラーを使ってデータ収集していた男性が逮捕された事件。
参考:http://librahack.jp/