今回はビッグデータ活用が進む現代において非常に重要な技術の1つ、Webクローリングとその注意点について整理してみました。
Webクローリングとは
Webクローリング(以下、クローリング)とはWeblio辞書に示されている通り、自動・機械的にWebページの内容を取得する技術のことです。
クローリングとは、ロボット型検索エンジンにおいて、プログラムがインターネット上のリンクを辿ってWebサイトを巡回し、Webページ上の情報を複製・保存することである。
クローリングを行うためのプログラムは特に「クローラ」あるいは「スパイダー」と呼ばれている。クローラが複製したデータは、検索エンジンのデータベースに追加される。クローラが定期的にクローリングを行うことで、検索エンジンはWebページに追加・更新された情報も検索することが可能になっている。
Googleをはじめとする検索エンジンなどは日常的にWebクローリングをして、検索結果に反映させるプログラムを運用しています。
また、このクローリング技術はビッグデータの効率的な収集においてもたいへん重要となります。この技術を使うことで、今まで手作業で取得していた情報を高速かつ大量に取得できるようになるため、より多くのデータから調査や分析ができるのです。
さらに、クローリングの技術を利用すれば、あらかじめ設定したキーワードをもとにページ全体(もしくは必要な箇所)を自動で取得できます。自動でインターネットから欲しい情報を収集できるようになるため、日々の業務を効率化することも不可能ではありません。
クローリングの落とし穴、罪に問われることも
クローリングは便利な反面、関連する法令を守らないと罪に問われる可能性があります。
落とし穴1.威力業務妨害罪
実際にクローリングする際は特定サイトへの大量アクセスをするケースが多いのですが、大量アクセスをした結果アクセス先のサイトがダウンしてしまった場合、威力業務妨害罪に該当するため罰せられます。実際に過去逮捕者も出ています。
岡崎市中央図書館事件:のちに当該サイトダウンはバグであったことが判明し不起訴
落とし穴2.著作権侵害
Webの記事やTwitterなどは著作物に該当することが多く、利用者は著作物を扱っているとの自覚を持ったうえで収集する必要があります。
代表的なものでは「著作物の複製権侵害」「著作物の公衆送信権侵害」があります。クローリングで情報を取得すること自体が「複製権侵害」にあたり、また取得したデータを自分のWebページに掲載したり不特定多数がアクセス可能な環境に保存した場合は公衆送信権の侵害に該当するため注意が必要です。
ルールを守ってクローリングしよう
対策1.紳士的なクローリング
クローリングには紳士協定があり、
- 1秒に1回程度のアクセス頻度であること
- 応答があってから新しい要求をするようプログラムを組んでいること
という、2つを満たしていれば「礼儀正しい」「常識的」と判断される様子です。
また、特定のサイトでは利用規約により「クローリング不可」としている場合もあります。クローリングする際はサイトの利用規約もしっかり確認したうえで実行しましょう。
対策2.クローリングしたデータをそのまま転載しない
先に述べたように、クローリングによって取得したデータを「そのまま」利用、転載することは著作権法により禁止されています。ただし、著作権法第47条の7(情報解析のための複製等)で、
著作物は、電子計算機による情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の統計的な解析を行うことをいう。以下この条において同じ。)を行うことを目的とする場合には、必要と認められる限度において、記録媒体への記録又は翻案(これにより創作した二次的著作物の記録を含む。)を行うことができる。ただし、情報解析を行う者の用に供するために作成されたデータベースの著作物については、この限りでない。
とあります。つまり分析目的でありその必要限度以内であればPCなどに複製・保存してもよいということです。
また、そのまま転載することは著作物の公衆送信に該当してしまうためNGですが、クローリングしたデータを集計・加工しサイト上などで公開することは問題ありません。
いかがでしたでしょうか。
クローラは比較的簡単に作れるプログラムであり、作ることで業務を効率化できます。ただし一方で、しっかりと法令を確認したうえで実施されることを強くお勧めします。
※今回ご紹介した法令はあくまでも一例であり、個別の事例については法律の専門家へご相談下さい