データ取得元に関する説明
今回はデータ収集元の分類です。
「今回はデータ収集するときに調べることについて説明するね」
「はい、お願いします!」
「まず、データ分析するときに、一番重要なのは何のデータを集めるかを決めること」
「何の、ですか……?」
「よくある間違いとして、とりあえず集めてから考えよう、というのがある。これは非常に危険。大体の場合、データが足りなくてもう一度取り直すはめになる。もしくは、必要のないデータまで集めて時間が余計にかかったりする」
「ありそうですね……」
「まず、何について知りたいかを決めよう。そこがスタートになるよ。知りたい情報が決まったら次に、どこから集めるかを調べる必要がある」
「そういえば、分析している人ってどこからデータを集めているんですか? いつも不思議に思っているんですけど? まとめてある場所とかあるんですか?」
「まとめてあれば楽なんだけどね……。データの収集元は色々とあるし、それの取得方法もいくつかある。それらで取得の難易度が変わってくるよ。まずそれについて学ぼう。
データ取得方法は大きく分けて3つ
1.オープンデータ
2.WebAPI
3.Webスクレイピング
難易度は、オープンデータ<WebAPI<Webスクレイピング、の順に上がっていくよ」
「あんまり違いが判らないですけど、どういうものなんですか?」
「それぞれ説明するね。まずはオープンデータから。
オープンデータというのは、誰でも自由に使える公開データのこと。著作権とかの制限がなくて、自由に使っていいよ。データを商業利用できて再配布もできる。
多くの場合は、政府や各自治体が提供している場合が多いね。
グーグルなんかで『オープンデータ 一覧』って検索するとどんなデータがあるのかわかるよ。
NEVERにもまとめられているから見てみるといいね
※https://matome.naver.jp/odai/2135883023685089601
」
「へぇ、そうなんですね、どんなデータが多いんですか?」
「気象情報や人口統計など国の統計データが多いね。
このオープンデータは科学者、研究者が使うことが多いよ。情報量が多くなると、データを探すことが難しくなる。なるべくそういったハードルを下げるために公開されているよ。論文書くときなんかに、とても役に立つね」
「そうなんですか。あっ、もしかして小説家になろうのデータもあるんですか?」
「残念ながら、ないね。あったら楽なんだけど。小説家になろうでデータ収集しようと思ったら2のWebAPIが基本になるよ。足りない部部分をWebスクレイピングに頼ることになる」
「そういえばAPIってなんの略なんですか?」
「APIはApplication Programming Interfaceの略称だね。WebAPIとは個人や団体が用意したWeb上でデータを受け渡し出来るアプリケーション間、システム間のインターフェースのこと」
「?」
「うーん、簡単にイメージすると、申請書かな。
サイトが指定したアドレスに、欲しいデータの項目を規定のフォーマットで書くと、欲しいデータが取得できる。受け取れるデータはあらかじめサイト側が用意したものだけ。またデータだけではなくて、サイトの機能を使えるところもあるよ。例えばTwitterだと投稿機能もあるね。
WebAPIを公開するかはそのサイトの任意。すべてのサイトで利用できるわけではないので注意。WebAPIを公開している有名なサイトだと、Wikipedia、NHKや国会図書館、気象庁、NTTドコモ、YouTube、ニコニコ動画、Instragram、Twitterなどなど多くのサイトがあるよ。小説家になろうも公開している。
またどんなWebAPIがあるかは『WebAPI一覧』や『WebAPIまとめ』で検索するといいといいね」
「なるほど、じゃぁ最後のスクレイピングは何なんですか?」
「スクレイピングは取得したいデータが載っているサイトにアクセスして、そのコンテンツから自分たちの欲しい情報を引き出す手法のことだね。多くはHTMLを返す場合に使われるよ。そのソースコードからデータを抜き出すかな」
「えーっと、ちょっとよくわからないんですが、ソースコードとかHTMLってなんですか?」
「うーんと、僕たちが見ているHPってこんな文字列でできているんだ」
「わ、文字がいっぱい」
「これがHTML。ブラウザのソースコードを見るってところを選ぶと見れるよ。スクレイピングはこの文字列から情報を得るんだ」
「なるほど。そこからとるんだ」
「ちなみに、APIとの違いだけど、
APIはサービス提供側が一定の条件を設けた上で公開している開発者向けの機能だね。
対してスクレイピングは本来はユーザ向けであるHTMLを取得するもので、公式にサポートされているものではないんだ。
そのためやりかたによって負荷を高めたり、許容されていないアクセスを行うと不正アクセス防止法違反によって処罰される可能性もあるよ。このあたりは前に説明したとおりだね
ただ、それでもスクレイピングを行うのは、アクセス先のサービスがAPIを提供していないという問題があるから。APIがあるならばそれを使えばいいけど、APIがないためにスクレイピングに頼らざるを得ない場合がある。また、APIが公開されていたとしても必要な情報がスクレイピングしなければ取得できないと言ったケースもあるよ」
「いろいろと難しいんですね」
「うん。とりあえず欲しいデータが決まったら、オープンデータ、API、スクレイピングのどれで取得するのか決めることだね。できたらオープンデータやAPIがあれば望ましいけど、なかなか難しいね」
「そうなんですか。分かりました」
「今回は以上かな。次からは小説家になろうが提供しているAPIについて説明していこう」
「はい! お願いします」
ちなみに小説家になろうではAPIがあります。
他の小説投稿サイトでAPIを提供しているのは星空文庫くらいです。
そのほかのサイトではありませんね。
個人的には小説家になろうが一番データ分析しやすいサイトです。
サイト構造も分かりやすくてスクレイピングもしやすいです。
他のサイトだとスクレイピングしか選択肢がないです。
まずデータ分析を始めるなら小説家になろうでしょうね。
なれたら他のサイトでも試してみるといいですね。




