データ分析のステップについて。
今回は分析の手順について紹介します。
「今回はデータ分析の手順について説明するよ。これを知っておくと何をしないといけないかがわかるし、効率よく分析を行うことができる」
「手順……ですか?」
「そう、データ分析と一言でいってもいくつかの段階に分かれているんだ。大体の場合は、こんな風に分けられる。
1. 疑問、仮説、立案
2. 既存分析の調査
3. データ収集元の調査
4. データ収集
5. データ整形
6. データ加工、グラフ化
7. 分析精査
8. まとめ」
「結構いっぱいやることがあるんですね。難しそうです」
「データ分析は単にデータを加工すればいいだけじゃないんだ。まず『1. 疑問、仮説、立案』から説明しようか。
ここの段階は調べたいことについて、定義することが大事。要するに、何を調べたいかを明らかにすること。これをしっかりしておかないと、あとで追加データが必要になったりするから詰めておこう。
考えるのは、何が、どのように、疑問なのか。その上で、何を、知りたいのかをしっかり定義しようね。
例えば、小説家になろうで言えば、自分の小説の評価は他の似たような小説に比べて良いのか、悪いのか。そう疑問に思ったとしよう。
そうすると何を知りたいかだけど、自分の小説と似た作品の評価状況が知りたいことになるね。評価はブックマークや評価ポイント、レビュー、PVなんかが考えられるね。
ここの定義がしっかりしていると後が楽になるよ」
「なるほど、定義ですか。確かに、行き当たりばったりでやると失敗しそうです」
「定義がはっきりさせようね。さて、それが終わったら次に『2. 既存分析の調査』だね。
似たようなことを考える人も多くて、すでにその分析がされている場合も多々ある。既存の調査があればわざわざ分析しなくてもすむね。そうであったら一番楽だよね。
ただ、情報が古かったり、信頼性がない場合もあるから、改めて分析する必要もあるよ」
「確かにすでに色々な分析エッセイがありますね。皆さんすごいです」
「うん、その中に欲しい情報があればいいんだけど、なかった場合は自分で分析する必要がある。そして、その場合まず初めにすることは『3. データ収集元の調査』になるよ。
自分が知りたい内容に対して、何のデータを集めればいいのかを定義したら、それをどこから取得するのかを調べるんだ」
「今度はどこから、ですか?」
「そう、例えば小説家になろうにはデータを提供しているところがある。なろうデベロッパー、というところが小説の情報を提供している。でも、そこにはブックマークや評価ポイントのデータはあるけど、PVのデータはない。その場合は別のところから取得する必要があるんだ。
どのデータが、どこで手に入るかをここで調査しよう。
そしてなるべく取得するデータは固まっているほうがいい」
「何でですか?」
「この前説明したけど、インターネットでデータを取得するときは1秒間に1回のルールがある。なので、1回のアクセスで複数の情報を得られると効率がいい。
例えば1000個のデータを取ろうとしたとき、1回1個のデータしか取得できない場合は1000回アクセスつまり1000/60 = 17分くらいかかることになるね。でも1回100個のデータが取得できれば、10回、10秒で済むね。要するにデータが固まっているほど、多くのデータが早く得られることになる。
データ数が少ないとあまり効果は感じられないけど、その数が膨大になればなるほど効いてくる」
「なるほど!」
「どこから取得するかが決まったら、『4. データ収集』だね。データを取得していくわけだけど、データの取得元によっては、単にダウンロードすればいい場合もあるし、プログラミングをする必要もある。この辺りは次の次くらいで説明するよ」
「プログラミングできるかな」
「できるように説明頑張るよ。さて、それが終わったら『5. データ整形』これはデータ収集と同時にやってもいいし、集め終わってからやってもいいね。収集元によってはすでにデータ整形が終わっている場合もある。ただ、ほとんどの場合は自分で成型することになるけど。
基本的にはデータベースを作る作業になるね。Excelだとピボットテーブルのようなものを作ることになるね。これも後々説明するよ」
「へぇー」
「それができたら『6. データ加工、グラフ化』だね。自分が目的としているデータに対して、パラメータを変えてみたり、計算式を変えてみたり色々とデータをこねくり回すことになるよ。その場合グラフにしてみると傾向が視覚的にわかるので効果的だね。
そして『7. 分析精査』で、最初の疑問に対する答えが出ているかを考える。
もし、ここで満足できる答えが出たら分析は終わり。出なかったら、加工しなおしたり、パラメータを変えたりして答えが出るまで頑張る感じだね。場合によってはまたデータ集めからになっちゃうかな。なので最初の定義や仮説はしっかりしておいたほうがいいね」
「うぅ、ちょっと不安になってきますね」
「まぁ、そんなに難しく考える必要はないかな。そして最後に『8. まとめ』だね。いままで調べたことをまとめておくと、後で役に立つことが多いよ。まとめた内容を発表するのもいいね。感想とかで議論したり、改善点が見つかったりする。
だいたいこれが、分析の一連の流れだけど大丈夫かな? ちょっと駆け足だったけど、理解できたかな」
「な、なんとか。ちょっとやってみないとわからないこともありそうですね」
「分析は何度も失敗して上手になっていくから始めのうちは失敗も多いけど、そのうちうまくなるから気にしないようにね今回はそんなところで」
「はい、ありがとうございます」