表示調整
閉じる
挿絵表示切替ボタン
▼配色
▼行間
▼文字サイズ
▼メニューバー
×閉じる

ブックマークに追加しました

設定
0/400
設定を保存しました
エラーが発生しました
※文字以内
ブックマークを解除しました。

エラーが発生しました。

エラーの原因がわからない場合はヘルプセンターをご確認ください。

ブックマーク機能を使うにはログインしてください。
5/15

データ分析のステップについて。

今回は分析の手順について紹介します。

「今回はデータ分析の手順について説明するよ。これを知っておくと何をしないといけないかがわかるし、効率よく分析を行うことができる」


「手順……ですか?」


「そう、データ分析と一言でいってもいくつかの段階に分かれているんだ。大体の場合は、こんな風に分けられる。


挿絵(By みてみん)


1. 疑問、仮説、立案

2. 既存分析の調査

3. データ収集元の調査

4. データ収集

5. データ整形

6. データ加工、グラフ化

7. 分析精査

8. まとめ」


「結構いっぱいやることがあるんですね。難しそうです」


「データ分析は単にデータを加工すればいいだけじゃないんだ。まず『1. 疑問、仮説、立案』から説明しようか。


 ここの段階は調べたいことについて、定義することが大事。要するに、何を調べたいかを明らかにすること。これをしっかりしておかないと、あとで追加データが必要になったりするから詰めておこう。


 考えるのは、()()()()()()()()()なのか。その上で、()()、知りたいのかをしっかり定義しようね。


 例えば、小説家になろうで言えば、自分の小説の評価は他の似たような小説に比べて良いのか、悪いのか。そう疑問に思ったとしよう。


 そうすると何を知りたいかだけど、自分の小説と似た作品の評価状況が知りたいことになるね。評価はブックマークや評価ポイント、レビュー、PVなんかが考えられるね。


 ここの定義がしっかりしていると後が楽になるよ」


「なるほど、定義ですか。確かに、行き当たりばったりでやると失敗しそうです」


「定義がはっきりさせようね。さて、それが終わったら次に『2. 既存分析の調査』だね。


 似たようなことを考える人も多くて、すでにその分析がされている場合も多々ある。既存の調査があればわざわざ分析しなくてもすむね。そうであったら一番楽だよね。


 ただ、情報が古かったり、信頼性がない場合もあるから、改めて分析する必要もあるよ」


「確かにすでに色々な分析エッセイがありますね。皆さんすごいです」


「うん、その中に欲しい情報があればいいんだけど、なかった場合は自分で分析する必要がある。そして、その場合まず初めにすることは『3. データ収集元の調査』になるよ。


 自分が知りたい内容に対して、何のデータを集めればいいのかを定義したら、それを()()()()取得するのかを調べるんだ」


「今度はどこから、ですか?」


「そう、例えば小説家になろうにはデータを提供しているところがある。なろうデベロッパー、というところが小説の情報を提供している。でも、そこにはブックマークや評価ポイントのデータはあるけど、PVのデータはない。その場合は別のところから取得する必要があるんだ。


 どのデータが、どこで手に入るかをここで調査しよう。


 そしてなるべく取得するデータは固まっているほうがいい」


「何でですか?」


「この前説明したけど、インターネットでデータを取得するときは1秒間に1回のルールがある。なので、1回のアクセスで複数の情報を得られると効率がいい。


 例えば1000個のデータを取ろうとしたとき、1回1個のデータしか取得できない場合は1000回アクセスつまり1000/60 = 17分くらいかかることになるね。でも1回100個のデータが取得できれば、10回、10秒で済むね。要するにデータが固まっているほど、多くのデータが早く得られることになる。


 データ数が少ないとあまり効果は感じられないけど、その数が膨大になればなるほど効いてくる」


「なるほど!」


「どこから取得するかが決まったら、『4. データ収集』だね。データを取得していくわけだけど、データの取得元によっては、単にダウンロードすればいい場合もあるし、プログラミングをする必要もある。この辺りは次の次くらいで説明するよ」


「プログラミングできるかな」


「できるように説明頑張るよ。さて、それが終わったら『5. データ整形』これはデータ収集と同時にやってもいいし、集め終わってからやってもいいね。収集元によってはすでにデータ整形が終わっている場合もある。ただ、ほとんどの場合は自分で成型することになるけど。


 基本的にはデータベースを作る作業になるね。Excelだとピボットテーブルのようなものを作ることになるね。これも後々説明するよ」


「へぇー」


「それができたら『6. データ加工、グラフ化』だね。自分が目的としているデータに対して、パラメータを変えてみたり、計算式を変えてみたり色々とデータをこねくり回すことになるよ。その場合グラフにしてみると傾向が視覚的にわかるので効果的だね。


 そして『7. 分析精査』で、最初の疑問に対する答えが出ているかを考える。


 もし、ここで満足できる答えが出たら分析は終わり。出なかったら、加工しなおしたり、パラメータを変えたりして答えが出るまで頑張る感じだね。場合によってはまたデータ集めからになっちゃうかな。なので最初の定義や仮説はしっかりしておいたほうがいいね」


「うぅ、ちょっと不安になってきますね」


「まぁ、そんなに難しく考える必要はないかな。そして最後に『8. まとめ』だね。いままで調べたことをまとめておくと、後で役に立つことが多いよ。まとめた内容を発表するのもいいね。感想とかで議論したり、改善点が見つかったりする。


 だいたいこれが、分析の一連の流れだけど大丈夫かな? ちょっと駆け足だったけど、理解できたかな」


「な、なんとか。ちょっとやってみないとわからないこともありそうですね」


「分析は何度も失敗して上手になっていくから始めのうちは失敗も多いけど、そのうちうまくなるから気にしないようにね今回はそんなところで」


「はい、ありがとうございます」






評価をするにはログインしてください。
この作品をシェア
Twitter LINEで送る
ブックマークに追加
ブックマーク機能を使うにはログインしてください。
小説家になろうを知ろうシリーズ
1. とあるスコッパーの備忘録
↑小説検索の方法を知ろう↑
2. 拝啓 エタりそうな作者様、エタが嫌いな読者様。
↑エタ(エターナル、更新停止)について知ろう↑
3. 拝復 応援されたい作者様、応援したい読者様。
↑削除、応援について知ろう↑

紹介したリンク
1. なろうデベロッパー
↑主なデータの取得元↑
2. 国立国会図書館法によるインターネット資料の収集について
↑ネットデータ収集の参考資料↑
3. 岡崎市立中央図書館事件
↑スクレイピングを行うときの注意↑
― 新着の感想 ―
このエピソードに感想はまだ書かれていません。
感想一覧
+注意+

特に記載なき場合、掲載されている作品はすべてフィクションであり実在の人物・団体等とは一切関係ありません。
特に記載なき場合、掲載されている作品の著作権は作者にあります(一部作品除く)。
作者以外の方による作品の引用を超える無断転載は禁止しており、行った場合、著作権法の違反となります。

この作品はリンクフリーです。ご自由にリンク(紹介)してください。
この作品はスマートフォン対応です。スマートフォンかパソコンかを自動で判別し、適切なページを表示します。

↑ページトップへ