時間帯別に、もう少し詳しく集計してみる①
さて、では今度は「集計」作業に入ってみましょう。
集計とは、特定の条件に基づいてデータをグルーピングする作業。売上データなら、それを店舗ごとや特定の期間ごとにまとめ、そのデータの合計や平均などを求めたりするものですね。なろうのデータなら、作者ごとに作品のデータをまとめる、というのが一番ありがちでしょうか。
先に行っていたヒストグラムによる解析、これもある意味集計作業ではあります。ただ、個数の集計しかできないので非常に限定的なのですね。
そして、集計作業を行うと、このヒストグラム相当のグラフも容易に、単なる棒グラフとして作成できたりします。
まずは、追加で補助の列を作っておきましょうか。今度はAP2セルに「=IF([@[global_point]]>=100,1,0)」と入力し、カラム名をOver100とします。また、AQ2セルに「=IF([@[global_point]]=0,1,0)」と入力し、カラム名をIsZeroとします。これらは、条件を満たすと1に、それ以外は0になるというものです。この値を使えば、条件を満たす「割合」が単なる平均を取るだけで取得できるようになります。
次に、新しいシートを作成し、そこに挿入/ピボットテーブル/テーブルまたは範囲から を選択します。
範囲指定をするダイアログが立ち上がるので、テーブル/範囲に、データを読み込んだ結果のテーブル名を入力します。Power Queryで読み込んだ際に、自動的にシート名と同じテーブル名が付けられていますので、ここではnarou11と入力します。
すると、A1セルにピボットテーブルが作成され
右側のペインには、ピボットテーブルの定義が表示されます。
フィールドにはテーブルで定義したすべてのカラムが表示され、下に4つのボックス。フィルター・列・行・値が表示されます。カラムを選択し、これらのボックスにドラッグ&ドロップすることで定義を行う事が出来ます。
フィルターは、使用するデータを条件づけるもので、例えばここで年を指定すると、特定の年のデータのみを対象とすることができます。ピボットテーブルは、先のヒストグラムとは異なり、テーブルの表示フィルタは機能しないので、絞り込みが必要な場合は別途こちらで行う必要があります。
ただし、このフィルタは使用する値を明示的に指定するだけなので、例えば筆者の名前で絞り込むというのは非常に困難です。
列と行において、集計する条件を指定することができます。二次元の集計ができるわけですが、今回のような簡単な集計だと列は使用せず、行のみ指定するので十分でしょう。
値には、集計計算をする項目を指定します。これは複数指定することができ、かつ一つのカラムを複数の計算方法で指定することもできます。
ここでは前回同様な時間ごとの集計を行うという事で、まずは時間ごとの投稿数を見てみます。フィールドリストから時間を軸に、global_pointを値にD&Dします。
デフォルトでは計算方法は合計になるので、ドロップダウンリストから「値フィールドの設定」を選択し
計算方法として個数を選択します。
すると、次のように個数が集計されます。
そして、ピボットテーブルを選択して、挿入から棒グラフを挿入すると、自動的にピボットグラフが作成されます。
この内容は、前回作成したヒストグラムによるものと同じ内容ですね。
以下、次回