多次元分析 - スライシング・ダイシング・ドリリング

はじめに

今年も夏が間も無く終わります。
豪雨が多い夏でしたね。
今回はデータウエアハウスについて噛み砕きます。特にスライシング・ダイシング・ドリリングについて記載します。

前提

今回はデータベースというより、分析の話です。特にスライシング・ダイシング・ドリリングが頭に入らなかったため整理します。

そもそもデータウエアハウスとはなんでしょう?
企業のさまざまなシステムからデータを集めて、一か所で分析できるようにした“データの倉庫” のことです。
目的は「バラバラに存在するデータを整理して、経営判断に使える形にする」ことです。ここに立ち戻ることが一番大切かもしれません。

企業には、日々こんなデータがあります。これらの情報は通常、別々のシステム(販売システム、会計ソフト、人事システムなど)に散らばっています。
データウェアハウス(DWH)は、それらを一箇所に集約し、分析しやすくするための仕組みです。

部門データの種類
販売注文・売上・顧客情報
会計請求・支払・予算
人事従業員・勤怠・評価
在庫倉庫・仕入れ・配送

例えてみると・・・・

たとえ説明
🌾 畑(各システム)バラバラに生えているデータの“原材料”
🚜 ETL(収穫・整形)きれいに収穫して仕分ける
🏠 DWH(倉庫)整理して保存する場所
🍳 BIツール(シェフ)倉庫から材料を取り出して料理(分析)する

となるかと思います。

続いて、多次元分析(Multidimensional Analysis)についてです。
「データをいろいろな“角度(軸)”から同時に分析する方法」とまとめられます。

  • 1次元分析は「売上金額」だけを集計👉全体の売上だけ見える
  • 2次元分析は「売上 × 地域」を集計👉地域ごとの売上が見える
  • 3次元分析は「売上 × 地域 × 商品」を集計👉地域ごと × 商品ごとの傾向が見える
  • 多次元分析は「売上 × 地域 × 商品 × 時期 × 担当者」を集計👉あらゆる視点で交差的に分析できる

このように多次元分析とは、「1枚の表では見えない関係性を立体的に見ること」と言えます。

スライシング・ダイシング・ドリリング

わかりにくい言葉が出てきました。ここでは、データをケーキに例えます。良い例が分かりませんが笑🍰

料理に例えるとデータ分析でいうと
ケーキを一枚切るスライス(特定条件で抽出)
ケーキを小さく角切りにするダイス(複数条件で抽出)
ケーキの層を下へ掘るドリルダウン(詳細を見る)

もう少し噛み砕きます。ある売上データがあるとします。以下のように分析を行うとのことです。

「地域別に見る」→ スライス
「商品×地域で見る」→ ダイス
「地域→都道府県→店舗」→ ドリルダウン

まとめ

AWS Glue

以下のようにまとめられると思います。

データウエアハウスはデータを一括管理するデータの倉庫で、そのデータを整理し分析(多次元解析)、経営判断に用いることが目的になります。

そのためのETLツール(データを抽出し変換、格納を行う)があり、データマートと呼ばれるDWHから特定部門向けに切り出した“小型倉庫”や全社的に利用されるセントラルウエアハウスのデータを、DWH上のデータをグラフ化・可視化するツール(Tableau、Power BIなど)を用いて分析を行う流れとなります。