多次元分析 - スライシング・ダイシング・ドリリング

はじめに
今年も夏が間も無く終わります。
豪雨が多い夏でしたね。
今回はデータウエアハウスについて噛み砕きます。特にスライシング・ダイシング・ドリリングについて記載します。
前提

今回はデータベースというより、分析の話です。特にスライシング・ダイシング・ドリリングが頭に入らなかったため整理します。
そもそもデータウエアハウスとはなんでしょう?
企業のさまざまなシステムからデータを集めて、一か所で分析できるようにした“データの倉庫” のことです。
目的は「バラバラに存在するデータを整理して、経営判断に使える形にする」ことです。ここに立ち戻ることが一番大切かもしれません。
企業には、日々こんなデータがあります。これらの情報は通常、別々のシステム(販売システム、会計ソフト、人事システムなど)に散らばっています。
データウェアハウス(DWH)は、それらを一箇所に集約し、分析しやすくするための仕組みです。
| 部門 | データの種類 |
|---|---|
| 販売 | 注文・売上・顧客情報 |
| 会計 | 請求・支払・予算 |
| 人事 | 従業員・勤怠・評価 |
| 在庫 | 倉庫・仕入れ・配送 |
例えてみると・・・・
| たとえ | 説明 |
|---|---|
| 🌾 畑(各システム) | バラバラに生えているデータの“原材料” |
| 🚜 ETL(収穫・整形) | きれいに収穫して仕分ける |
| 🏠 DWH(倉庫) | 整理して保存する場所 |
| 🍳 BIツール(シェフ) | 倉庫から材料を取り出して料理(分析)する |
となるかと思います。
続いて、多次元分析(Multidimensional Analysis)についてです。
「データをいろいろな“角度(軸)”から同時に分析する方法」とまとめられます。
- 1次元分析は「売上金額」だけを集計👉全体の売上だけ見える
- 2次元分析は「売上 × 地域」を集計👉地域ごとの売上が見える
- 3次元分析は「売上 × 地域 × 商品」を集計👉地域ごと × 商品ごとの傾向が見える
- 多次元分析は「売上 × 地域 × 商品 × 時期 × 担当者」を集計👉あらゆる視点で交差的に分析できる
このように多次元分析とは、「1枚の表では見えない関係性を立体的に見ること」と言えます。
スライシング・ダイシング・ドリリング
わかりにくい言葉が出てきました。ここでは、データをケーキに例えます。良い例が分かりませんが笑🍰
| 料理に例えると | データ分析でいうと |
|---|---|
| ケーキを一枚切る | スライス(特定条件で抽出) |
| ケーキを小さく角切りにする | ダイス(複数条件で抽出) |
| ケーキの層を下へ掘る | ドリルダウン(詳細を見る) |
もう少し噛み砕きます。ある売上データがあるとします。以下のように分析を行うとのことです。
「地域別に見る」→ スライス
「商品×地域で見る」→ ダイス
「地域→都道府県→店舗」→ ドリルダウン
まとめ

以下のようにまとめられると思います。
データウエアハウスはデータを一括管理するデータの倉庫で、そのデータを整理し分析(多次元解析)、経営判断に用いることが目的になります。
そのためのETLツール(データを抽出し変換、格納を行う)があり、データマートと呼ばれるDWHから特定部門向けに切り出した“小型倉庫”や全社的に利用されるセントラルウエアハウスのデータを、DWH上のデータをグラフ化・可視化するツール(Tableau、Power BIなど)を用いて分析を行う流れとなります。
