企業のデータ活用が進む中、データウェアハウス(Data Warehouse・DWH)はビジネスインテリジェンス(BI)と意思決定の基盤として非常に重要な役割を担っています。
「データベースと何が違うの?」「ETLって何?」と疑問を持つ方のために、本記事ではデータウェアハウスの仕組み・構成要素・通常のデータベースとの違い・構築方法まで解説していきます。
データウェアハウスとは「分析・意思決定のために設計された統合型データ管理基盤」である
それではまず、データウェアハウスの本質的な定義を解説していきます。
データウェアハウスの定義(W.H.インモンによる):「意思決定支援のために設計された、サブジェクト指向・統合・時系列・不揮発なデータの集合」。複数の業務システム(販売・在庫・人事など)のデータを統合し、過去から現在まで一貫した分析ができる基盤。
通常のデータベース(OLTP)はトランザクション処理(注文・入金・在庫更新など)のために最適化されており、高速な読み書きが特徴です。
一方データウェアハウスはOLAP(Online Analytical Processing)に最適化されており、大量の過去データへの複雑な集計クエリを高速に処理するための設計になっています。
OLTPとOLAPの違い
データウェアハウスを理解するうえでOLTPとOLAPの違いは根本的に重要です。
OLTP(Online Transaction Processing):
・目的:日々の業務トランザクション処理
・データ量:現在のデータ中心・比較的少量
・クエリ:シンプル・高頻度・短時間
・例:ECサイトの注文処理・ATMの残高照会
OLAP(Online Analytical Processing):
・目的:過去データの分析・集計・意思決定支援
・データ量:数年〜数十年分の大量データ
・クエリ:複雑な集計・低頻度・長時間
・例:月次売上推移分析・顧客セグメント分析
ETL(Extract・Transform・Load)プロセス
データウェアハウスにデータを取り込む仕組みがETL(抽出・変換・格納)プロセスです。
まず販売システム・在庫管理・CRMなど複数の業務システムからデータを抽出(Extract)し、クレンジング・形式統一・データ型変換などの変換(Transform)を行い、データウェアハウスに格納(Load)します。
近年ではELT(Extract・Load・Transform)という順序で、先にクラウドデータウェアハウスに取り込んでから変換する手法も一般的です。
スタースキーマとスノーフレークスキーマ
データウェアハウスの物理設計ではスタースキーマが標準的です。
中央に「ファクトテーブル」(売上金額・数量などの数値データ)を置き、周囲に「ディメンションテーブル」(日付・商品・顧客などの属性データ)を配置する構造です。
集計クエリのパフォーマンスを最大化するために設計されており、BIツールとの相性が良い構造です。
データウェアハウスの代表的なクラウドサービス
続いては、主要なクラウドデータウェアハウスサービスを確認していきましょう。
| サービス名 | 提供元 | 特徴 |
|---|---|---|
| Amazon Redshift | AWS | 列指向・RA3インスタンス・S3連携 |
| Google BigQuery | Google Cloud | サーバーレス・超大規模・機械学習統合 |
| Snowflake | Snowflake Inc. | マルチクラウド・コンピュートとストレージ分離 |
| Azure Synapse Analytics | Microsoft Azure | Spark統合・Power BI連携 |
| Databricks Lakehouse | Databricks | Delta Lake・機械学習統合 |
データマートとの違い
データマートはデータウェアハウスの一部を特定の部門・用途向けに切り出した小規模なデータストアです。
営業部門向け・財務部門向けなど、特定のユーザーグループが必要とするデータのみを含み、より高速なクエリと使いやすい構造を提供します。
データウェアハウスを「全社の大きなデータの倉庫」、データマートを「部署ごとの小さな棚」と考えるとイメージしやすいでしょう。
モダンデータスタック(Modern Data Stack)
近年ではモダンデータスタックと呼ばれる、クラウドDWH・ELTツール(Fivetran・Airbyte)・データ変換ツール(dbt)・BIツール(Looker・Tableau)を組み合わせたデータ基盤構成が主流になっています。
dbt(data build tool)はSQLベースのデータ変換ツールであり、データウェアハウス内でのデータ変換をコードとして管理できるため、再現性・テスト・ドキュメント化が容易になります。
まとめ
本記事では、データウェアハウスの定義・OLTPとの違い・ETLプロセス・スタースキーマ・クラウドサービス・モダンデータスタックを解説してきました。
データウェアハウスは「分析・意思決定のための統合型データ基盤」であり、BIツールと組み合わせることで企業のデータドリブンな意思決定を支える重要なインフラです。
クラウド移行が進む現代では、Snowflake・BigQuery・Redshiftなどのマネージドサービスを活用することで、導入コストとインフラ管理の負担を大幅に削減できるでしょう。