企業が生成するデータが増えるにつれて、データ ウェアハウジングに対する従来のアプローチはますます困難になり、維持コストが高くなります。データ ウェアハウスへの比較的新しいアプローチである Data Vault は、大量のデータを管理するためのスケーラブルで機敏なコスト効率の高い方法を提供することで、この問題の解決策を提供します。
この投稿では、Data Vault がデータ ウェアハウジングの未来となる仕組みと、このアプローチを採用する企業が増えている理由について説明します。このトピックについてさらに詳しく知りたい人向けの学習リソースも提供します。
データ保管庫とは何ですか?
Data Vault は、アジャイル データ ウェアハウスに特に適したデータ ウェアハウス モデリング手法です。これは、拡張に対する高度な柔軟性、データの完全な単位時間履歴化を提供し、データ読み込みプロセスの強力な並列化を可能にします。 Dan Linstedt は、1990 年代に Data Vault モデリングを開発しました。
2000 年に最初の出版物を出版した後、2002 年には一連の記事を通じて彼女の注目が高まりました。 2007 年、リンシュテット氏はビル インモン氏の支持を獲得しました。インモン氏は、これが彼の Data Vault 2.0 アーキテクチャにとって「最適な選択」であると述べました。
アジャイル データ ウェアハウスという用語を扱う人は、すぐに Data Vault に行き着くでしょう。このテクノロジーの特徴は、データ ウェアハウスに対する柔軟かつ低労力の調整を可能にするため、企業のニーズに焦点を当てていることです。
Data Vault 2.0 は、開発プロセス全体とアーキテクチャを考慮し、メソッド (実装)、アーキテクチャ、モデルのコンポーネントで構成されます。このアプローチの利点は、開発中に基盤となるデータ ウェアハウスを使用してビジネス インテリジェンスのあらゆる側面を考慮することです。
Data Vault モデルは、従来のデータ モデリング アプローチの制限を克服するための最新のソリューションを提供します。スケーラビリティ、柔軟性、俊敏性により、最新のデータ環境の複雑さと多様性に対応できるデータ プラットフォームを構築するための強固な基盤を提供します。
Data Vault のハブアンドスポーク アーキテクチャとエンティティと属性の分離により、複数のシステムとドメインにわたるデータの統合と調和が可能になり、増分的で機敏な開発が促進されます。
データ プラットフォームの構築における Data Vault の重要な役割は、すべてのデータの信頼できる単一の情報源を確立することです。データの統合ビューと、サテライト テーブルを介した履歴データ変更のキャプチャと追跡のサポートにより、コンプライアンス、監査、規制要件、包括的な分析とレポートが可能になります。
デルタ ローディングによる Data Vault のほぼリアルタイムのデータ統合機能により、ビッグ データや IoT アプリケーションなどの急速に変化する環境での大量のデータの処理が容易になります。
Data Vault と従来のデータ ウェアハウス モデルの比較
第 3 正規形 (3NF) は、最も有名な従来のデータ ウェアハウス モデルの 1 つであり、多くの大規模な実装で好まれることがよくあります。ちなみに、これはデータウェアハウスの概念の「先駆者」の一人であるビル・インモンの考えに相当する。
Inmon アーキテクチャはリレーショナル データベース モデルに基づいており、データ ソースを小さなテーブルに分割してデータ マートに保存し、主キーと外部キーを使用して相互接続することでデータの冗長性を排除します。参照整合性ルールを適用することで、データの一貫性と正確性が保証されます。
標準形式の目標は、コア データ ウェアハウス用の包括的な全社規模のデータ モデルを構築することでした。ただし、高度に結合されたデータ マート、ほぼリアルタイム モードでの読み込みの難しさ、手間のかかるリクエスト、トップダウンの設計と実装により、スケーラビリティと柔軟性に問題があります。

Kimbal モデルは、OLAP (オンライン分析処理) とデータ マートに使用され、もう 1 つの有名なデータ ウェアハウス モデルです。このモデルでは、ファクト テーブルには集計されたデータが含まれ、ディメンション テーブルにはスター スキーマまたはスノーフレーク スキーマ設計で保存されたデータが記述されます。このアーキテクチャでは、データはクエリと分析を簡素化するために非正規化されたファクト テーブルとディメンション テーブルに編成されます。
Kimbal は、クエリとレポート用に最適化された次元モデルに基づいており、ビジネス インテリジェンス アプリケーションに最適です。ただし、主題指向の情報の分離、データの冗長性、互換性のないクエリ構造、スケーラビリティの問題、ファクト テーブルの粒度の一貫性のなさ、同期の問題、ボトムアップ実装によるトップダウン設計の必要性などの問題がありました。

対照的に、データ ボルト アーキテクチャは、3NF アーキテクチャと Kimball アーキテクチャの両方の側面を組み合わせたハイブリッド アプローチです。これは、エンティティ間の関係を異なる方法で表現し、テーブル フィールドとタイムスタンプを異なる方法で構造化する、リレーショナル原則、データ正規化、および冗長数学に基づいたモデルです。
このアーキテクチャでは、すべてのデータは生のデータ ボールトまたはデータ レイクに保存されますが、一般的に使用されるデータは、レポートに使用できる履歴データとコンテキスト固有のデータを含むビジネス ボールトに正規化された形式で保存されます。

Data Vault は、効率性、拡張性、柔軟性を高めることで、従来のモデルの問題に対処します。これにより、既存の構造に影響を与えることなく、ほぼリアルタイムの読み込み、データの整合性の向上、簡単な拡張が可能になります。既存のテーブルを移行せずにモデルを拡張することもできます。
モデリングアプローチ | データ構造 | 設計アプローチ |
3NFモデリング | 3NFのテーブル | ボトムアップ |
キンバルモデリング | スター スキーマまたはスノーフレーク スキーマ | トップダウン |
データ保管庫 | ハブアンドスポーク | ボトムアップ |
データボルトのアーキテクチャ
Data Vault はハブアンドスポーク アーキテクチャを採用しており、基本的に次の 3 つのレイヤーで構成されています。
ステージング層 : CRM や ERP などのソース システムから生データを収集します。
データ ウェアハウス レイヤー : Data Vault モデルとしてモデル化される場合、このレイヤーには次のものが含まれます。
- Raw Data Vault: 生データを保存します。
- Business Data Vault: ビジネス ルールに基づいて調整および変換されたデータが含まれます (オプション)。
- Metrics Vault: ランタイム情報を保存します (オプション)。
- Operational Vault: 運用システムからデータ ウェアハウスに直接流れるデータを保存します (オプション)。
データ マート レイヤー : このレイヤーは、スター スキーマおよび/またはその他のモデリング手法としてデータをモデル化します。分析とレポートのための情報を提供します。

Data Vault は再アーキテクチャを必要としません。 Data Vault の概念と手法を直接使用して新しい機能を並行して構築でき、既存のコンポーネントが失われることはありません。フレームワークを使用すると、作業が大幅に簡単になります。フレームワークは、データ ウェアハウスと開発者の間にレイヤーを作成し、実装の複雑さを軽減します。
データボルトのコンポーネント
従来の第 3 正規形モデリングとは対照的に、Data Vault はモデリング中に、オブジェクトに属するすべての情報を 3 つのカテゴリに分割します。この情報は互いに厳密に分離されて保管されます。機能領域は、いわゆるハブ、リンク、およびサテライトの Data Vault にマッピングできます。
#1. ハブ
ハブは、顧客、販売者、販売、製品など、中核となるビジネス コンセプトの中心です。ハブ テーブルは、ビジネス キー (店舗名または場所) の新しいインスタンスが最初にデータ ウェアハウスに導入されるときに、ビジネス キー (店舗名または場所) を中心に形成されます。
ハブには説明的な情報も FK も含まれていません。これは、ウェアハウスで生成された一連の ID またはハッシュ キー、ロード日時スタンプ、およびレコード ソースを含むビジネス キーのみで構成されます。
#2. リンク
リンクはビジネス キー間の関係を確立します。リンク内の各エントリは、任意の数のハブの nm 関係をモデル化します。これにより、データ保管庫は、誠実な関係の変化など、ソース システムのビジネス ロジックの変化に柔軟に対応できます。ハブと同様に、リンクには説明情報は含まれません。これは、参照するハブのシーケンス ID、ウェアハウスで生成されたシーケンス ID、ロード日時スタンプ、およびレコード ソースで構成されます。
#3. 衛星
サテライトには、ハブに保存されているビジネス キー、またはリンクに保存されている関係の説明情報 (コンテキスト) が含まれています。サテライトは「挿入のみ」で動作します。これは、完全なデータ履歴がサテライトに保存されることを意味します。複数のサテライトで 1 つのビジネス キー (または関係) を記述することができます。ただし、サテライトは 1 つのキー (ハブまたはリンク) しか記述できません。

Data Vault モデルを構築する方法
Data Vault モデルの構築にはいくつかの手順が含まれます。各手順は、モデルがスケーラブルで柔軟性があり、ビジネスのニーズを満たすことができるようにするために重要です。
#1. エンティティと属性の識別
ビジネス エンティティとそれに対応する属性を特定します。これには、ビジネス関係者と緊密に連携して、その要件と取得する必要があるデータを理解することが含まれます。これらのエンティティと属性を特定したら、それらをハブ、リンク、サテライトに分離します。
#2. エンティティ関係の定義とリンクの作成
エンティティと属性を特定すると、エンティティ間の関係が定義され、これらの関係を表すリンクが作成されます。各リンクには、エンティティ間の関係を識別するビジネス キーが割り当てられます。次に、エンティティの属性と関係をキャプチャするために衛星が追加されます。
#3. ルールと基準を確立する
リンクを作成した後、モデルが柔軟で時間の経過による変化に対応できることを保証するために、一連のルールとデータ ボールト モデリング標準を確立する必要があります。これらのルールと標準は定期的に見直し、更新して、関連性を維持し、ビジネス ニーズと整合していることを確認する必要があります。
#4. モデルを設定する
モデルが作成されたら、増分読み込みアプローチを使用してデータを入力する必要があります。これには、デルタ ロードを使用してハブ、リンク、およびサテライトにデータをロードすることが含まれます。デルタ ロードにより、データに加えられた変更のみがロードされるようになり、データ統合に必要な時間とリソースが削減されます。
#5. モデルのテストと検証
最後に、モデルがビジネス要件を満たしていること、および将来の変更に対応できる十分な拡張性と柔軟性があることを確認するために、モデルをテストおよび検証する必要があります。モデルがビジネス ニーズに適合した状態を維持し、データの統一されたビューを提供し続けるようにするには、定期的なメンテナンスと更新を実行する必要があります。
Data Vault の学習リソース
Data Vault をマスターすると、今日のデータ主導型業界で非常に求められている貴重なスキルと知識が得られます。 Data Vault の複雑さを学習するのに役立つ、コースや書籍などのリソースの包括的なリストを次に示します。
#1. Data Vault 2.0 を使用したデータ ウェアハウスのモデリング

このUdemyコースは、Data Vault 2.0モデリングアプローチ、アジャイルプロジェクト管理、ビッグデータ統合についての包括的な入門です。このコースでは、Data Vault 2.0 のアーキテクチャとレイヤー、ビジネス ボールトと情報ボールト、高度なモデリング技術など、Data Vault 2.0 の基礎と基本について説明します。
Data Vault モデルを最初から設計する方法、3NF やディメンション モデルなどの従来のモデルを Data Vault に変換する方法、および Data Vault のディメンション モデリングの原則を理解する方法を説明します。このコースでは、データベースと SQL の基礎に関する基本的な知識が必要です。
5 点中 4.4 という高い評価と 1,700 件を超えるレビューを持つこのベストセラー コースは、Data Vault 2.0 とビッグ データの統合における強力な基盤を構築したい人に適しています。
#2. Data Vault モデリングをユースケースとともに説明

このUdemyコースは、実際のビジネス例を使用してData Vaultモデルの構築をガイドすることを目的としています。これは、Data Vault モデリングの初心者向けガイドとして機能し、Data Vault モデルを使用するための適切なシナリオ、従来の OLAP モデリングの制限、Data Vault モデルを構築するための体系的なアプローチなどの重要な概念をカバーしています。このコースは、データベースに関する最小限の知識を持つ個人が受講できます。
#3. Data Vault Guru: 実用的なガイド
Patrick Cuba 氏による『Data Vault Guru』は、データ ボルト方法論の包括的なガイドであり、ソフトウェア配信で使用されるものと同様の自動化原理を使用してエンタープライズ データ ウェアハウスをモデル化するユニークな機会を提供します。
プレビュー | 製品 | 評価 | 価格 | |
---|---|---|---|---|
![]() |
The Data Vault Guru: データ ボルトの構築に関する実践的なガイド | $79.40 | アマゾンで購入する |
この本では、最新のアーキテクチャの概要を説明した後、企業内の変化に適応する柔軟なデータ モデル、つまりデータ 保管庫を提供する方法についての徹底的なガイドを提供します。
さらに、この本では、自動化されたタイムライン修正、監査証跡、メタデータ制御、およびアジャイル配信ツールとの統合を提供することにより、データ保管方法を拡張します。
#4. Data Vault 2.0 によるスケーラブルなデータ ウェアハウスの構築
この本は、Data Vault 2.0 手法を使用してスケーラブルなデータ ウェアハウスを作成するための包括的なガイドを読者に提供します。
プレビュー | 製品 | 評価 | 価格 | |
---|---|---|---|---|
![]() |
Data Vault 2.0 によるスケーラブルなデータ ウェアハウスの構築 | $52.46 | アマゾンで購入する |
この本では、典型的なデータ ウェアハウスの障害を防ぐように設計された Data Vault モデリング手法など、スケーラブルなデータ ウェアハウスの構築に重要な要素をすべて取り上げています。
この本には、読者が概念を明確に理解できるように、多数の例が掲載されています。実践的な洞察と実際の例を含むこの本は、データ ウェアハウジングに興味がある人にとって不可欠なリソースです。
#5. 冷蔵庫の中の象: データ保管を成功させるためのガイド付きステップ
John Giles 著『The Elephant in the Fridge』は、ビジネスから始めてビジネスで終わることで、読者が Data Vault の成功を達成できるよう支援することを目的とした実用的なガイドブックです。
プレビュー | 製品 | 評価 | 価格 | |
---|---|---|---|---|
![]() |
冷蔵庫の中の象: ビジネス中心の構築を通じてデータ保管を成功させるためのガイド付きステップ… | $32.99 | アマゾンで購入する |
この本では、エンタープライズ オントロジーとビジネス コンセプト モデリングの重要性に焦点を当て、これらの概念を適用して堅牢なデータ モデルを作成する方法について段階的なガイダンスを提供します。
著者は実践的なアドバイスとサンプル パターンを通じて、複雑なトピックを明確かつ単純に説明しており、この本を Data Vault を初めて使用する人にとって優れたガイドにしています。
最後の言葉
Data Vault はデータ ウェアハウジングの未来を表し、俊敏性、拡張性、効率性の点で企業に大きなメリットをもたらします。これは、大量のデータを迅速にロードする必要がある企業や、ビジネス インテリジェンス アプリケーションを機敏な方法で開発しようとしている企業に特に適しています。
さらに、既存のサイロ アーキテクチャを持つ企業は、Data Vault を使用してアップストリームのコア データ ウェアハウスを実装することで大きな利益を得ることができます。
データリネージュについて学ぶことにも興味があるかもしれません。