テクノロジー データベース 非公開: Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法

Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法

データ ウェアハウスは情報リポジトリを一元化し、企業による情報の分析を支援し、より多くの情報に基づいた意思決定に影響を与えます。

これらは、トランザクション システムからリレーショナル データベースを介して、頻繁なパルスで他のソースに送られる定期的なデータ フローを合理化するのに特に役立ちます。ただし、今日の爆発的なデータの増加に対応したり、変わり続けるユーザーのニーズに対応したりするように設計されていません。

クラウド データ ウェアハウスは、変革者です。テクノロジーの進化に伴い、クラウド データ ウェアハウスは、データベース、エンタープライズ リソース プランナー (ERP)、マーケティング アプリケーションなどのさまざまなビジネス アプリケーションからのデータをシームレスに保存することで、ワークフローに革命をもたらします。これにより、企業のビジネス インテリジェンス アーキテクチャが強化されます。

自分のビジネスに適したクラウド データ ウェアハウスを選択するのは、開始後に別のオプションに移行できない可能性があるため、非常に難しい場合があります。ただし、この投稿では、 Snowflake と Redshift という 2 つの主要な選択肢を比較します。しかし、その対照を掘り下げる前に、クラウド データ ウェアハウスの必要性を評価してみましょう。

クラウド データ ウェアハウスを使用する理由

今日のビジネス時代では、物理的なデータセンターに制約されることはできません。業務を改善し、競争上の優位性を獲得し、顧客エクスペリエンスを向上させるには、高度なビジネス分析を取得する必要があります。

クラウド データ ウェアハウスは、膨大な量のデータを収集し、それらをバランスの取れたプラットフォームに安全に保存するのに役立ちます。では、クラウド データ ウェアハウスを使用するメリットは何でしょうか?読む。

クラウド データ ウェアハウス
クラウド データ ウェアハウス

オンプレミス ソリューションは、ハードウェアの購入に費用がかかり、アップグレードにかなりの時間がかかり、一貫したメンテナンスと出力管理が必要です。

クラウド ウェアハウスは、必要なコンピューティング能力とストレージに対してのみ料金が発生するため、安価です (サーバー ルーム、ネットワーク、その他のハードウェアは必要ありません)。速度とパフォーマンスを評価すると、クラウド ソリューションは複数のサーバーとロード バランサーを使用するため、高速になります。また、クラウド データ ウェアハウスを複数のデータ ソースとシームレスに統合して、プロジェクトの創造性を高めることもできます。

クラウド データ ウェアハウスは、コンピューティング能力を損なうことなく、ビジネス データを詳細に可視化します。これにより、付加価値のある情報に基づいたビジネス上の意思決定を行うための戦略的アプローチが得られます。

データベース セキュリティ チームを雇う必要がある従来のソリューションとは異なり、クラウド ソリューションは多要素認証 (MFA) を利用してデータを安全に処理します。ほとんどのクラウド データ ソリューションには、侵害を防ぐために仮想プライベート ネットワーク (VPN) が備えられています。

「従量課金制」運用モデルでは、拡張的なデータ ストレージが追加の利点となります。以前は、最大 3 年前までにコンピューティング能力とストレージのニーズを見積もる必要があり、何度も修正する必要があり、企業に多大なコストがかかる場合がありました。

さらに、オンプレミス ソリューションは災害対応に費用がかかります。たとえば、企業は問題が発生した場合に備えてバックアップ データ センターを必要とします。現在、ほとんどのクラウド データ ウェアハウス ソリューションには非同期データ複製システムとバージョン管理システムが搭載されており、信頼性が向上しています。弾力性が心配な場合は、クラウド ソリューションでインフラストラクチャと適切なリソースを組み合わせます。

これは、現代のビジネスにおけるシニカルな変化の需要に段階的に対応します。たとえば、休暇中に、より多くのアナリスト ユーザーをプロビジョニングできます。休暇が終了したら、臨時従業員のプロビジョニングを解除できます。これらは氷山の一角です。メリットはそれだけではありません。

Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法
Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法

スノーフレーク: 概要

Snowflake は 、SaaS (Software-as-a-Service) プラットフォームとして構築された、主要なクラウドベースの分析データ ウェアハウスです。アマゾン ウェブ サービス (AWS)、Google クラウド プラットフォーム (GCP)、Microsoft Azure Snowflake などの主要なクラウド ベンダー上で実行すると、ストレージとコンピューティング能力を個別に拡張できます。

既存のデータベース上に構築された他のプラットフォームとは異なり、Snowflake はクラウド設計のアーキテクチャを持つ SQL データベース エンジンを使用します。その威力は、瞬間的なデータ処理を扱う場合に発揮されます。たとえば、会社はライブ投票セッションや新しいマーケティング キャンペーンを実施することができます。大量のデータの読み込み、分析、レポートの生成でよく知られています。

Snowflake の核心は 3 層です。これは、データベース ストレージ、クエリ処理、クラウド サービスで構成されます。データベースは、ファイルのサイズ、構造、および関連付けられたメタデータを管理します。 Snowflake は、仮想ウェアハウスを使用してクエリを処理します。各ウェアハウスはスタンドアロンとして機能し、コンピューティング リソースを共有しません。 Snowflake は、認証/アクセス制御、インフラストラクチャ管理、クエリ解析などの多くのコンポーネントをクラウド サービスにバインドします。

こちらもお読みください : コスト削減に最適な SaaS 管理プラットフォーム

Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法
Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法

Amazon Redshift: 概要

Redshift は 、大規模なデータセット、分析、データベース移行のための Amazon ベースのクラウド データ ウェアハウスです。ビジネス インテリジェンス (BI) ツールと統合することで、データを活用し、ビジネスと顧客に関する貴重な洞察を収集できます。データセットのサイズに関係なく、Redshift はクエリを迅速に実行し、SQL ベースまたは BI ツールで実行できます。

これは、ノードが スライス に分割される Redshift クラスター を通じて可能になります。その後、クエリのパフォーマンスを最適化するために、メモリの一部がスライスに割り当てられます。さらに、Redshift には、ノード間の高速接続を容易にする内部ネットワーク コンポーネントと高帯域幅接続があります。

最適化により、ストレージやサーバー管理に負担をかけることなく、ペタバイト規模のデータをクエリできるようになります。 Redshift は、簡単なセットアップ、堅牢なカスタマイズ オプション、メンテナンスのバランスをとって、強力なクラウド ソリューションとしての地位を確立しています。サードパーティのデータ統合やデータ マイニング ツールと組み合わせることもできます。

Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法
Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法

スノーフレーク vs. 赤方偏移

Snowflake と Redshift は、スケーラビリティ、柔軟性、膨大なデータの処理などの同様の利点を提供しますが、それぞれに固有の識別子があります。どちらのソリューションもセットアップと開始が簡単です。 2 つのソリューションを比較する場合、注目すべき主な領域は次のとおりです。

  • データベースの機能
  • 統合とパフォーマンス
  • 安全

これらの各パラメーターを詳しく見てみましょう。

#1. 主な特長

主な機能の内訳は次のとおりです。

スノーフレーク

Snowflake は、理想的なデータ ウェアハウスとなるいくつかの機能で構成されています。安全なストレージとデータ保護対策が施されています。トランザクションを実行する SQL、ユーザー定義関数、スクリプト、地理空間データのサポートをサポートします。

Snowflake のインターフェイスとツールは広範囲にわたり、Visual Studio Code 拡張機能、Snowsight、SnowSQL を使用して効率的なデータ クエリと管理を実現します。他のアプリケーションとの連携や拡張性のために、Snowflake は Java、Python、Scala の API をサポートしています。

また、RESTful API やさまざまなクライアント コネクタ/ドライバーでも適切に動作します。データのインポートおよびエクスポート機能を使用すると、さまざまな形式の大量のデータを操作したり、互換性のあるストレージに継続的にロードしたりできます。また、災害復旧時にビジネス継続性を確保するためのレプリケーションおよびフェイルオーバー ツールも備えています。

赤方偏移

Redshift の主な機能には、フェデレーテッド クエリ、AWS Data Exchange の統合、SageMaker モデル作成のための機械学習、Spark 統合、リアルタイム分析との Aurora 統合、ストリーミング データの統合、および簡単なデータ レイクの統合が含まれます。

Redshift は複数の AWS ツールとシームレスに統合します。 Redshift には柔軟な価格オプションがあります。セキュリティに関しては、複数のセキュリティ コンポーネントにより堅牢になります。

ユーザーフレンドリーで、自動化されたテーブル設計と複数のデータクエリツールが可能です。このプラットフォームは、きめ細かなアクセス制御をサポートし、確立されたセキュリティ標準に準拠しています。

#2. 統合とパフォーマンス

統合とパフォーマンスは運用全体に影響を与えるため、使用しているクラウド サービスに応じて自然な選択が必要になります。

企業がすでに AWS のサービスを使用している場合は、AWS CloudWatch、AWS DynamoDB、AWS Athena などの他のソリューションが Redshift とシームレスに統合されます。データが Amazon 製品にある場合は、大規模な並列処理を使用してデータをより速く読み込むことができます。

ただし、ソートキーと分散キーを扱うときは注意が必要です。これらは、システムがデータをどのように保存し、操作するかを定義します。十分に計画されていない場合、パフォーマンス上の問題が発生します。

ここでは学習曲線が急峻になります。キーを設定すると変更できないため、実装する前にしっかりと理解する必要があることに注意してください。メンテナンスは複雑になる場合があります。ライブ アプリを操作するときに最適なパフォーマンスを得るには、キャッシュ レイヤーを追加する必要もあります。

このような統合は Snowflake では利用できないため、反復するのが困難になる可能性があります。ただし、Snowflake には、Apache Spark、Tableau、Qlik、IBM Cognos などの他のオプションもあります。 Snowflake を活用して、包括的で効率的なデータ システムを構築できます。

Snowflake を他の機能と統合する重要な側面には、データを目的の形式に成形する抽出変換ロード ツール (ETL) が含まれます。視覚化ツール – 意思決定のための分析に役立ちます。データ統合プラットフォーム – データの共有を可能にし、データ カタログ – データ資産を理解して共同作業できるようにします。

#3. 安全

この記事の執筆時点では、データはあらゆるプロジェクトの貴重な資産の 1 つであるため、データを保護する必要があります。データ ウェアハウスを使用する場合、新しいデータ ソースを使用すると課題が発生し、新たな脆弱性が発生します。どちらのソリューションも、データを保護するためのさまざまなコンポーネントを提供します。

スノーフレーク

Snowflake のセキュリティに関するドキュメント では、フェデレーション認証、キー ペア認証/ローテーション、多要素認証、ネットワーク ポリシー、内部ステージのプライベート エンドポイント、プライベート サービス、アクセス コントロール、エンドツーエンド暗号化、暗号化キーなどの複数の機能について詳しく説明しています。管理。

ユーザーの認証とアクセスは、フェデレーション環境の外部エンティティを通じて分割されます。この場合、Snowflake がサービス プロバイダーであり、認証は Microsoft ID プロバイダーなどの ID プロバイダーを使用して処理されます。

キー ペア認証に関しては、印刷検証ベースを形成する公開キーと秘密キーを生成します。その後、カスタマイズしたスケジュール (ローテーションベース) でキーを交換できます。多要素認証に移行する Snowflake では、iOS、Windows、Android オペレーティング システムで利用できる Duo Security サービスを提供しています。

ただし、使用するには MFA プログラムに登録する必要があります。 Snowflake およびサードパーティのサービスを使用している場合は、OAuth を使用して、セキュリティ統合のためのアクセス トークンとオプションの更新トークンを生成できます。サポートされる外部認証サーバー、カスタム クライアント、パートナー (Okta、Microsoft Azure AD、Microsoft Power BI、Sigma、Ping Identity PingFederate などの外部 OAuth カスタム クライアントを含む)。

ネットワーク ポリシーに早送りします。 Snowflake は、ユーザーの IP アドレスごとにアカウントへのアクセスを制限します。許可される IP リストとブロック リストを宣言できます。 AWS、Google、Azure Virtual Private Cloud を扱う場合、セットアップは、Snowflake の内部ステージ全体で安全な接続を提供し、パブリック ネットワーク上でデータのロードとアンロードが発生しないように設計されています。ユーザーとグループを管理するときに、RESTful API を使用してクラウド製品でユーザー ID を管理するオープン仕様である SCIM を使用できます。

アクセス制御では、フレームワークを使用して、オブジェクトにオブジェクトへのアクセスを制御する所有者が存在する任意アクセス制御 (DAC)、またはアクセス権限がロールに関連付けられるロールベースのアクセス制御 (RBAC) を制定できます。 、ユーザーに付与されます。

最後に、Snowflake には、攻撃の表面を最小限に抑えるために、サードパーティのアプリケーションによるデータ (保存中か移行中かを問わず) の読み取りを制限するエンドツーエンドの暗号化機能があります。

赤方偏移

Amazon Redshift のデータ セキュリティは Amazon Redshift のセキュリティとは異なり、複数のセキュリティ側面があります。これらには、サインイン資格情報、アクセス管理、クラスター セキュリティ グループ、仮想プライベート クラウド (VPC)、クラスター暗号化、セキュア ソケット レイヤー (SSL) 接続、列および行レベルのアクセス制御、転送中のデータのセキュリティが含まれます。

AWS セキュリティ認証情報はユーザーの ID を検証して、リソースにアクセスできるかどうかを判断します。彼らはあなたのリクエストを認証し、許可します。この場合、root ユーザーは有効期限のない長期資格情報を持ち、フェデレーション製品および後継製品のユーザーは一時的なアクセサリ資格情報を持ちます。

AWS クラウドのセキュリティは非常に優先され、責任共有モデルで実装されています。 Redshift リソースを制御するには、いくつかのレベルがあります。 1 つ目はクラスター接続で、Redshift に接続する AWS インスタンスを指定します。

次に、データベース アクセスは、ユーザー アカウントがテーブルやビューと対話する方法を制御します。また、データベース上のユーザーと AWS 外部のユーザーを認証するための、一時的なデータベース認証情報と SQL クライアントのシングル サインインも付与されます。また、MFA を使用して、コード、タッチまたはタップ方法、生体認証スキャンを利用してセキュリティ レベルを追加することもできます。

Amazon Redshift クラスター グループを使用すると、クラスターにアクセスできるユーザーを定義できます。仮想ネットワーク環境を使用してクラスターを保護することもできます。テーブル内のデータはクラスター暗号化を使用して保護されており、これは自由にオンにすることができます。

セキュア ソケット レイヤ接続により、SQL クライアントとクラスター間のセキュリティが強化されます。これはデータ転送にも当てはまります。列ベースのアクセス制御と行ベースのアクセス制御には、それぞれビューベースのアクセス ポリシーとロールに関連付けられたポリシーが存在します。

Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法
Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法

違いを強調する

主な違いをまとめた表を次に示します。

側面 アマゾン赤方偏移 スノーフレーク
主な特徴 フェデレーションクエリ
AWS データ交換の統合
SageMaker モデル作成のための機械学習
スパークの統合
Aurora とリアルタイム分析の統合
ストリーミングデータの統合
簡単なデータレイク統合
複数の AWS ツールとのシームレスな統合
柔軟な価格設定オプション
きめ細かなアクセス制御
保安基準への適合
CloudWatch、DynamoDB、Athena などの AWS サービスとの統合
並列処理によるデータ読み込みの高速化 (注意事項あり)
ソートキーと分散キーに関する注意事項
複雑なメンテナンス
最適なパフォーマンスを得るにはキャッシュ層が必要
統合とパフォーマンス サインイン資格情報
アクセス管理
クラスターセキュリティグループ
仮想プライベート クラウド (VPC)
クラスター暗号化 (オプション)
SSL接続
列および行レベルのアクセス制御
転送中のデータのセキュリティ
責任共有モデル
一時的なデータベース認証情報
SQL クライアントのシングル サインオン
追加のセキュリティのための MFA サポート
アクセス制御のためのクラスターグループと仮想ネットワーキング
エンドツーエンドの暗号化 (データ保護)
AWS サービスとの限定的な統合
Apache Spark、Tableau、Qlik、IBM Cognos との統合
ETLツールのサポート
データ分析のための視覚化ツール
データ統合プラットフォーム
データ資産コラボレーションのためのデータカタログ
安全 CloudWatch、DynamoDB、Athena などの AWS サービスとの統合
並列処理によるデータ読み込みの高速化 (注意事項あり)
キーの並び替えと配布に関する注意事項
複雑なメンテナンス
最適なパフォーマンスを得るにはキャッシュ層が必要
安全なサインイン資格情報
アクセス管理
IP アドレスベースのアクセス制御のためのネットワーク ポリシー
AWS、Google、Azure VPC 内で転送中のデータのセキュリティ
ユーザー ID 管理の SCIM サポート
DACおよびRBACによるアクセス制御
サードパーティのアクセスを制限するエンドツーエンド暗号化
Duo Security による多要素認証 (登録が必要)
サードパーティサービスのOAuth
さまざまなアイデンティティプロバイダーとの統合

Snowflake と Redshift の使用例

Snowflake は、次のような場合に組織に適しています。

  • 軽いクエリ負荷の処理。
  • ワークロードは頻繁にスケーリングする必要があります。
  • 企業は、運用上のオーバーヘッドがゼロのマネージド ソリューションを必要としています。

Amazon Redshift は、次の場合に適しています。

  • 高いクエリ負荷の処理。
  • あなたの組織は AWS のサービスを使用しています。
  • ワークロードは構造化データを操作します。

Snowflake 対 Redshift – どちらかを選択する

これまで見てきたように、Snowflake と Redshift は優れたクラウド データ ウェアハウス ソリューションの選択肢です。 Redshift は、すでに他の AWS サービスを使用している場合にはうまく機能しますが、データベースの並べ替えと分散キーを設定する場合は学習曲線が急になります。

Snowflake は AWS のサービスと簡単に統合できないかもしれませんが、データを操作して有意義な洞察を収集するための広範な機能を提供します。 Redshift には柔軟な価格設定がありますが、Snowflake には自動データ回復機能があります。

レベルはソリューションの運用モデルをどの程度理解しているかに基づいているため、セキュリティ ドメインは厳密な決定事項ではありません。適切に構成されている場合、使用するサービスを選択すると、データ操作に堅牢なセキュリティが提供されます。

ニーズに合わせてソリューションを選択する方法は、希望する統合のタイプと使用したいセキュリティ パターンによって異なります。適切な懸念事項を念頭に置いておけば、ニーズに合った最適な選択ができるでしょう。

次に、あなたの組織に最適なデータ統合ツールを確認してください。

「 Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法」についてわかりやすく解説!絶対に観るべきベスト2動画

最新クラウド型データウェアハウス『Snowflake』とは?
【データ分析】クラウドデータウェアハウスの選び方 #devio2021

データ ウェアハウスは情報リポジトリを一元化し、企業による情報の分析を支援し、より多くの情報に基づいた意思決定に影響を与えます。

これらは、トランザクション システムからリレーショナル データベースを介して、頻繁なパルスで他のソースに送られる定期的なデータ フローを合理化するのに特に役立ちます。ただし、今日の爆発的なデータの増加に対応したり、変わり続けるユーザーのニーズに対応したりするように設計されていません。

クラウド データ ウェアハウスは、変革者です。テクノロジーの進化に伴い、クラウド データ ウェアハウスは、データベース、エンタープライズ リソース プランナー (ERP)、マーケティング アプリケーションなどのさまざまなビジネス アプリケーションからのデータをシームレスに保存することで、ワークフローに革命をもたらします。これにより、企業のビジネス インテリジェンス アーキテクチャが強化されます。

自分のビジネスに適したクラウド データ ウェアハウスを選択するのは、開始後に別のオプションに移行できない可能性があるため、非常に難しい場合があります。ただし、この投稿では、 Snowflake と Redshift という 2 つの主要な選択肢を比較します。しかし、その対照を掘り下げる前に、クラウド データ ウェアハウスの必要性を評価してみましょう。

クラウド データ ウェアハウスを使用する理由

今日のビジネス時代では、物理的なデータセンターに制約されることはできません。業務を改善し、競争上の優位性を獲得し、顧客エクスペリエンスを向上させるには、高度なビジネス分析を取得する必要があります。

クラウド データ ウェアハウスは、膨大な量のデータを収集し、それらをバランスの取れたプラットフォームに安全に保存するのに役立ちます。では、クラウド データ ウェアハウスを使用するメリットは何でしょうか?読む。

クラウド データ ウェアハウス
クラウド データ ウェアハウス

オンプレミス ソリューションは、ハードウェアの購入に費用がかかり、アップグレードにかなりの時間がかかり、一貫したメンテナンスと出力管理が必要です。

クラウド ウェアハウスは、必要なコンピューティング能力とストレージに対してのみ料金が発生するため、安価です (サーバー ルーム、ネットワーク、その他のハードウェアは必要ありません)。速度とパフォーマンスを評価すると、クラウド ソリューションは複数のサーバーとロード バランサーを使用するため、高速になります。また、クラウド データ ウェアハウスを複数のデータ ソースとシームレスに統合して、プロジェクトの創造性を高めることもできます。

クラウド データ ウェアハウスは、コンピューティング能力を損なうことなく、ビジネス データを詳細に可視化します。これにより、付加価値のある情報に基づいたビジネス上の意思決定を行うための戦略的アプローチが得られます。

データベース セキュリティ チームを雇う必要がある従来のソリューションとは異なり、クラウド ソリューションは多要素認証 (MFA) を利用してデータを安全に処理します。ほとんどのクラウド データ ソリューションには、侵害を防ぐために仮想プライベート ネットワーク (VPN) が備えられています。

「従量課金制」運用モデルでは、拡張的なデータ ストレージが追加の利点となります。以前は、最大 3 年前までにコンピューティング能力とストレージのニーズを見積もる必要があり、何度も修正する必要があり、企業に多大なコストがかかる場合がありました。

さらに、オンプレミス ソリューションは災害対応に費用がかかります。たとえば、企業は問題が発生した場合に備えてバックアップ データ センターを必要とします。現在、ほとんどのクラウド データ ウェアハウス ソリューションには非同期データ複製システムとバージョン管理システムが搭載されており、信頼性が向上しています。弾力性が心配な場合は、クラウド ソリューションでインフラストラクチャと適切なリソースを組み合わせます。

これは、現代のビジネスにおけるシニカルな変化の需要に段階的に対応します。たとえば、休暇中に、より多くのアナリスト ユーザーをプロビジョニングできます。休暇が終了したら、臨時従業員のプロビジョニングを解除できます。これらは氷山の一角です。メリットはそれだけではありません。

Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法
Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法

スノーフレーク: 概要

Snowflake は 、SaaS (Software-as-a-Service) プラットフォームとして構築された、主要なクラウドベースの分析データ ウェアハウスです。アマゾン ウェブ サービス (AWS)、Google クラウド プラットフォーム (GCP)、Microsoft Azure Snowflake などの主要なクラウド ベンダー上で実行すると、ストレージとコンピューティング能力を個別に拡張できます。

既存のデータベース上に構築された他のプラットフォームとは異なり、Snowflake はクラウド設計のアーキテクチャを持つ SQL データベース エンジンを使用します。その威力は、瞬間的なデータ処理を扱う場合に発揮されます。たとえば、会社はライブ投票セッションや新しいマーケティング キャンペーンを実施することができます。大量のデータの読み込み、分析、レポートの生成でよく知られています。

Snowflake の核心は 3 層です。これは、データベース ストレージ、クエリ処理、クラウド サービスで構成されます。データベースは、ファイルのサイズ、構造、および関連付けられたメタデータを管理します。 Snowflake は、仮想ウェアハウスを使用してクエリを処理します。各ウェアハウスはスタンドアロンとして機能し、コンピューティング リソースを共有しません。 Snowflake は、認証/アクセス制御、インフラストラクチャ管理、クエリ解析などの多くのコンポーネントをクラウド サービスにバインドします。

こちらもお読みください : コスト削減に最適な SaaS 管理プラットフォーム

Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法
Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法

Amazon Redshift: 概要

Redshift は 、大規模なデータセット、分析、データベース移行のための Amazon ベースのクラウド データ ウェアハウスです。ビジネス インテリジェンス (BI) ツールと統合することで、データを活用し、ビジネスと顧客に関する貴重な洞察を収集できます。データセットのサイズに関係なく、Redshift はクエリを迅速に実行し、SQL ベースまたは BI ツールで実行できます。

これは、ノードが スライス に分割される Redshift クラスター を通じて可能になります。その後、クエリのパフォーマンスを最適化するために、メモリの一部がスライスに割り当てられます。さらに、Redshift には、ノード間の高速接続を容易にする内部ネットワーク コンポーネントと高帯域幅接続があります。

最適化により、ストレージやサーバー管理に負担をかけることなく、ペタバイト規模のデータをクエリできるようになります。 Redshift は、簡単なセットアップ、堅牢なカスタマイズ オプション、メンテナンスのバランスをとって、強力なクラウド ソリューションとしての地位を確立しています。サードパーティのデータ統合やデータ マイニング ツールと組み合わせることもできます。

Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法
Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法

スノーフレーク vs. 赤方偏移

Snowflake と Redshift は、スケーラビリティ、柔軟性、膨大なデータの処理などの同様の利点を提供しますが、それぞれに固有の識別子があります。どちらのソリューションもセットアップと開始が簡単です。 2 つのソリューションを比較する場合、注目すべき主な領域は次のとおりです。

  • データベースの機能
  • 統合とパフォーマンス
  • 安全

これらの各パラメーターを詳しく見てみましょう。

#1. 主な特長

主な機能の内訳は次のとおりです。

スノーフレーク

Snowflake は、理想的なデータ ウェアハウスとなるいくつかの機能で構成されています。安全なストレージとデータ保護対策が施されています。トランザクションを実行する SQL、ユーザー定義関数、スクリプト、地理空間データのサポートをサポートします。

Snowflake のインターフェイスとツールは広範囲にわたり、Visual Studio Code 拡張機能、Snowsight、SnowSQL を使用して効率的なデータ クエリと管理を実現します。他のアプリケーションとの連携や拡張性のために、Snowflake は Java、Python、Scala の API をサポートしています。

また、RESTful API やさまざまなクライアント コネクタ/ドライバーでも適切に動作します。データのインポートおよびエクスポート機能を使用すると、さまざまな形式の大量のデータを操作したり、互換性のあるストレージに継続的にロードしたりできます。また、災害復旧時にビジネス継続性を確保するためのレプリケーションおよびフェイルオーバー ツールも備えています。

赤方偏移

Redshift の主な機能には、フェデレーテッド クエリ、AWS Data Exchange の統合、SageMaker モデル作成のための機械学習、Spark 統合、リアルタイム分析との Aurora 統合、ストリーミング データの統合、および簡単なデータ レイクの統合が含まれます。

Redshift は複数の AWS ツールとシームレスに統合します。 Redshift には柔軟な価格オプションがあります。セキュリティに関しては、複数のセキュリティ コンポーネントにより堅牢になります。

ユーザーフレンドリーで、自動化されたテーブル設計と複数のデータクエリツールが可能です。このプラットフォームは、きめ細かなアクセス制御をサポートし、確立されたセキュリティ標準に準拠しています。

#2. 統合とパフォーマンス

統合とパフォーマンスは運用全体に影響を与えるため、使用しているクラウド サービスに応じて自然な選択が必要になります。

企業がすでに AWS のサービスを使用している場合は、AWS CloudWatch、AWS DynamoDB、AWS Athena などの他のソリューションが Redshift とシームレスに統合されます。データが Amazon 製品にある場合は、大規模な並列処理を使用してデータをより速く読み込むことができます。

ただし、ソートキーと分散キーを扱うときは注意が必要です。これらは、システムがデータをどのように保存し、操作するかを定義します。十分に計画されていない場合、パフォーマンス上の問題が発生します。

ここでは学習曲線が急峻になります。キーを設定すると変更できないため、実装する前にしっかりと理解する必要があることに注意してください。メンテナンスは複雑になる場合があります。ライブ アプリを操作するときに最適なパフォーマンスを得るには、キャッシュ レイヤーを追加する必要もあります。

このような統合は Snowflake では利用できないため、反復するのが困難になる可能性があります。ただし、Snowflake には、Apache Spark、Tableau、Qlik、IBM Cognos などの他のオプションもあります。 Snowflake を活用して、包括的で効率的なデータ システムを構築できます。

Snowflake を他の機能と統合する重要な側面には、データを目的の形式に成形する抽出変換ロード ツール (ETL) が含まれます。視覚化ツール – 意思決定のための分析に役立ちます。データ統合プラットフォーム – データの共有を可能にし、データ カタログ – データ資産を理解して共同作業できるようにします。

#3. 安全

この記事の執筆時点では、データはあらゆるプロジェクトの貴重な資産の 1 つであるため、データを保護する必要があります。データ ウェアハウスを使用する場合、新しいデータ ソースを使用すると課題が発生し、新たな脆弱性が発生します。どちらのソリューションも、データを保護するためのさまざまなコンポーネントを提供します。

スノーフレーク

Snowflake のセキュリティに関するドキュメント では、フェデレーション認証、キー ペア認証/ローテーション、多要素認証、ネットワーク ポリシー、内部ステージのプライベート エンドポイント、プライベート サービス、アクセス コントロール、エンドツーエンド暗号化、暗号化キーなどの複数の機能について詳しく説明しています。管理。

ユーザーの認証とアクセスは、フェデレーション環境の外部エンティティを通じて分割されます。この場合、Snowflake がサービス プロバイダーであり、認証は Microsoft ID プロバイダーなどの ID プロバイダーを使用して処理されます。

キー ペア認証に関しては、印刷検証ベースを形成する公開キーと秘密キーを生成します。その後、カスタマイズしたスケジュール (ローテーションベース) でキーを交換できます。多要素認証に移行する Snowflake では、iOS、Windows、Android オペレーティング システムで利用できる Duo Security サービスを提供しています。

ただし、使用するには MFA プログラムに登録する必要があります。 Snowflake およびサードパーティのサービスを使用している場合は、OAuth を使用して、セキュリティ統合のためのアクセス トークンとオプションの更新トークンを生成できます。サポートされる外部認証サーバー、カスタム クライアント、パートナー (Okta、Microsoft Azure AD、Microsoft Power BI、Sigma、Ping Identity PingFederate などの外部 OAuth カスタム クライアントを含む)。

ネットワーク ポリシーに早送りします。 Snowflake は、ユーザーの IP アドレスごとにアカウントへのアクセスを制限します。許可される IP リストとブロック リストを宣言できます。 AWS、Google、Azure Virtual Private Cloud を扱う場合、セットアップは、Snowflake の内部ステージ全体で安全な接続を提供し、パブリック ネットワーク上でデータのロードとアンロードが発生しないように設計されています。ユーザーとグループを管理するときに、RESTful API を使用してクラウド製品でユーザー ID を管理するオープン仕様である SCIM を使用できます。

アクセス制御では、フレームワークを使用して、オブジェクトにオブジェクトへのアクセスを制御する所有者が存在する任意アクセス制御 (DAC)、またはアクセス権限がロールに関連付けられるロールベースのアクセス制御 (RBAC) を制定できます。 、ユーザーに付与されます。

最後に、Snowflake には、攻撃の表面を最小限に抑えるために、サードパーティのアプリケーションによるデータ (保存中か移行中かを問わず) の読み取りを制限するエンドツーエンドの暗号化機能があります。

赤方偏移

Amazon Redshift のデータ セキュリティは Amazon Redshift のセキュリティとは異なり、複数のセキュリティ側面があります。これらには、サインイン資格情報、アクセス管理、クラスター セキュリティ グループ、仮想プライベート クラウド (VPC)、クラスター暗号化、セキュア ソケット レイヤー (SSL) 接続、列および行レベルのアクセス制御、転送中のデータのセキュリティが含まれます。

AWS セキュリティ認証情報はユーザーの ID を検証して、リソースにアクセスできるかどうかを判断します。彼らはあなたのリクエストを認証し、許可します。この場合、root ユーザーは有効期限のない長期資格情報を持ち、フェデレーション製品および後継製品のユーザーは一時的なアクセサリ資格情報を持ちます。

AWS クラウドのセキュリティは非常に優先され、責任共有モデルで実装されています。 Redshift リソースを制御するには、いくつかのレベルがあります。 1 つ目はクラスター接続で、Redshift に接続する AWS インスタンスを指定します。

次に、データベース アクセスは、ユーザー アカウントがテーブルやビューと対話する方法を制御します。また、データベース上のユーザーと AWS 外部のユーザーを認証するための、一時的なデータベース認証情報と SQL クライアントのシングル サインインも付与されます。また、MFA を使用して、コード、タッチまたはタップ方法、生体認証スキャンを利用してセキュリティ レベルを追加することもできます。

Amazon Redshift クラスター グループを使用すると、クラスターにアクセスできるユーザーを定義できます。仮想ネットワーク環境を使用してクラスターを保護することもできます。テーブル内のデータはクラスター暗号化を使用して保護されており、これは自由にオンにすることができます。

セキュア ソケット レイヤ接続により、SQL クライアントとクラスター間のセキュリティが強化されます。これはデータ転送にも当てはまります。列ベースのアクセス制御と行ベースのアクセス制御には、それぞれビューベースのアクセス ポリシーとロールに関連付けられたポリシーが存在します。

Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法
Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法

違いを強調する

主な違いをまとめた表を次に示します。

側面 アマゾン赤方偏移 スノーフレーク
主な特徴 フェデレーションクエリ
AWS データ交換の統合
SageMaker モデル作成のための機械学習
スパークの統合
Aurora とリアルタイム分析の統合
ストリーミングデータの統合
簡単なデータレイク統合
複数の AWS ツールとのシームレスな統合
柔軟な価格設定オプション
きめ細かなアクセス制御
保安基準への適合
CloudWatch、DynamoDB、Athena などの AWS サービスとの統合
並列処理によるデータ読み込みの高速化 (注意事項あり)
ソートキーと分散キーに関する注意事項
複雑なメンテナンス
最適なパフォーマンスを得るにはキャッシュ層が必要
統合とパフォーマンス サインイン資格情報
アクセス管理
クラスターセキュリティグループ
仮想プライベート クラウド (VPC)
クラスター暗号化 (オプション)
SSL接続
列および行レベルのアクセス制御
転送中のデータのセキュリティ
責任共有モデル
一時的なデータベース認証情報
SQL クライアントのシングル サインオン
追加のセキュリティのための MFA サポート
アクセス制御のためのクラスターグループと仮想ネットワーキング
エンドツーエンドの暗号化 (データ保護)
AWS サービスとの限定的な統合
Apache Spark、Tableau、Qlik、IBM Cognos との統合
ETLツールのサポート
データ分析のための視覚化ツール
データ統合プラットフォーム
データ資産コラボレーションのためのデータカタログ
安全 CloudWatch、DynamoDB、Athena などの AWS サービスとの統合
並列処理によるデータ読み込みの高速化 (注意事項あり)
キーの並び替えと配布に関する注意事項
複雑なメンテナンス
最適なパフォーマンスを得るにはキャッシュ層が必要
安全なサインイン資格情報
アクセス管理
IP アドレスベースのアクセス制御のためのネットワーク ポリシー
AWS、Google、Azure VPC 内で転送中のデータのセキュリティ
ユーザー ID 管理の SCIM サポート
DACおよびRBACによるアクセス制御
サードパーティのアクセスを制限するエンドツーエンド暗号化
Duo Security による多要素認証 (登録が必要)
サードパーティサービスのOAuth
さまざまなアイデンティティプロバイダーとの統合

Snowflake と Redshift の使用例

Snowflake は、次のような場合に組織に適しています。

  • 軽いクエリ負荷の処理。
  • ワークロードは頻繁にスケーリングする必要があります。
  • 企業は、運用上のオーバーヘッドがゼロのマネージド ソリューションを必要としています。

Amazon Redshift は、次の場合に適しています。

  • 高いクエリ負荷の処理。
  • あなたの組織は AWS のサービスを使用しています。
  • ワークロードは構造化データを操作します。

Snowflake 対 Redshift – どちらかを選択する

これまで見てきたように、Snowflake と Redshift は優れたクラウド データ ウェアハウス ソリューションの選択肢です。 Redshift は、すでに他の AWS サービスを使用している場合にはうまく機能しますが、データベースの並べ替えと分散キーを設定する場合は学習曲線が急になります。

Snowflake は AWS のサービスと簡単に統合できないかもしれませんが、データを操作して有意義な洞察を収集するための広範な機能を提供します。 Redshift には柔軟な価格設定がありますが、Snowflake には自動データ回復機能があります。

レベルはソリューションの運用モデルをどの程度理解しているかに基づいているため、セキュリティ ドメインは厳密な決定事項ではありません。適切に構成されている場合、使用するサービスを選択すると、データ操作に堅牢なセキュリティが提供されます。

ニーズに合わせてソリューションを選択する方法は、希望する統合のタイプと使用したいセキュリティ パターンによって異なります。適切な懸念事項を念頭に置いておけば、ニーズに合った最適な選択ができるでしょう。

次に、あなたの組織に最適なデータ統合ツールを確認してください。

「 Snowflake と Redshift: 適切なデータ ウェアハウスを選択する方法」についてわかりやすく解説!絶対に観るべきベスト2動画

最新クラウド型データウェアハウス『Snowflake』とは?
【データ分析】クラウドデータウェアハウスの選び方 #devio2021