Amazon Redshift の機能

データレイクハウス向けの SQL を使用して、規模に合わせて比類のないコストパフォーマンスを実現

優れたコストパフォーマンス、スケーラビリティ、セキュリティを実現

RA3 インスタンスは、必要なインスタンスの数を指定することにより、ストレージとは別にコンピューティングリソースについて支払う柔軟性を備えており、大量のコンピューティングキャパシティを必要とする、パフォーマンスが重要なワークロードの速度を最大化します。

列指向ストレージ、データ圧縮、ゾーンのマッピングによって、クエリ実行に必要な I/O の量が削減されます。また、Amazon Redshift では、LZO、Zstandard などの業界標準のエンコーディングだけでなく、数値と日付/時刻型向けの専用の圧縮エンコーディング AZ64 も提供しており、それによりストレージの節約とクエリパフォーマンスの最適化を実現できます。

同時実行数の増加に応じて数秒で一時的なキャパシティを追加することで、一貫したサービスレベルで事実上無制限の同時ユーザーと同時クエリをサポートします。各クラスターは 1 日あたり最大 1 時間の無料同時実行スケーリングクレジットを獲得できるため、コストへの影響を最小限に抑えてスケーリングできます。これらの無料クレジットは、97% のお客様の同時実行性に関するニーズを十分に満たすものです。

同時実行数の増加に応じて数秒で一時的なキャパシティを追加することで、一貫したサービスレベルで事実上無制限の同時ユーザーと同時クエリをサポートします。各クラスターは 1 日あたり最大 1 時間の無料同時実行スケーリングクレジットを獲得できるため、コストへの影響を最小限に抑えてスケーリングできます。これらの無料クレジットは、97% のお客様の同時実行性に関するニーズを十分に満たすものです。

Amazon Redshift マテリアライズドビューを使用すると、ダッシュボードやビジネスインテリジェンス (BI) ツールからのクエリなどの反復的または予測可能な分析ワークロードのクエリパフォーマンスを大幅に高速化し、データ処理ジョブを抽出、変換、ロード (ELT) できます。マテリアライズドビューを使用すると、データレイク、ゼロ ETL テーブル、データ共有テーブルを含む 1 つ以上のテーブルを参照する可能性がある、選択したステートメントの事前計算済みの結果を保存および管理できます。増分更新では、ベーステーブル、または Amazon Redshift は前回の更新後に発生したテーブルの変更を識別し、マテリアライズドビュー内の対応するレコードのみを更新します。増分更新は完全更新よりも短時間で実行され、ワークロードのパフォーマンスが向上します。

繰り返されるクエリの応答時間は 1 秒未満です。繰り返しクエリを実行するダッシュボード、視覚化、および BI ツールでは、パフォーマンスが大幅に向上します。クエリを実行すると、Amazon Redshift はキャッシュを検索し、以前の実行でキャッシュされた結果がないか確認します。キャッシュされている結果が見つかり、データが変更されていないことがわかると、クエリを再度実行せずに、キャッシュされている結果を即座に返します。

受信クエリフィルター (特定の地域の売上など) に基づいてデータを自動的にソートすることで、反復クエリのパフォーマンスを向上させる新しい強力なテーブルソートメカニズム。この方法では、従来の方法に比べてテーブルスキャンのパフォーマンスが大幅に向上します。

リカバリ時間を短縮し、データを失うことなく自動的にリカバリできる容量を保証することで、リカバリ機能を拡張します。Amazon Redshift マルチ AZ データウェアハウスは、スタンバイリソースを使用することなく高可用性を実現することで、パフォーマンスと価値を最大化し、可用性を 99.99% の SLA 水準に引き上げます。

Amazon Redshift では、ファイアウォールルールを設定して、データウェアハウスクラスターに対するネットワークアクセスを制御できます。Amazon Redshift を Amazon Virtual Private Cloud (Amazon VPC) の中で実行することもでき、このようにするとデータウェアハウスクラスターはお客様専用の仮想ネットワーク内に隔離されます。このクラスターをお客様の既存の IT インフラストラクチャに接続するには、業界標準の暗号化 IPsec VPN を使用します。

いくつかのパラメータを設定するだけで、Amazon Redshift が、転送中のデータの保護には TLS、保管中のデータの保護にはハードウェアアクセラレーション対応の AES-256 暗号化を使用するように設定できます。保存データの暗号化を有効化する場合、ディスクに書き込まれたすべてのデータはあらゆるバックアップと同じように暗号化されます。デフォルトでは、Amazon Redshift でキー管理を行います。

IAM アイデンティティセンターとの統合により、組織は Amazon Redshift、Amazon QuickSight、および AWS Lake Formation 間の信頼できるアイデンティティ伝達をサポートできます。お客様は、Microsoft Entra ID、Okta、Ping、OneLogin などのサードパーティー ID プロバイダー (IdP) を利用して、組織のアイデンティティを使って QuickSight や Amazon Redshift クエリエディタ、サードパーティー BI ツールや SQL エディタから、シングルサインオンで Amazon Redshift にアクセスできます。管理者は、サードパーティーの IdP のユーザーとグループを使用して、サービス全体のデータへのアクセスをきめ細かく管理し、AWS CloudTrail でユーザーレベルのアクセスを監査できます。信頼できる ID 伝達により、ユーザーの ID は QuickSight、Amazon Redshift、および Lake Formation 間でシームレスに渡され、インサイトを得るまでの時間が短縮され、スムーズな分析が可能になります。

詳細な行および列レベルのセキュリティコントロールにより、ユーザーはアクセスできる必要があるデータのみを表示できます。Amazon Redshift は AWS Lake Formation と統合されており、Lake Formation の列レベルのアクセスコントロールが、データレイク内のデータに対する Redshift クエリにも適用されます。Amazon Redshift のデータ共有は、Lake Formation による一元化されたアクセスコントロールをサポートし、Amazon Redshift から共有されるデータのガバナンスを簡素化します。Lake Formation は、安全なデータレイクのセットアップ、すべての消費サービスにわたるデータへのきめ細かなアクセスの集中管理、および行レベルと列レベルの制御の適用を容易にするサービスです。動的データマスキングを使用すると、ユーザーに表示される識別可能なデータの量を制限して、機密データを保護できます。このようなフィールドに複数のレベルのアクセス許可を定義すると、データのコピーを複数作成しなくても、Amazon Redshift の使い慣れた SQL インターフェイスを使用して、さまざまなユーザーやグループがさまざまなレベルのデータにアクセスできるようになります。

SQL を使用してレイクハウス内の統合データ全体からインサイトを引き出す

Amazon Redshift と SageMaker Lakehouse との統合により、SQL を使用してすべての統合データを分析できます。Amazon Simple Storage Service (Amazon S3) のデータをオープンフォーマットでクエリできるため、データレイクとデータウェアハウス間のデータ移動が不要になります。SageMaker Lakehouse で Amazon Redshift データを開くと、AWS と Apache Iceberg の分析ツール全体にアクセスできるようになり、包括的なデータ分析と機械学習 (ML) がサポートされます。

Amazon Redshift は、Apache Iceberg、Apache Hudi、Delta Lake のテーブル形式で使い慣れた ANSI SQL を使用する読み取り専用クエリをサポートし、Apache Parquet、ORC、Avro、JSON、CSV などのオープンファイル形式を Amazon S3 で直接クエリすることもできます。Apache Iceberg は、テーブル構造を通じてトランザクションの一貫性を実現し、データレイクの整理を強化するオープンソースのテーブル形式の例です。Amazon Redshift Spectrum を使用すると、データレイク内のテーブルや Parquet などのオープンデータ形式のデータを読み取ることができると同時に、Amazon S3 に最大エクサバイト規模の構造化データ、半構造化データ、非構造化データを保持できます。Parquet にエクスポートするオプションを含め、Amazon Redshift UNLOAD コマンドを使用してデータレイクにデータをエクスポートすることもできます。Amazon Redshift からデータレイクにデータをエクスポートして戻すと、Amazon Athena、Amazon EMR、SageMaker などの AWS サービスを使用してデータをさらに分析できます。

SQL を使用すると、データ探索と分析のためのウェブベースのアナリストワークベンチにより、データアナリスト、データエンジニア、その他の SQL ユーザーが Amazon Redshift のデータとデータレイクにアクセスしやすくなります。Query Editor では、ワンステップでクエリ結果を視覚化したり、スキーマやテーブルを作成したり、データを視覚的に読み込んだり、データベースオブジェクトを参照したりできます。また、SQL クエリ、分析、視覚化、および注釈を作成および共有し、それらをチームと安全に共有するための直感的なエディタも提供します。

1 つのデータと AI の開発環境である SageMaker Unified Studio で Amazon Redshift 搭載の組み込み SQL エディタを使用して、データレイク、データウェアハウス、データベース、およびアプリケーションに保存されているデータをクエリできます。

ほぼリアルタイムの分析で意思決定を加速

Amazon S3 からのデータの取り込みを簡素化および自動化することで、カスタムソリューションの構築やサードパーティーサービスの管理にかかる時間と労力を削減できます。この機能により、Amazon Redshift は、ファイルの取り込みを自動化し、内部で継続的なデータの読み込み手順を処理することにより、コピー手順を手動で繰り返し実行する必要がなくなります。自動コピーのサポートにより、データエンジニアリングの知識がなくても基幹業務ユーザーやデータアナリストが簡単に取り込みルールを作成し、Amazon S3 からロードするデータの場所を設定できます。

SQL を使用して、Amazon Kinesis Data Streams と Amazon Managed Streaming for Apache Kafka (Amazon MSK) に接続し、そこからデータを直接取り込みます。また、Amazon Redshift ストリーミングインジェストでは、ストリームの上にマテリアライズドビューを直接作成できるため、ダウンストリームパイプラインの作成と管理が簡単になります。マテリアライズドビューには、ELT パイプラインの一部として SQL 変換を含めることもできます。定義されたマテリアライズドビューを手動で更新して、最新のストリーミングデータを照会できます。

Amazon Aurora PostgreSQL 互換エディション、Amazon Relational Database (Amazon RDS) for MySQL、Amazon Aurora MySQL 互換エディションのデータベースなどの 1 つ以上の Amazon RDS インスタンスのライブデータをクエリすることで、データを移動せずにビジネスオペレーション全体を即座に可視化できます。

インフラストラクチャの管理なしに簡単な SQL 分析が可能

コンソール内でクエリを実行したり、QuickSight、Tableau、Microsoft Power BI、Alteryx、Querybook、Jupyter Notebook、Informatica、dbt、MicroStrategy、Looker などの SQL クライアントツール、ライブラリ、データサイエンスツールに接続したりできます。