目次
- ペタバイトスケール・列指向データウェアハウスの全実装解説
- 概要
- Redshift が解決する課題
- 主な特徴(Feature Matrix)
- アーキテクチャ
- コアコンポーネント詳細
- Redshift Serverless(v2)
- Zero-ETL 統合(2025 動向)
- Redshift Spectrum(S3 クエリ)
- Redshift ML(機械学習)
- データ共有(Data Sharing)
- ワークロード管理(WLM)と優先度制御
- 主要ユースケース(10+)
- 設定例(CLI / SDK / IaC)
- 類似サービス比較表(2025 年)
- ベストプラクティス(✅/❌)
- トラブルシューティング表
- 2025-2026 最新動向
- 学習リソース
- 実装例
- 導入ロードマップ・チェックリスト
- まとめ
Amazon Redshift 完全ガイド v2.0
ペタバイトスケール・列指向データウェアハウスの全実装解説
概要
Amazon Redshift は AWS が提供する フルマネージド・ペタバイトスケールのクラウドデータウェアハウス です。列指向ストレージ・大規模並列処理(MPP)・クエリ最適化により、複雑な分析クエリをミリ秒〜秒単位で処理できます。OLAP ワークロード専用に最適化され、BI ツール(QuickSight / Tableau)のバックエンド、データレイク分析基盤として、グローバル企業のデータドリブン経営を支えています。
定義と本質
Amazon Redshift は以下を約束するデータウェアハウス:
- スケール:ペタバイト規模のデータに対応し、複雑な分析クエリを高速実行
- コスト効率:列指向ストレージ・圧縮により、RDS 比最大 10 倍のコスト効率
- 可用性:3 AZ × 2 コピー、Serverless で自動スケーリング、フェイルオーバー < 30 秒
- 柔軟性:Spectrum で S3、Zero-ETL で Aurora/RDS のリアルタイム統合、データ共有で組織間アクセス
初心者向けメモ
Redshift は「SQL で分析する巨大データ倉庫」です。RDS は 1 つのテーブル行を高速に取得しますが、Redshift は「数十億行の売上データから月別売上合計を計算する」ような大規模集計をミリ秒で実行できます。
Redshift が解決する課題
| 課題 | 従来の方法 | Redshift の解決 |
|---|---|---|
| テラバイト規模データの集計が遅い | RDS で 10 分かかる複雑 JOIN | 列指向・MPP で 1 秒に短縮 |
| S3 ログの定期分析が複雑 | Athena で毎回フルスキャン | Spectrum で Redshift から直接 SQL クエリ |
| 複数 DB からのリアルタイム統合分析が手動 | ETL パイプラインで数時間遅延 | Zero-ETL で秒単位のリアルタイム同期 |
| BI ダッシュボードの更新が遅い | RDS のレプリカがボトルネック | Redshift リードレプリカで読み取り分散 |
| クラスター管理の運用負荷 | インスタンスサイジング・スケーリング手作業 | Serverless で自動スケーリング |
主な特徴(Feature Matrix)
| 特徴 | 説明 | v2.0 キーポイント |
|---|---|---|
| RA3 ノード型 | コンピュートとストレージ分離、S3 マネージドストレージ | 2024 年推奨。Serverless より細粒度制御が可能 |
| Redshift Serverless | 自動スケーリング(0~256 RPU)、使用時のみ課金 | 2023 GA、可変負荷ワークロード向き |
| Zero-ETL 統合 | Aurora / RDS / DynamoDB からリアルタイム同期 | 2025 年 RDS PostgreSQL GA、ファクトの手動 ETL 不要 |
| Spectrum(S3 クエリ) | S3 の Parquet / ORC を直接 SQL で分析 | ホット・コールドデータの透過的 JOIN |
| データ共有 | クロスアカウント / クロスリージョンで読み取り専用公開 | セキュアな データレイク共有 |
| Materialized View | 事前計算結果をキャッシュ | 重い集計の応答時間短縮 |
| Concurrency Scaling | リソース自動追加で遅延なし | ピーク時の突発的トラフィックに対応 |
| Column-Oriented | 列単位ストレージ・圧縮 | OLAP に特化した設計 |
| Workload Management | クエリキューイング・優先度制御 | SLA 保証のためのキャパシティ管理 |
| Redshift ML | CREATE MODEL で SageMaker Autopilot 実行 | DWH 内での ML 推論 |
アーキテクチャ
図1:Redshift のコンピュート・ストレージ分離アーキテクチャ
graph TB
subgraph Client["クライアント層"]
BI["BI ツール<br/>QuickSight / Tableau"]
SQL["SQL クライアント<br/>JDBC / ODBC"]
end
subgraph Compute["Redshift コンピュート層"]
Leader["Leader ノード<br/>クエリプランニング"]
CN1["Compute ノード 1<br/>RA3.xlplus / Serverless"]
CN2["Compute ノード 2<br/>RA3.xlplus / Serverless"]
CN3["Compute ノード N<br/>RA3.xlplus / Serverless"]
end
subgraph Storage["ストレージ層"]
RMS["Redshift<br/>Managed Storage"]
S3["S3<br/>(ホット・コールド)"]
end
subgraph External["外部統合"]
Aurora["Aurora<br/>Zero-ETL"]
RDS["RDS<br/>Zero-ETL"]
DDB["DynamoDB<br/>Zero-ETL"]
end
BI --> Leader
SQL --> Leader
Leader --> CN1
Leader --> CN2
Leader --> CN3
CN1 --> RMS
CN2 --> RMS
CN3 --> RMS
RMS --> S3
Aurora -.リアルタイム同期.-> RMS
RDS -.リアルタイム同期.-> RMS
DDB -.リアルタイム同期.-> RMS
style Leader fill:#ff6b6b
style CN1 fill:#4dabf7
style CN2 fill:#4dabf7
style CN3 fill:#4dabf7
style RMS fill:#51cf66
図2:ノードタイプと適用シーン比較
graph LR
subgraph DC2["DC2(廃止予定)"]
DC["SSD ローカル<br/>固定容量"]
end
subgraph RA3["RA3(推奨2024+)"]
RA["コンピュート独立<br/>S3 管理ストレージ<br/>自動スケール"]
end
subgraph Serverless["Serverless v2(推奨可変)"]
SV["自動スケーリング<br/>RPU 課金<br/>スケール < 1s"]
end
UseCase1["大規模固定<br/>BI ダッシュボード"] --> RA3
UseCase2["可変負荷<br/>スタートアップ"] --> Serverless
UseCase3["データレイク<br/>コスト重視"] --> RA3
style RA3 fill:#51cf66
style Serverless fill:#ffd93d
コアコンポーネント詳細
1. Leader ノード
クエリプランニング・クエリプラン最適化・クライアント接続管理を担当。Compute ノードへの並列処理調整を行います。
責務:
- SQL パースとセマンティック解析
- クエリプラン生成
- ノード間のデータ分散指示
- トランザクション管理
2. Compute ノード
実際のデータ処理を行う。Leader からのタスクを並列実行し、スライス単位で処理を分散。
スライス構造:
Compute ノード 1
├── Slice 1
│ └── 列データ格納(compression)
├── Slice 2
├── Slice 3
└── Slice N
3. ノードタイプ仕様
| タイプ | vCPU | RAM | SSD / Storage | 推奨用途 | 2025 Status |
|---|---|---|---|---|---|
| RA3.xlplus | 32 | 256 GB | 32 TB RMS | 中規模 DWH(推奨) | Active |
| RA3.4xlarge | 128 | 1,024 GB | 128 TB RMS | 大規模 DWH | Active |
| RA3.16xlarge | 512 | 4,096 GB | 128 TB RMS | 超大規模ペタバイト | Active |
| Serverless | 可変 | 可変 | 128 TB RMS | Auto-scale | Active |
4. 分散スタイル(Distribution Style)
テーブル行の Compute ノード間での分散方式:
-- EVEN(デフォルト):ラウンドロビン
CREATE TABLE orders (id, customer_id, amount)
DISTSTYLE EVEN;
-- KEY:指定列の値で分散(JOIN キーに推奨)
CREATE TABLE orders (id, customer_id, amount)
DISTSTYLE KEY DISTKEY(customer_id);
-- ALL:全ノードにコピー(小さい次元テーブル向き)
CREATE TABLE date_dim (date_id, year, month, day)
DISTSTYLE ALL;
-- AUTO:テーブルサイズで自動選択
CREATE TABLE sales (id, customer_id, amount)
DISTSTYLE AUTO;
ガイドライン:
- JOIN が多いテーブルは DISTKEY で結合列を指定
- 大型テーブルは KEY、小型は ALL
- 頻度の低い完全スキャンなら EVEN
5. ソートキー(Sort Key)
ブロック内の行を物理的に並べることで、範囲フィルターの最適化を実現。
-- COMPOUND SORTKEY(複合・左から優先)
CREATE TABLE events (
event_id BIGINT,
event_date DATE,
event_hour SMALLINT,
user_id BIGINT,
event_type VARCHAR(50)
)
COMPOUND SORTKEY(event_date, event_hour, event_type);
-- 左端の event_date から順に有効
-- WHERE event_date = '2025-04-01' → 高速(スキップ)
-- WHERE event_hour = 14 → 全ブロックスキャン(date がないため)
ゾーンマップ: Redshift は各ブロックの最小値・最大値を記録し、WHERE 条件に合わないブロックをスキップします。
Redshift Serverless(v2)
特性
- RPU ベース課金:Redshift Processing Unit、最小 8 RPU、最大 512 RPU
- 自動スケーリング:クエリ負荷に応じて秒単位でスケール
- ワークグループ:論理的な実行単位、IAM で細粒度制御
- スナップショット:Serverless でも自動バックアップ対応
コスト計算
基本 RPU: 128 RPU
最大 RPU: 256 RPU(ピーク時)
課金単価: $0.375/RPU-時間(東京リージョン 2025 年)
月額推定:
= 128 RPU × 24 時間 × 30 日 × $0.375
= $345,600 / 月
プロビジョンド クラスタ との比較
| 観点 | Serverless | プロビジョンド |
|---|---|---|
| スケーリング速度 | < 1 秒 | 数分(スケールアップ) |
| 最小コスト | $0(アイドル) | ノード固定費 |
| 予測可能性 | コスト変動あり | 固定費 |
| ピーク対応 | 自動 | リザーブド購入必要 |
| 推奨ワークロード | 不定期・可変負荷 | 常時高負荷 |
Zero-ETL 統合(2025 動向)
対応ソース
- Aurora PostgreSQL / MySQL:2024 年 GA
- RDS PostgreSQL / MySQL:2025 年 RDS PostgreSQL GA
- DynamoDB:2024 年 GA
- Salesforce(SaaS):限定ベータ
- ServiceNow(SaaS):限定ベータ
動作メカニズム
- ソース DB(Aurora / RDS)で変更ログを有効化
- Redshift が Change Data Capture(CDC)をポーリング
- 秒単位でデータをレプリケーション
- Redshift テーブルに自動反映
メリット・デメリット
✅ メリット:
- 手動 ETL パイプラインが不要
- リアルタイム分析可能(秒単位)
- DMS 不要(コスト削減)
❌ 注意点:
- 同期遅延あり(通常 1〜5 秒)
- ターゲット Redshift のコスト増加(処理リソース)
- 対応ソース限定
Redshift Spectrum(S3 クエリ)
用途
S3 上のデータ(Parquet / ORC / CSV / JSON)を Redshift から SQL で直接クエリ。Redshift にロードせずに分析可能。
-- S3 上の Parquet ファイルを外部テーブルとして定義
CREATE EXTERNAL TABLE s3_logs (
timestamp VARCHAR(20),
user_id BIGINT,
event_type VARCHAR(50),
event_data VARCHAR(MAX)
)
STORED AS PARQUET
LOCATION 's3://my-bucket/logs/year=2025/month=04/';
-- Spectrum テーブルと Redshift テーブルを JOIN
SELECT
COUNT(*) as event_count,
r.customer_tier
FROM s3_logs s
LEFT JOIN redshift_customers r ON s.user_id = r.user_id
GROUP BY r.customer_tier;
コスト
- スキャン料金:$5.00 / TB(東京リージョン)
- 圧縮率:Parquet で 5:1 圧縮が標準
- 最適化:不要な列は SELECT に含めない
Redshift ML(機械学習)
CREATE MODEL パターン
-- 顧客チャーンを予測
CREATE MODEL churn_model
FROM (
SELECT
age,
tenure_months,
monthly_charges,
is_churned as target
FROM customers_train
WHERE year = 2024
)
TARGET is_churned
FUNCTION predict_churn
IAM_ROLE 'arn:aws:iam::123456789:role/redshift-ml-role'
AUTO OFF;
-- 推論実行
SELECT
customer_id,
predict_churn(age, tenure_months, monthly_charges) as churn_probability
FROM customers_prod
WHERE churn_probability > 0.7;
内部動作
- Redshift が学習データを抽出
- SageMaker Autopilot が自動 ML 実行
- SageMaker エンドポイントにデプロイ
- SQL から推論呼び出し
データ共有(Data Sharing)
パターン 1:同じリージョン内でのアカウント間共有
graph LR
subgraph ProdAccount["本番アカウント"]
ProdDB["Redshift<br/>(本番 DWH)"]
end
subgraph AnalyticsAccount["分析チームアカウント"]
AnalyticsDB["Redshift Serverless<br/>(読み取り)"]
end
ProdDB -->|データシェア作成| Share["Datashare"]
Share --> AnalyticsDB
style ProdDB fill:#ff6b6b
style AnalyticsDB fill:#4dabf7
セットアップ例
# 本番 Redshift でデータシェア作成
aws redshift create-data-share \
--data-share-name sales_datashare \
--description "Sales analytics for partner teams"
# テーブルを追加
aws redshift update-data-share \
--data-share-arn arn:aws:redshift:...:datashare/... \
--add-objects SchemaName=sales,ObjectName=transactions
# 分析チームが消費
aws redshift create-data-share-consumer \
--consumer-arn arn:aws:redshift:partner-account:...
メリット
- データコピーなし(ストレージ節約)
- リアルタイムアクセス(読み取り遅延なし)
- 同一リージョンなら データ転送料金なし
ワークロード管理(WLM)と優先度制御
WLM キューの設定
{
"wlm_json_configuration": [
{
"name": "priority_high",
"priority": 100,
"concurrency_level": 1,
"query_group": ["bi_dashboards"]
},
{
"name": "priority_normal",
"priority": 50,
"concurrency_level": 5,
"query_group": ["analysts"]
},
{
"name": "priority_batch",
"priority": 10,
"concurrency_level": 2,
"query_group": ["etl_jobs"]
}
]
}
SLA 保証例
- BI ダッシュボード(high priority):1 秒以内に完了
- 分析クエリ(normal):キュー待機時間 10 分
- ETL ジョブ(batch):夜間実行専用
主要ユースケース(10+)
| # | ユースケース | Redshift 機能 | 成果メトリクス |
|---|---|---|---|
| 1 | BI ダッシュボード | リードレプリカ + Concurrency Scaling | ダッシュボード応答 < 2 秒 |
| 2 | S3 ログ分析 | Spectrum + 外部テーブル | ETL 不要 |
| 3 | リアルタイム分析 | Zero-ETL + Aurora | レイテンシ < 5 秒 |
| 4 | データ共有 | Data Sharing | ストレージ 50% 削減 |
| 5 | コスト削減 | UltraWarm / Cold | ストレージコスト 70% 削減 |
| 6 | 予測分析 | Redshift ML | モデル開発週数 → 日数 |
| 7 | ファネル分析 | ウィンドウ関数 | 複雑 SQL を簡潔に |
| 8 | セグメンテーション | 複合 JOIN + GROUP BY | 顧客セグメント自動作成 |
| 9 | 監査ログ | CloudTrail + Spectrum | 規制対応レポート自動 |
| 10 | マルチテナント | データ共有 + IAM | 顧客ごとの分離ビュー |
設定例(CLI / SDK / IaC)
AWS CLI:Serverless 作成
aws redshift-serverless create-workgroup \
--workgroup-name analytics-prod \
--namespace-name analytics \
--base-capacity 128 \
--max-capacity 256 \
--region ap-northeast-1
aws redshift-serverless create-namespace \
--namespace-name analytics \
--db-name analytics_db \
--admin-user-password 'ComplexPassword123!' \
--iam-roles 'arn:aws:iam::123456789:role/redshift-access'
CloudFormation テンプレート
Resources:
RedshiftCluster:
Type: AWS::Redshift::Cluster
Properties:
ClusterIdentifier: my-dwh
NodeType: ra3.xlplus
NumberOfNodes: 2
MasterUsername: admin
MasterUserPassword: !Sub '{{resolve:secretsmanager:redshift-pwd:SecretString:password}}'
DBName: analytics
IamRoles:
- !GetAtt RedshiftRole.Arn
PreferredMaintenanceWindow: sun:03:00-sun:04:00
Tags:
- Key: Environment
Value: production
RedshiftRole:
Type: AWS::IAM::Role
Properties:
AssumeRolePolicyDocument:
Version: '2012-10-17'
Statement:
- Effect: Allow
Principal:
Service: redshift.amazonaws.com
Action: sts:AssumeRole
ManagedPolicyArns:
- arn:aws:iam::aws:policy/AmazonS3ReadOnlyAccess
- arn:aws:iam::aws:policy/AWSGlueConsoleFullAccess
Terraform (HashiCorp)
resource "aws_redshift_cluster" "main" {
cluster_identifier = "my-dwh"
engine_version = "2.0"
node_type = "ra3.xlplus"
number_of_nodes = 2
master_username = "admin"
master_password = var.redshift_password
database_name = "analytics"
preferred_maintenance_window = "sun:03:00-sun:04:00"
iam_roles = [aws_iam_role.redshift.arn]
skip_final_snapshot = false
final_snapshot_identifier = "final-snapshot-${data.aws_caller_identity.current.account_id}"
}
resource "aws_iam_role" "redshift" {
name = "redshift-role"
assume_role_policy = jsonencode({
Version = "2012-10-17"
Statement = [
{
Action = "sts:AssumeRole"
Effect = "Allow"
Principal = {
Service = "redshift.amazonaws.com"
}
}
]
})
}
類似サービス比較表(2025 年)
| 観点 | Redshift | Snowflake | BigQuery | Databricks | Azure Synapse |
|---|---|---|---|---|---|
| ホスティング | AWS クラウド | マルチクラウド | GCP | マルチクラウド | Azure |
| スケーリング | RA3 分離 | 独立スケール(推奨) | BigQuery Native | Unity Catalog | Dedicated SQL |
| Zero-ETL | ✅(Aurora/RDS) | ❌ | ❌ | △ | △ |
| コスト | $0.375/RPU | 従量課金+マークアップ | フロート課金 | Unity 課金 | DWU 課金 |
| Serverless | ✅ GA(Serverless v2) | ✅(Premium) | ✅(Native) | ❌ | ✅(Dedicated) |
| AWS 統合度 | ★★★★★ | ★★★ | ★★★★ | ★★★★ | ★★ |
| 学習曲線 | PostgreSQL 互換 | SQL+Python | 標準 SQL | Spark+SQL | T-SQL / Spark |
ベストプラクティス(✅/❌)
クエリ最適化
✅ DO:
- DISTKEY を JOIN キーに設定
- COMPOUND SORTKEY で範囲フィルターを最適化
- 不要な列を SELECT に含めない
- ANALYZE COMPRESSION で最適エンコーディングを確認
- Concurrency Scaling を有効化(ピーク対応)
❌ DON’T:
- すべてのテーブルを DISTSTYLE EVEN にする
- トランザクション内で数時間実行
- INSERT × 1,000 件を 1,000 回実行(COPY で一括)
- SELECT * で不要なカラムも読み込み
パフォーマンス
✅ DO:
- VACUUM を週 1 回定期実行(DELETE 後)
- ANALYZE テーブル で統計更新
- WLM キューで優先度制御
- Materialized View で事前計算
❌ DON’T:
- データ削除後に VACUUM なし
- プライマリキーなしでテーブル設計
- LIKE ‘%prefix%’ で全行スキャン
- CROSS JOIN で大型テーブルの積の演算
コスト
✅ DO:
- UltraWarm / Cold Storage で古いデータをティアリング
- 不使用クラスタは停止(Serverless なら自動)
- Spectrum で S3 コールドデータを分析
- リザーブド キャパシティで割引(プロビジョンド)
❌ DON’T:
- すべてのデータを SSD に保持
- スケールしていないプロビジョンド クラスタ稼働
- データ共有なしで重複コピー
トラブルシューティング表
| 症状 | 原因 | 解決策 |
|---|---|---|
| クエリが遅い(1 分以上) | DISTSTYLE EVEN + JOIN、統計古い | DISTKEY 設定、ANALYZE 実行 |
| ストレージが満杯 | テーブル設計不備、DELETE 後 VACUUM なし | VACUUM 実行、冷却データは Cold へ |
| フェイルオーバーが遅い | レプリカなし | リードレプリカ 2 台以上配置 |
| 接続タイムアウト | セキュリティグループ制限、IAM 権限なし | VPC、SG、IAM ロールを確認 |
| メモリ不足エラー | クエリが大型テーブル全体を メモリに読み込み | ウィンドウ関数、LIMIT で工夫 |
| Concurrent Query 上限 | WLM キュー満杯 | concurrency_level 増加、優先度見直し |
2025-2026 最新動向
Zero-ETL の進化
- RDS PostgreSQL GA(2025 年):すべての RDS PostgreSQL 15.4+ でリアルタイム同期対応
- バグ修正:クラスター再起動中のレプリケーションエラーを解決
Python UDF 廃止予告
- 新規作成禁止:2025 年 11 月 1 日以降、新規 Python UDF 作成不可
- 既存は継続:2026 年 6 月 30 日までは動作
- 代替:Java UDF への移行を推奨
パフォーマンス向上
- OpenSearch Vector Search 連携:RAG・埋め込みベクトル検索対応検討
- Materialized View 更新:IM(In-Memory)キャッシュの改善
学習リソース
公式ドキュメント
- Amazon Redshift Management Guide
- Amazon Redshift Database Developer Guide
- Zero-ETL Integrations Documentation
- Redshift Pricing
ベストプラクティス記事
- AWS Big Data Blog - Redshift
- Best practices for upgrading from DC2 to RA3
- AWS Zero-ETL to Redshift: Real-Time Wins and Hidden Traps
OSSツール・リソース
- dbt(Data Build Tool):Redshift でのデータ変換・テスト
- Apache Superset:可視化エンジン
- pgweb:Web ベース SQL IDE
実装例
小規模(スタートアップ)
構成:Redshift Serverless(128 RPU)
コスト:$100~200/月
用途:CSV アップロード → QuickSight ダッシュボード
流れ:
1. AWS Glue で CSV → Parquet に変換
2. Spectrum で S3 を外部テーブル化
3. CREATE TABLE AS SELECT で Redshift に取り込み
4. QuickSight が Redshift に接続
中規模(エンタープライズ)
構成:Redshift RA3.xlplus(2 ノード)+ Zero-ETL(Aurora)
コスト:$3,000~5,000/月
用途:リアルタイム BI 基盤
流れ:
1. Aurora PostgreSQL でトランザクション
2. Zero-ETL でリアルタイム同期(秒単位)
3. Redshift リードレプリカ × 3 で読み取り分散
4. Tableau が 10+ ダッシュボードを駆動
5. 月 1 回 VACUUM / ANALYZE メンテナンス
大規模(ペタバイト)
構成:Redshift RA3.16xlarge(10 ノード)+ Spectrum
コスト:$50,000+/月
用途:グローバルデータレイク
流れ:
1. S3 に Data Lake(100 TB Parquet)
2. Spectrum で ホット・コールド層を透過的に JOIN
3. Redshift ML で顧客セグメント予測
4. Data Sharing で パートナー企業に読み取り公開
5. CloudWatch Insights で監視・コスト最適化
導入ロードマップ・チェックリスト
フェーズ 1:PoC(1~2 週間)
- [ ] Serverless 環境作成
- [ ] サンプルデータ 1 GB ロード
- [ ] クエリパフォーマンス確認
- [ ] コスト見積もり
フェーズ 2:パイロット(2~4 週間)
- [ ] プロダクション Redshift 構築(RA3 2 ノード推奨)
- [ ] Zero-ETL / Spectrum 統合テスト
- [ ] BI ツール接続(QuickSight / Tableau)
- [ ] セキュリティ設定(VPC、KMS、IAM)
- [ ] バックアップ・PITR テスト
フェーズ 3:本番化(1~2 か月)
- [ ] 本番データ移行(DMS / Glue)
- [ ] 監視・アラート設定(CloudWatch)
- [ ] WLM キュー・優先度設計
- [ ] VACUUM / ANALYZE スケジュール化
- [ ] 災害復旧計画(RTO / RPO)
フェーズ 4:最適化(継続)
- [ ] クエリ実行計画の継続改善
- [ ] ストレージティアリング(Hot / Cold)
- [ ] Redshift ML 導入
- [ ] Data Sharing 展開(組織内共有)
まとめ
Amazon Redshift は ペタバイトスケール・列指向・MPP データウェアハウス の決定版です。RA3 でコンピュートとストレージを分離スケール、Serverless で自動スケーリング、Zero-ETL で Aurora/RDS からのリアルタイム同期、Spectrum で S3 データレイク統合を実現。クエリ応答時間をミリ秒〜秒に短縮し、BI ダッシュボード・分析基盤として、データドリブン経営の中核を担います。
2025 年の RDS PostgreSQL Zero-ETL GA により、手動 ETL パイプラインが不要になり、分析ワークロードの迅速化・コスト削減が加速します。
参考文献
AWS 公式ドキュメント
- Amazon Redshift Management Guide
- Amazon Redshift Database Developer Guide
- Zero-ETL Integration Documentation
- Redshift Pricing
- Redshift Best Practices
AWS ブログ・記事
- AWS Big Data Blog - Redshift Category
- Best Practices for Upgrading DC2 to RA3 and Serverless
- AWS Zero-ETL to Redshift: Real-Time Wins, Hidden Traps
- Breaking Down Amazon Redshift Pricing: A Comprehensive Guide for 2025
OSSリファレンス
- dbt Documentation
- Apache Superset
- pgweb - PostgreSQL Web Admin
- TPC-H Benchmark Suite
- AWS Redshift Samples GitHub
- pg_stat_statements Extension
最終更新:2026-04-26 バージョン:v2.0