初心者から実務者向けの包括的解説
ElastiCache が解決する課題
主な特徴
アーキテクチャ（Cluster, Node, Shard, Replica）
エンジン比較（Valkey, Redis OSS, Memcached）
ElastiCache for Valkey（2024 Q4 GA）
ElastiCache Serverless（自動スケール）
主要ユースケース（10+）
デプロイモード（Cluster Mode Enabled / Disabled）
高可用性（Multi-AZ, Auto Failover, Replicas）
バックアップとリストア（Snapshot, AOF）
セキュリティ（VPC, AUTH/ACL, TLS, KMS, IAM Auth）
モニタリング（CloudWatch, Slowlog, Engine Logs）
パフォーマンスチューニング
Redis vs Valkey vs Memcached 使い分け
マイグレーション（Redis → Valkey）
ElastiCache vs MemoryDB の違い
他の類似ツールとの比較
クライアントとエコシステム
ベストプラクティス
トラブルシューティング
2025-2026 最新動向
学習リソース
実装例・活用シーン
導入ロードマップ
実装チェックリスト
まとめ

Amazon ElastiCache 完全ガイド 2026

初心者から実務者向けの包括的解説

Amazon ElastiCache は、インメモリキャッシュ・データストアのフルマネージドサービス として、マイクロ秒単位のレイテンシを実現し、DB 負荷軽減・セッション管理・リアルタイム処理・メッセージングを支える現代的な基盤です。Valkey・Redis OSS・Memcached の 3 エンジンをサポートし、ElastiCache Serverless はキャパシティ管理を完全に排除し、トラフィックスパイクに自動対応します。本ドキュメントは、ElastiCache の概念・アーキテクチャ・デプロイ・運用・ライセンス動向・ユースケースを体系的に解説する包括的ガイドです。

ドキュメントの目的

本ガイドは以下を対象としています。

初心者向け： ElastiCache とは何か、何がキャッシュか、なぜ必要かを学びたい方
開発者向け： Valkey/Redis キャッシング・セッション管理・リアルタイムランキングを実装したい方
インフラ向け： クラスタリング・フェイルオーバー・レプリケーション・セキュリティを構成したい方
意思決定者向け： Redis vs Valkey vs Memcached・ライセンス判断・Serverless vs Self-Designed の選択

2026 年の ElastiCache エコシステム

Valkey 採用拡大：2024 年 AWS 公式推奨、Redis ライセンス問題（SSPL）を回避、Valkey 8.0 / 9.0 対応
ElastiCache Serverless：キャパシティプランニング不要、ECPU 単位課金、自動スケール、Valkey/Redis 対応
Vector Search・AI 対応：Redis Stack Valkey edition で LLM・RAG・セマンティックサーチ対応
MemoryDB for Redis：永続化に特化、トランザクション対応、キャッシュより高コストだが信頼性重視用途
IAM 認証強化：Redis 6.0+ ACL、IAM Principal による認証（Serverless）
Bedrock 連携予定：生成 AI とベクトル検索の統合

定義

AWS 公式定義：

“Amazon ElastiCache improves application and database performance by caching frequently accessed data in-memory.”

単純な KV キャッシュの枠を超え、Sorted Set による高速ランキング・Streams による信頼性の高いメッセージング・Pub/Sub によるリアルタイムブロードキャストを実現し、現代的な Web・モバイル・IoT アプリケーションの構築を支えます。

ライセンスと選択肢（重要）

エンジン	ライセンス	AWS推奨	特徴
Valkey	Valkey License（BSD相当）	✅ 2024年以降推奨	Linux Foundation 配下、AWS/Google/Oracle 支援、完全 OSS、Redis 完全互換
Redis OSS	SSPL/RSALv2（2024.3以降）	⚠️ 移行期	SaaS 提供・クラウド化に制限、個人開発・内部利用は可
Memcached	BSD	✅ シンプル用途	軽量、String のみ、管理最小化

2024 年以降、新規プロジェクトは Valkey を標準選択してください。

概要
ElastiCache が解決する課題
主な特徴
アーキテクチャ（Cluster, Node, Shard, Replica）
エンジン比較（Valkey, Redis OSS, Memcached）
ElastiCache for Valkey（2024 Q4 GA）
ElastiCache Serverless（自動スケール）
主要ユースケース（10+）
デプロイモード（Cluster Mode Enabled / Disabled）
高可用性（Multi-AZ, Auto Failover, Replicas）
バックアップとリストア（Snapshot, AOF）
セキュリティ（VPC, AUTH/ACL, TLS, KMS, IAM Auth）
モニタリング（CloudWatch, Slowlog, Engine Logs）
パフォーマンスチューニング
Redis vs Valkey vs Memcached 使い分け
マイグレーション（Redis → Valkey）
ElastiCache vs MemoryDB の違い
他の類似ツールとの比較
クライアントとエコシステム
ベストプラクティス
トラブルシューティング
2025-2026 最新動向
学習リソース
実装例・活用シーン
導入ロードマップ
実装チェックリスト
まとめ
参考文献

ElastiCache が解決する課題

1. データベースの読み取り遅延

課題：同じデータへの繰り返しクエリで DB に負荷集中、数 10ms～数秒のレイテンシ

アプリ → RDS/DynamoDB → 10-100ms（ディスク I/O）
⇓改善後
アプリ → ElastiCache → 0.1-1ms（メモリ I/O）

2. DB スケーリングコストの増加

課題：読み取りが集中するに従って RDS Replica を増加、コスト増加

解決：ElastiCache で読み取り 80-90% を削減。DB は書き込みに集中。

3. マイクロサービス間のステートレス化困難

課題：セッションデータをサーバーローカルに保持すると、複数サーバー間での状態共有ができず、スケーリング困難

解決：ElastiCache Redis をセッションストアにすることで、ステートレス・スケーラブルなマイクロサービスアーキテクチャを実現

4. リアルタイムランキング・スコア更新が遅い

課題：DB で順序付けテーブルをスキャンするので O(n)～O(n log n)、頻繁なスコア更新は行ロック

解決：Sorted Set で O(log n) 操作、スコア更新とランキング取得がミリ秒以下

5. API レート制限・フラグ管理が複雑

課題：ユーザーごとのリクエスト数・フラグ状態を DB で管理すると、毎リクエストで UPDATE/SELECT

解決：INCR + EXPIRE で高速なカウンター管理、SETEX でフラグ有効期限設定

6. メッセージング・イベント処理が遅い

課題：Pub/Sub メッセージングを DB キューで実装すると、ポーリング遅延・スケール不良

解決：Streams で永続化・グループ処理、Pub/Sub でリアルタイムブロードキャスト

主な特徴

特徴	説明
超高速	メモリベース、マイクロ秒～ミリ秒レイテンシ
豊かなデータ構造	String, List, Hash, Set, Sorted Set, Stream, Bitmap, HyperLogLog, Geo, JSON（Valkey/Redis）
フルマネージド	パッチ・バージョンアップ・バックアップを AWS が管理
Multi-AZ	自動フェイルオーバー、プライマリ・レプリカを別 AZ に配置
Cluster Mode	16384 ハッシュスロット、500 シャードまで水平スケール（Valkey/Redis）
Serverless	キャパシティプランニング不要、自動スケール、ECPU 単位課金
永続化オプション	RDB（スナップショット）、AOF（追記ログ）、Hybrid（Valkey/Redis）
セキュリティ	VPC 隔離、IAM 認証、TLS 暗号化、KMS 保存暗号化、ACL
IAM 統合	IAM Role による認証（Serverless）、リソースベースのアクセス制御
CloudWatch 統合	メモリ使用率・QPS・レイテンシ・複製ラグ自動監視

アーキテクチャ（Cluster, Node, Shard, Replica）

初心者向けメモ： ElastiCache のアーキテクチャは「単一マスター＋複数レプリカ（Cluster Mode Disabled）」と「複数シャード・各シャードでマスター＋レプリカ（Cluster Mode Enabled）」の 2 つです。どちらを選ぶかでスケーラビリティが劇的に変わります。

Cluster Mode Disabled（シングルシャード、スケールアップ型）

┌─────────────────────────────────┐
│ Replication Group               │
│                                  │
│  Primary Node (AZ-a)  [Reader]  │
│  ↕ Replication Stream            │
│  Replica Node 1 (AZ-b)          │
│  Replica Node 2 (AZ-c)          │
│  Replica Node 3 (AZ-a)          │
│                                  │
│ 最大 5 レプリカ                   │
│ キャッシュサイズはプライマリに依存 │
└─────────────────────────────────┘

特徴：

✅ シンプルな管理、レプリケーション自動
✅ 読み取りスケール（レプリカで分散）
❌ データ総容量はプライマリノードサイズに上限
❌ プライマリ単一障害点、フェイルオーバー時に接続切替必須

用途：メモリサイズ < 100GB、読み取り多大、管理シンプル優先

Cluster Mode Enabled（マルチシャード、スケールアウト型）

┌────────────────────────────────────────────┐
│ Replication Group (Cluster Mode Enabled)   │
│                                             │
│  Shard 1              Shard 2              │
│  Primary (0-5460)     Primary (5461-10922) │
│  ↕                    ↕                    │
│  Replica              Replica              │
│                                             │
│  Shard 3 ...                               │
│  Primary (10923-...)                       │
│  ↕                                         │
│  Replica                                   │
│                                             │
│  最大 500 シャード（データ分散）             │
│  スケール：ノード追加＝メモリ×N倍            │
└────────────────────────────────────────────┘

特徴：

✅ 水平スケール、各シャードで並行処理
✅ 大容量キャッシュ対応（TB オーダー）
❌ クライアント側がシャード計算必要（一般的には SDK が自動）
❌ multi-key トランザクション制限（同じ slot 内のキーのみ）

用途：メモリサイズ > 100GB、シャード分散効果必須、水平スケール想定

【図2】Cluster Mode の比較：

graph TD
    subgraph Disabled["Cluster Mode Disabled"]
        direction TB
        App1[アプリ]
        App1 -->|Write| Primary1[Primary Node<br/>cache.r7g.xlarge<br/>26GB]
        App1 -->|Read| Rep1[Replica 1<br/>26GB]
        App1 -->|Read| Rep2[Replica 2<br/>26GB]
        App1 -->|Read| Rep3[Replica 3<br/>26GB]
        Primary1 -->|Repl| Rep1
        Primary1 -->|Repl| Rep2
        Primary1 -->|Repl| Rep3
        style Primary1 fill:#ff9999
        style Rep1 fill:#99ccff
        style Rep2 fill:#99ccff
        style Rep3 fill:#99ccff
    end
    
    subgraph Enabled["Cluster Mode Enabled"]
        direction TB
        App2[アプリ]
        App2 -->|CRC16 hash| Shard1["Shard 1<br/>Primary + Replica<br/>Slots 0-5460"]
        App2 -->|CRC16 hash| Shard2["Shard 2<br/>Primary + Replica<br/>Slots 5461-10922"]
        App2 -->|CRC16 hash| Shard3["Shard 3<br/>Primary + Replica<br/>Slots 10923-16383"]
        style Shard1 fill:#99ff99
        style Shard2 fill:#99ff99
        style Shard3 fill:#99ff99
    end

エンジン比較（Valkey, Redis OSS, Memcached）

項目	Valkey	Redis OSS	Memcached
ライセンス	Valkey License（BSD相当、FOSS）	SSPL/RSALv2（制限あり）	BSD
AWS推奨度	✅ 2024年以降標準	⚠️ 移行推奨	✅ シンプル用途
開発母体	Linux Foundation	Redis Inc.（旧 Salvatore Sanfilippo）	Memcached.org
Redis互換	✅ 完全互換（フォーク）	標準	❌
データ構造	String, List, Hash, Set, Sorted Set, Stream, Bitmap, HyperLogLog, Geo, JSON	同左	String のみ
永続化	✅ RDB/AOF/Hybrid	✅ RDB/AOF/Hybrid	❌
Pub/Sub	✅	✅	❌
Streams	✅	✅	❌
Lua Script	✅	✅	❌
クラスタリング	✅（Cluster Mode）	✅（Cluster Mode）	✅（クライアント側）
マルチスレッド	✅（v8.0+）	限定的	✅
ACL	✅（v6相当）	✅（v6+）	⚠️ SASL のみ
ベクトル検索	⏳ 開発中	✅（RedisSearch）	❌
サポート体制	Linux Foundation + AWS/Google/Oracle	個人開発	コミュニティ
推奨用途	汎用（新規推奨）	既存 Redis 移行用	シンプル KV キャッシュ

判定基準：

新規プロジェクト → Valkey（ライセンス安全、AWS 推奨）
既存 Redis からの移行 → Valkey に統一（オプションで Redis 段階移行）
シンプル KV キャッシュのみ → Memcached（管理最小）
複雑なランキング・Pub/Sub・Stream → Valkey/Redis 必須

ElastiCache for Valkey（2024 Q4 GA）

初心者向けメモ： 2024 年 9 月、AWS は ElastiCache for Valkey を一般公開しました。これは Redis ライセンス問題（SSPL）を完全に回避した、AWS 公式推奨の新エンジンです。Redis OSS からのマイグレーションは ほぼ無料（クライアント側コード変更不要）。

Valkey の位置づけ

2023年3月: Redis ライセンス SSPL/RSALv2 に変更
  ↓
2024年秋: AWS/Google/Oracle が Valkey フォーク発表
  ↓
2024年Q4: ElastiCache for Valkey GA
  ↓ 2025年以降
新規プロジェクト = Valkey が標準

ElastiCache for Valkey の特徴

特徴	内容
Redis 完全互換	クライアント SDK 変更不要、エンドポイント切替で移行可能
Valkey 8.0 / 9.0 対応	最新マイクロスレッド化、パフォーマンス向上
ライセンスリスク zero	BSD License、SaaS 提供・クラウド化でも制限なし
AWS サポート	ElastiCache サポートプラン適用、24/7 対応
コスト同等	Redis OSS と同価格（移行コスト最小）
Serverless 対応	Valkey Serverless で自動スケール

移行パス

既存 Redis OSS クラスター
  ↓ (1) Snapshot 作成
  ↓ (2) Valkey クラスターで復元
  ↓ (3) エンドポイント変更
  ↓ (4) クライアント再接続
Valkey クラスター（ダウンタイム最小）

ElastiCache Serverless（自動スケール）

初心者向けメモ： 従来の ElastiCache は「ノードサイズとレプリカ数を事前に決める」キャパシティプランニングが必須でした。ElastiCache Serverless は、その制約を完全に排除し、「トラフィックに応じて自動スケール」させます。

Serverless の仕組み

┌──────────────────────────────────┐
│ ElastiCache Serverless (Valkey)  │
│                                   │
│  ECPU 単位（ElastiCache Compute Unit）│
│  1 ECPU = 計算能力 1 単位           │
│  メモリは需要に応じて自動配分        │
│                                   │
│  高トラフィック期 → ECPU 自動増加   │
│  低トラフィック期 → ECPU 自動削減   │
│  （スケール遅延 < 1 秒）             │
└──────────────────────────────────┘

従来型 vs Serverless の比較

項目	従来型	Serverless
課金	ノード/時間	ECPU/時間 + GB ストレージ/時間
キャパシティ計画	⚠️ 事前決定、スケール遅延	✅ 自動、ほぼ即座
最小コスト	キャッシュサイズ × ノード数	実使用量ベース（可変）
スパイク対応	❌ オーバープロビジョニング必要	✅ 自動スケール
マルチ AZ	✅	✅
バックアップ	✅	✅
推奨	稼働率高・予測可能	スパイク多・予測困難

Serverless の課金例

ベース：24h × 30日
  → ECPU 2 個 × $0.25/h × 720h = $360/月
  → ストレージ 5GB × $0.10/GB/h × 720h = $360/月
  → 合計：$720/月

ピーク時スパイク（1h, ECPU 10倍）
  → 追加 ECPU 8 × $0.25/h = $2
  → 総コスト：$722/月（追加 $2 のみ）

判定：スパイク時のみ ECPU 増加、平時は最小化、月額コスト予測可能。

主要ユースケース（10+）

初心者向けメモ： ElastiCache は「万能ツール」ですが、実装では「なぜこのユースケースに Valkey/Redis なのか」を理解することが大切です。

1. キャッシングレイヤー（Session Cache）

DB 前段にキャッシュレイヤーを挿入、読み取り負荷を 80-90% 削減。

def get_user_profile(user_id):
    cache_key = f"user:{user_id}"
    cached = elasticache.get(cache_key)
    if cached:
        return json.loads(cached)  # Hit: 1ms
    
    user = rds.query(User).get(user_id)  # Miss: 50ms
    elasticache.setex(cache_key, 3600, json.dumps(user))
    return user

2. セッション管理

複数 Web サーバー間でセッション共有。ステートレスなスケーリング実現。

# ログイン時
session_id = generate_uuid()
elasticache.hset(f"session:{session_id}", "user_id", user_id, "login_time", now())
elasticache.expire(f"session:{session_id}", 1800)  # 30分

# リクエスト認証
user_id = elasticache.hget(f"session:{session_id}", "user_id")

3. リアルタイムランキング（Sorted Set）

ゲーム・SNS のスコア・いいね・フォロー数ランキング。

ZADD leaderboard 100 "player1"
ZADD leaderboard 95 "player2"
ZADD leaderboard 110 "player3"

ZREVRANGE leaderboard 0 9 WITHSCORES  # TOP 10
→ [("player3", 110), ("player1", 100), ("player2", 95)]

ZINCRBY leaderboard 5 "player2"  # スコア加算（O(log n)）

4. レート制限（Token Bucket）

API レート制限、DDoS 対策、ユーザーごとの行動制限。

def is_request_allowed(user_id, max_req=100, window=60):
    key = f"rate:{user_id}"
    current = elasticache.incr(key)
    if current == 1:
        elasticache.expire(key, window)
    return current <= max_req

5. Pub/Sub メッセージング

マイクロサービス間・WebSocket クライアント間のリアルタイムブロードキャスト。

# Publisher
elasticache.publish("channel:notifications", json.dumps({
    "type": "user_update",
    "user_id": 123
}))

# Subscriber（WebSocket に接続）
elasticache.subscribe("channel:notifications")

6. Streams（イベントログ・キュー）

永続化・グループ処理・確実な配信。Pub/Sub より信頼性高い。

XADD events * type "order_created" order_id 456 user_id 123
XADD events * type "payment_processed" order_id 456 status "success"

XREAD COUNT 10 STREAMS events 0
→ イベント時系列取得

XGROUP CREATE events workers $
XREADGROUP GROUP workers consumer1 STREAMS events >
→ グループで分散処理、ACK で確実な消費

7. リアルタイムカウンター

ページビュー・アクティブユーザー・いいね数カウント。

# PV カウント
elasticache.incr(f"pv:{page_id}")
elasticache.expire(f"pv:{page_id}", 86400)  # 1日

# アクティブユーザー
elasticache.sadd(f"active:{date}", user_id)
elasticache.expire(f"active:{date}", 86400)

today_active = elasticache.scard(f"active:{date}")  # O(1)

8. 分散ロック

マイクロサービス間の排他制御・リソース競合防止。

lock_key = f"lock:resource:{resource_id}"
if elasticache.set(lock_key, "1", nx=True, ex=10):  # NX=if not exists
    try:
        # クリティカルセクション
        process_resource()
    finally:
        elasticache.delete(lock_key)

9. HyperLogLog（ユニーク数推定）

訪問ユーザー数・ユニーク IP 数を確率的に推定。空間効率的。

# 日次ユニーク訪問者
elasticache.pfadd(f"visitors:{date}", user_id_1, user_id_2, user_id_3, ...)

daily_unique = elasticache.pfcount(f"visitors:{date}")
# 結果：≈ 10234 ユーザー（誤差 < 2%）

10. Bitmap（ユーザーアクティブ状態）

ユーザー出席・購入有無・機能有効化状態のフラグ管理。

# ユーザー123が2026年4月25日に出席
elasticache.setbit(f"attendance:{date}", 123, 1)

# 本日出席者数
elasticache.bitcount(f"attendance:{date}")

# 2つの日の共通出席者
elasticache.bitop("AND", f"common:{date1}_{date2}", 
                  f"attendance:{date1}", f"attendance:{date2}")

11. 地理情報検索（Geospatial）

位置情報ベースの検索（近くの店舗・ドライバーマッチング）。

# 座標登録
elasticache.geoadd("restaurants", 139.7, 35.7, "ramen_a", 139.8, 35.8, "sushi_b")

# 半径 2km 内の店舗
restaurants = elasticache.georadius("restaurants", 139.75, 35.75, 2, "km")
→ ["ramen_a", "sushi_b"]

# 距離計算
dist = elasticache.geodist("restaurants", "ramen_a", "sushi_b", "km")

12. キャッシュされたベクトル・埋め込み（AI/RAG）

LLM の埋め込みベクトルをキャッシュ、セマンティックサーチ加速。

# 埋め込みベクトル化（OpenAI）
embedding = openai.Embedding.create(input="机の上の猫", model="text-embedding-3-small")

# ElastiCache に保存
elasticache.json.set(f"embedding:query:123", "{{CONTENT}}quot;, {
    "text": "机の上の猫",
    "vector": embedding['data'][0]['embedding'],  # [0.1234, ..., 0.5678]
    "timestamp": now()
})

デプロイモード（Cluster Mode Enabled / Disabled）

モード	構成	スケール	用途
Cluster Mode Disabled	Primary + max 5 Replicas（1 シャード）	スケールアップ型	メモリ < 100GB、読み取り多い
Cluster Mode Enabled	max 500 シャード × (Primary + Replicas)	スケールアウト型	メモリ > 100GB、分散必須
Serverless	ECPU 単位、キャパシティ管理不要	自動スケール型	スパイク多い、予測困難

デプロイモード選択フロー

graph TD
    A["キャッシュサイズ<br/>推定?"] -->|< 50GB| B["読み取り比率<br/>多い?"]
    A -->|50-300GB| C["Cluster Mode<br/>有効 推奨"]
    A -->|> 300GB| D["Cluster Mode<br/>有効 必須"]
    B -->|YES| E["Cluster Mode<br/>Disabled"]
    B -->|NO| F["Cluster Mode<br/>Enabled 検討"]
    
    G["スパイク<br/>多い?"] -->|YES| H["Serverless"]
    G -->|NO| I["Self-Designed"]
    
    style E fill:#99ff99
    style C fill:#ffcc99
    style D fill:#ff9999
    style H fill:#99ccff

高可用性（Multi-AZ, Auto Failover, Replicas）

初心者向けメモ： 本番環境では、キャッシュの障害がアプリケーション全体に波及します。必ず Multi-AZ + Automatic Failover を設定してください。

Multi-AZ アーキテクチャ

┌──────────────────────────────────────┐
│ ElastiCache Replication Group (HA)   │
│                                       │
│ AZ-a:                AZ-b:            │
│ Primary Node    →    Replica Node    │
│ (Write)             (Read)            │
│                  ↕ Automatic failover │
│ Replica Node 2 (AZ-c)                │
│                                       │
│ フェイルオーバー時間: 60秒以内         │
│ DNS エンドポイント自動切替            │
└──────────────────────────────────────┘

Automatic Failover 有効化

# AWS CLI
aws elasticache create-replication-group \
  --replication-group-description "HA Cluster" \
  --engine valkey \
  --cache-node-type cache.r7g.large \
  --num-cache-clusters 3 \
  --automatic-failover-enabled \
  --multi-az \
  --at-rest-encryption-enabled \
  --transit-encryption-enabled

フェイルオーバーの流れ

検出：CloudWatch アラーム or ElastiCache が Primary 異常を検出
승격：最適な Replica を新 Primary に昇格（選出ロジックは AWS 決定）
재접소：DNS エンドポイント自動切替、クライアント自動再接続
재구축：新 Replica をフルサイズで構築（数分要す）

推奨設定（本番）

✅ Multi-AZ: Enabled
✅ Automatic Failover: Enabled
✅ Replicas: 最小 2 個（Primary + 2 Replicas = 3 ノード）
✅ Subnet Group: 異なる AZ に配置
✅ Security Group: 最小権限で 6379/6380 のみ許可

バックアップとリストア（Snapshot, AOF）

初心者向けメモ： キャッシュデータは「失ってもよい」という前提が一般的ですが、重要なセッション・レートリミットは永続化対象にする場合があります。

RDB（Snapshot）

定期的にメモリ全体をディスクに保存し、ディザスタリカバリ・別環境での復元に対応。

項目	内容
保存方式	BGSAVE（バックグラウンド）
復旧時間	短い（GB 単位で数秒～数分）
ファイルサイズ	圧縮されている、小さい
頻度	毎日/毎週自動、手動スナップショット可
保持期間	AWS 設定（デフォルト 5 日）
使用例	セッションデータのバックアップ、PITR（Point In Time Recovery）

AOF（Append Only File）

全ての書き込みコマンドをログ記録し、再起動時に完全復旧。

項目	内容
保存方式	追記のみ（命令列を記録）
復旧時間	長い（全コマンドを再実行）
ファイルサイズ	大きい（RDB の 5-10 倍）
データ喪失リスク	最小（最後のコマンドまで復旧）
使用例	重要なセッション、トランザクション確実性

Hybrid（RDB + AOF）

RDB の高速復旧 + AOF の完全性を融合（Valkey/Redis 推奨）。

# ElastiCache パラメータグループ
appendonly: "yes"  # AOF 有効
appendfsync: "everysec"  # 毎秒 fsync
aof-use-rdb-preamble: "yes"  # RDB 冒頭

永続化戦略選択基準

用途	推奨	理由
純粋キャッシュ（失ってもOK）	なし	メモリのみ、最速
セッション	RDB（1日1回）	定期バックアップで十分
金融・取引	Hybrid（AOF + RDB）	最高信頼性
メッセージキュー	AOF（毎秒）	漏落防止

セキュリティ（VPC, AUTH/ACL, TLS, KMS, IAM Auth）

初心者向けメモ： ElastiCache はデフォルトではセキュリティが弱いです（デフォルトポート 6379 は認証なし）。本番環境では以下を必須で実装してください。

セキュリティ層（多層防御）

┌──────────────────────────────────────┐
│ インターネット（攻撃者）              │
├──────────────────────────────────────┤
│ Layer 1: VPC ファイアウォール（NACLs）│
├──────────────────────────────────────┤
│ Layer 2: Security Group（6379 許可） │
├──────────────────────────────────────┤
│ Layer 3: TLS 暗号化（In-Transit）    │
├──────────────────────────────────────┤
│ Layer 4: AUTH Token / IAM Auth       │
├──────────────────────────────────────┤
│ Layer 5: KMS 暗号化（At-Rest）       │
├──────────────────────────────────────┤
│ ElastiCache Cluster（保護）          │
└──────────────────────────────────────┘

1. VPC 隔離

ElastiCache をプライベートサブネットに配置し、インターネット直接露出を防止。

# CloudFormation
ElastiCacheSubnetGroup:
  Type: AWS::ElastiCache::SubnetGroup
  Properties:
    Description: "Private subnets"
    SubnetIds:
      - subnet-private-1a
      - subnet-private-1b
      - subnet-private-1c

2. Security Group（最小権限）

# ElastiCache へのアクセスを必要なアプリケーションのみに限定
SecurityGroupElastiCache:
  Type: AWS::EC2::SecurityGroup
  Properties:
    GroupDescription: "ElastiCache SG"
    SecurityGroupIngress:
      - IpProtocol: tcp
        FromPort: 6379
        ToPort: 6379
        SourceSecurityGroupId: !Ref AppSecurityGroup  # アプリのセキュリティグループのみ

3. TLS/SSL 暗号化（In-Transit）

通信経路を暗号化し、ネットワーク傍受を防止。

aws elasticache create-replication-group \
  --transit-encryption-enabled \
  --transit-encryption-mode preferred  # TLS 1.2 / 1.3

4. AUTH Token（パスワード）

Redis/Valkey の基本認証。6.0 以前の方式。

# クラスター作成時に設定
--auth-token "very-strong-password-at-least-32-chars!"

クライアント接続：

import redis
r = redis.Redis(
    host="elasticache-endpoint.xxxxx.ng.0001.use1.cache.amazonaws.com",
    port=6379,
    password="very-strong-password-at-least-32-chars!",
    decode_responses=True
)

5. ACL（Access Control List）

Redis 6.0+ / Valkey。ユーザーごとのコマンド・キー権限制御。

# ユーザー作成
redis-cli ACL SETUSER app on >password +@all ~* &

# 権限限定（GET/SET のみ）
redis-cli ACL SETUSER limited_app on >pwd +get +set ~cache:* -@dangerous

# ACL 保存
redis-cli ACL SAVE

6. KMS 暗号化（At-Rest）

ディスク上のデータを KMS で暗号化し、物理ディスク盗難対策。

aws elasticache create-replication-group \
  --at-rest-encryption-enabled \
  --kms-key-id arn:aws:kms:us-east-1:123456789012:key/12345678-1234-1234-1234-123456789012

7. IAM 認証（Serverless）

AWS IAM 統合。トークン有効期限 15 分。アプリケーションに認証情報を保持不要。

# Serverless ElastiCache は IAM 認証を自動利用
import boto3
from elasticache_auth import get_auth_token

token = get_auth_token(
    node_id="valkey-node-xxxx",
    user_id="default",
    ttl_seconds=900  # 15 分
)

r = redis.Redis(
    host="elasticache-endpoint.serverless.xxxxx.cache.amazonaws.com",
    port=6379,
    username="default",
    password=token,
    ssl=True
)

セキュリティチェックリスト

✅ VPC 内プライベートサブネット配置
✅ Security Group で 6379 を必要なセキュリティグループのみ許可
✅ TLS 暗号化有効化
✅ AUTH Token または IAM Auth 設定
✅ ACL で最小権限を実施（管理ユーザーは制限、アプリは読み取り/書き込みのみ）
✅ KMS で保存暗号化（金融・個人情報扱う場合）
✅ CloudTrail で API アクセス監視
✅ Automatic Failover で障害時自動復旧
✅ 定期的にパスワード/トークンをローテーション
✅ Snapshot を別 AWS アカウント・地域に複製（ディザスタリカバリ）

モニタリング（CloudWatch, Slowlog, Engine Logs）

初心者向けメモ： 本番環境では、「クラスター全体の状態」と「ホットキーなど異常」をリアルタイム監視する必要があります。

CloudWatch メトリクス

メトリクス	意味	アラート値
CPUUtilization	CPU 使用率	> 75%
NetworkBytesIn/Out	ネットワーク転送	スパイク検出
DatabaseMemoryUsagePercentage	メモリ使用率	> 85%
EvictionRate	LRU 削除数/秒	> 0（改善優先）
ReplicationLag	Master-Replica 遅延(ms)	> 1000ms（HA 要注意）
UnresolvedWriteConflicts	未解決書き込み競合	> 0（ログ確認）
ItemCount	キー総数	容量計画用
Connections	接続数	maxclients に接近時

Slowlog

遅いコマンドを記録（実行時間 > 10ms デフォルト）。

import redis
r = redis.Redis(host="elasticache-endpoint")

# Slowlog 取得
slowlog = r.slowlog_get(10)
for entry in slowlog:
    print(f"ID: {entry['id']}, Duration: {entry['duration']}μs, Command: {entry['command']}")

Engine Logs

ElastiCache が出力するログ（バージョンアップグレード・障害情報等）。

# CloudWatch Logs で確認
/aws/elasticache/valkey/cluster-name
→ ERROR: READONLY when replica cannot write
→ WARNING: Master link down, running in single node mode

Monitoring Dashboard（推奨構成）

# Grafana で可視化
Metrics Query:
  - CPU: aws_elasticache_cpu_utilization{cluster_name="my-cluster"}
  - Memory: aws_elasticache_database_memory_usage_percentage{cluster_name="my-cluster"}
  - Eviction: rate(aws_elasticache_eviction_total[5m])
  - Replication Lag: aws_elasticache_replication_lag
  - Connections: aws_elasticache_current_connections

パフォーマンスチューニング

1. Eviction Policy（メモリ満杯時の削除戦略）

ポリシー	削除対象	推奨
`allkeys-lru`	すべてのキー中、最近使用されていないもの	一般的
`allkeys-lfu`	すべてのキー中、アクセス頻度が低いもの	キャッシュ用
`volatile-lru`	TTL 付きキーのみ LRU	セッション混在
`volatile-ttl`	TTL 付きキーのうち、有効期限が近いもの	混合用途
`noeviction`	削除せず、書き込みエラー返却	❌ 非推奨

# パラメータグループ
maxmemory-policy: "allkeys-lru"  # キャッシュレイヤー向け

2. Connection Pooling

毎回新規接続を避け、接続をプール化。

import redis
from redis.connection import BlockingConnectionPool

pool = BlockingConnectionPool(
    host="elasticache-endpoint",
    port=6379,
    max_connections=50,
    socket_keepalive=True,
    socket_keepalive_options={
        1: 1,  # TCP_KEEPIDLE
        2: 1,  # TCP_KEEPINTVL
        3: 3,  # TCP_KEEPCNT
    }
)

r = redis.Redis(connection_pool=pool)

3. Pipeline（バッチ処理）

複数コマンドをまとめて送信、往復 RTT 削減。

# バッチ処理
pipe = r.pipeline()
for i in range(1000):
    pipe.set(f"key:{i}", f"value:{i}")
pipe.execute()

# RTT: 1 回（1000 コマンド同時）

4. Read Replica スケーリング

読み取り専用レプリカを追加、読み取りスケール。

# Cluster Mode Disabled
Primary Node
  ↓ Replication
Replica 1 (Read-Only)
Replica 2 (Read-Only)
Replica 3 (Read-Only)

# アプリケーション側
read_endpoint = "elasticache-read.xxxxx.cache.amazonaws.com"
r_read = redis.Redis(host=read_endpoint, read_only=True)

5. Cluster Mode でのシャード分散

キーが均等にシャードに分散するよう設計。

# ❌ ホットキー（1 シャードに集中）
for user_id in range(1000000):
    r.incr(f"total_pv")  # 全ユーザーの PV 集約

# ✅ 分散キー
for user_id in range(1000000):
    r.incr(f"pv:{user_id}")  # ユーザー単位で分散

6. データ型最適化

小さいデータ型を選択、メモリ効率向上。

# ❌ 非効率
for i in range(100):
    r.set(f"flag:{i}:active", 1)  # 100 キー

# ✅ 効率的
r.setbit("active_flags", 0, 1)
r.setbit("active_flags", 1, 1)
# ... （1 キー）

7. Hot Key Detection

特定キーへのアクセス集中を検出・回避。

# redis-cli で検出
redis-cli --hotkeys

# ホットキーの対策
# 1) デバッシュ（セカンダリキャッシュ）
# 2) シャード分散（user_id ごと）
# 3) Read Replica で読み取り分散

Redis vs Valkey vs Memcached 使い分け

判断軸	Redis	Valkey	Memcached
ライセンス安全性	⚠️ SSPL（2024.3～）	✅ BSD（推奨）	✅ BSD
豊かなデータ構造	✅	✅ 同等	❌ String のみ
永続化	✅ RDB/AOF	✅ 同等	❌
Pub/Sub	✅	✅ 同等	❌
Streams	✅	✅ 同等	❌
マルチスレッド	限定的	✅ v8.0+	✅
ベクトル検索	✅ RedisSearch	⏳ 開発中	❌
管理複雑さ	中	中（同等）	低
新規プロジェクト	⚠️ 移行推奨	✅ 標準選択	✅ シンプル用途
既存 Redis 移行	-	✅ ほぼ無コスト	❌ 大規模改修

選択フロー

graph TD
    A["データ構造が<br/>必要?"] -->|String のみ| B["管理<br/>シンプル優先?"]
    A -->|List/Set/Stream等| C["新規<br/>プロジェクト?"]
    B -->|YES| D["Memcached"]
    B -->|NO| E["Valkey<br/>（性能重視）"]
    C -->|YES| F["Valkey"]
    C -->|NO| G["既存 Redis<br/>利用継続<br/>→ Valkey 段階移行"]
    
    style F fill:#99ff99
    style D fill:#99ff99
    style E fill:#ffcc99

マイグレーション（Redis → Valkey）

初心者向めメモ： Valkey は Redis 完全互換なので、ほぼ 「エンドポイント変更のみ」 でマイグレーション可能です。

段階的マイグレーション

フェーズ 1：検証（1-2週）

# 1. Valkey テストクラスター作成
aws elasticache create-replication-group \
  --replication-group-description "Valkey Test" \
  --engine valkey \
  --cache-node-type cache.r7g.large

フェーズ 2：データ復元（数分）

# 1. 既存 Redis のスナップショット作成
aws elasticache create-snapshot \
  --replication-group-id redis-cluster \
  --snapshot-name redis-snapshot-20260425

# 2. Valkey クラスターで復元
aws elasticache restore-cache-cluster-from-snapshot \
  --cache-cluster-id valkey-test \
  --snapshot-name redis-snapshot-20260425

フェーズ 3：接続テスト

# 既存 Redis エンドポイント
redis_endpoint = "redis-cluster.xxxxx.cache.amazonaws.com"

# Valkey エンドポイント（同じクライアントコード）
valkey_endpoint = "valkey-test.xxxxx.cache.amazonaws.com"

# クライアント側は変更なし
r = redis.Redis(host=valkey_endpoint)
r.set("test", "value")
r.get("test")  # → "value"

フェーズ 4：本番切替（ダウンタイム最小）

# 1. アプリケーション設定を Valkey エンドポイントに変更
# 2. デプロイ（Blue/Green で段階的）
# 3. Redis クラスター削除
aws elasticache delete-replication-group \
  --replication-group-id redis-cluster \
  --retain-cache-nodes

注意点

✅ クライアント SDK は 完全互換（redis-py, ioredis 等そのまま利用可）
✅ キー・データ構造変更不要
❌ Lua スクリプトに Redis バージョン固有機能がある場合テスト必須
❌ ACL・ユーザー設定は手動で再設定

ElastiCache vs MemoryDB の違い

項目	ElastiCache	MemoryDB
用途	キャッシュレイヤー	永続インメモリデータベース
データ永続化	オプション	デフォルト（多重冗長）
ACID トランザクション	❌	✅
Multi-AZ フェイルオーバー	✅（数秒遅延）	✅ （ほぼ瞬時）
クラスタリング	Cluster Mode	Shards + Replicas
バックアップ	Snapshot（オプション）	自動（連続）
PITR（Point In Time Recovery）	❌	✅ 35日間
価格	低（キャッシュ）	高（永続性重視）
推奨用途	DB 前段キャッシュ、セッション管理	金融取引、監査ログ、信頼性重視

使い分け

ElastiCache：失ってもよい / リカバリ不要 / 高速・低コスト優先
MemoryDB：データ損失ゼロ必須 / 監査・コンプライアンス要件 / トランザクション重視

# 典型的なアーキテクチャ
App
  ├─ ElastiCache（キャッシュ、セッション）
  ├─ MemoryDB（トランザクションログ、監査）
  └─ RDS/DynamoDB（永続 DB）

他の類似ツールとの比較

AWS 内の選択肢

サービス	用途	特徴
ElastiCache	キャッシュ・セッション	Valkey/Redis/Memcached、Serverless
MemoryDB	永続インメモリ DB	ACID、多重冗長、PITR
DAX（DynamoDB Accelerator）	DynamoDB 前段キャッシュ	DynamoDB 専用、管理最小
ElastiCache Cluster Cache	Redis Cluster	Cluster Mode Enabled

AWS 外の競合サービス

サービス	特徴	推奨度
Redis Cloud（Redis Inc.）	マネージド Redis、Valkey 対応（予定）	✅ マルチクラウド対応
Upstash	Serverless Redis、従量課金	✅ スパイク多い場合
Azure Cache for Redis	Azure 統合	✅ Azure ユーザー
Google Memorystore	GCP 統合、Valkey 対応（予定）	✅ GCP ユーザー
DragonflyDB	OSS（モダン C++、マルチスレッド）	⚠️ Redis フォーク
KeyDB	マルチスレッド Redis フォーク	❌ メンテ不安定

クライアントとエコシステム

主要クライアントライブラリ

言語	ライブラリ	特徴
Python	redis-py	標準的、安定、async 対応
Node.js	ioredis / node-redis	非同期、Promise ベース
Java	Lettuce / Jedis	Lettuce 推奨（非ブロッキング）
Go	go-redis	軽量、高速
Rust	redis-rs	パフォーマンス重視
Ruby	redis-rb	Rails インテグレーション
C#	StackExchange.Redis	.NET 標準
PHP	phpredis	Laravel/Symfony

管理ツール

ツール	特徴
redis-cli	コマンドラインツール、監視・デバッグ
RedisInsight	GUI、ビジュアルキーブラウザ、プロファイリング
Grafana + Prometheus	メトリクス可視化、アラート
Datadog	APM・ログ統合監視

ベストプラクティス

キー設計

# ✅ 階層的、意味明確
"user:123:profile"
"user:123:sessions:abc123def"
"leaderboard:weekly:2026-04-25"
"cache:products:electronics"

# ❌ 曖昧、検索困難
"user"
"data1"
"x"

TTL（有効期限）設定

# キャッシュは必ず有効期限を設定
r.setex("cache:user:123", 3600, json_data)  # 1時間
r.setex("session:abc", 1800, user_info)      # 30分

# 動的 TTL
expiry = 3600 if is_premium else 300
r.setex(f"limit:{user_id}", expiry, count)

Connection Pooling

# ✅ 接続プール
pool = redis.ConnectionPool(host="elasticache", max_connections=50)
r = redis.Redis(connection_pool=pool)

# ❌ 毎回新規接続（避ける）
for i in range(1000):
    r = redis.Redis(host="elasticache")  # オーバーヘッド

エラー処理・リトライ

import redis
from redis.exceptions import ConnectionError, TimeoutError

def get_with_retry(key, max_retries=3):
    for attempt in range(max_retries):
        try:
            return r.get(key)
        except (ConnectionError, TimeoutError) as e:
            if attempt == max_retries - 1:
                raise
            time.sleep(2 ** attempt)  # exponential backoff

セキュリティ

✅ VPC 内にのみ配置
✅ TLS 暗号化有効化
✅ AUTH Token または IAM Auth 設定
✅ ACL で最小権限実施
✅ 定期的なパスワードローテーション
✅ CloudTrail で監査ログ

監視・アラート

CloudWatch Alarms:
  - MemoryUtilization > 85%
  - CPUUtilization > 75%
  - EvictionRate > 0
  - ReplicationLag > 1000ms
  - CurrentConnections > maxclients × 0.9

トラブルシューティング

メモリ不足（OOM）

症状：READONLY エラー、キー自動削除
原因：maxmemory 上限到達、TTL 設定不足
対策：
  1. maxmemory 増加（ノードアップグレード）
  2. TTL 設定確認（INFO keyspace）
  3. maxmemory-policy を allkeys-lru に変更
  4. 不要キー削除

レイテンシ増加

症状：SLOWLOG に 100ms 以上のコマンド
原因：大きなリスト操作、KEYS * 等ブロッキングコマンド
対策：
  1. SLOWLOG GET で原因コマンド特定
  2. SCAN に変更（非ブロッキング）
  3. パイプライン化（往復削減）
  4. ホットキー検出・分散

レプリケーション遅延

症状：Master-Replica のデータズレ
原因：大量書き込み、遅いネットワーク
対策：
  1. repl-backlog-size 増加
  2. ネットワーク帯域幅確認
  3. Replica の読み取り負荷削減
  4. Cluster Mode で分散

接続エラー

症状：Connection refused, timeout
原因：ポート未開放、maxclients 上限、認証失敗
対策：
  1. Security Group で 6379 許可確認
  2. maxclients 増加（CONFIG SET maxclients 10000）
  3. 接続プール最適化
  4. AUTH Token 確認

2025-2026 最新動向

Valkey 採用拡大

Valkey 8.0/9.0：マルチスレッド化、パフォーマンス向上
AWS 全プロダクト対応：ElastiCache・MemoryDB・Lambda Extensions
Linux Foundation 配下：企業サポート増加、ライセンス安全性確立

Vector Search・AI 対応

Redis Stack / Valkey Stack：

# ベクトル検索（RAG）
embedding = openai.Embedding.create(...)
r.execute_command("FT.ADD", "docs", embedding)  # RedisSearch

query_embedding = openai.Embedding.create(...)
similar_docs = r.execute_command("FT.SEARCH", "@embedding:[VECTOR]")

ElastiCache Serverless 拡張

自動スケール精度向上
ベクトル検索対応予定
コスト最適化機能

IAM 認証強化

Serverless でネイティブ IAM Auth
短命トークン（15 分）
パスワード管理不要

学習リソース

公式ドキュメント

オンライン講座

A Cloud Guru・Linux Academy：ElastiCache, Redis コース
Udemy：Redis in Practice コース
YouTube：AWS ElastiCache チュートリアル

書籍

「Redis インアクション」（O’Reilly）
「Redis デザインパターン」

コミュニティ

AWS Slack（#elasticache）
Redis Discord
Stack Overflow（redis, aws-elasticache タグ）

実装例・活用シーン

シーン 1：eコマースカタログキャッシング

import redis
import json
from functools import wraps

r = redis.Redis(host="elasticache-endpoint")

@wraps(get_product_db)
def get_product(product_id):
    cache_key = f"product:{product_id}"
    
    # キャッシュ確認
    cached = r.get(cache_key)
    if cached:
        return json.loads(cached)
    
    # DB から取得
    product = rds.query(Product).get(product_id)
    
    # キャッシュ保存（1時間）
    r.setex(cache_key, 3600, json.dumps(product.to_dict()))
    
    return product.to_dict()

# 使用例
product = get_product(123)

シーン 2：ゲームリーダーボード

# スコア更新
r.zadd("leaderboard", {player_id: score})

# TOP 10 取得
top_10 = r.zrevrange("leaderboard", 0, 9, withscores=True)

# プレイヤーのランク取得
rank = r.zrevrank("leaderboard", player_id) + 1

# スコア増加
r.zincrby("leaderboard", points_earned, player_id)

シーン 3：API レート制限

def rate_limit(user_id, max_requests=100, window=60):
    key = f"rate:{user_id}"
    
    try:
        current = r.incr(key)
        if current == 1:
            r.expire(key, window)  # 初回のみ有効期限設定
        
        return current <= max_requests
    except Exception:
        # キャッシュダウン時は許可
        return True

# 使用例
@app.before_request
def check_rate_limit():
    if not rate_limit(request.remote_addr):
        return {"error": "Rate limit exceeded"}, 429

シーン 4：ユーザーセッション管理

def create_session(user_id, user_data):
    session_id = f"session:{uuid.uuid4()}"
    r.hset(session_id, mapping={
        "user_id": user_id,
        "created_at": datetime.now().isoformat(),
        **user_data
    })
    r.expire(session_id, 1800)  # 30分
    return session_id

def get_session(session_id):
    session_data = r.hgetall(session_id)
    return session_data if session_data else None

def delete_session(session_id):
    r.delete(session_id)

シーン 5：リアルタイム通知（Pub/Sub）

# Publisher（イベント発生）
def send_notification(user_id, message):
    notification = {
        "user_id": user_id,
        "message": message,
        "timestamp": datetime.now().isoformat()
    }
    r.publish(f"notifications:{user_id}", json.dumps(notification))

# Subscriber（WebSocket）
def subscribe_to_notifications(user_id):
    pubsub = r.pubsub()
    pubsub.subscribe(f"notifications:{user_id}")
    
    for message in pubsub.listen():
        if message['type'] == 'message':
            notification = json.loads(message['data'])
            # WebSocket でクライアントに配信
            ws.send(json.dumps(notification))

導入ロードマップ

Phase 1：検証・学習（1-2週）

1. ElastiCache コンセプト理解（このガイド参照）
2. ローカル Redis / Valkey インストール
3. 基本コマンド実装（SET/GET/ZADD 等）
4. クライアントライブラリ（redis-py, ioredis）選定
5. シンプルなキャッシングデモ実装

Phase 2：開発環境セットアップ（1-2週）

1. AWS アカウント ElastiCache クラスター作成
2. VPC・Security Group 設定
3. クライアント接続確認
4. アプリケーション統合（connection pool）
5. キー設計・TTL 方針決定
6. 基本的なエラーハンドリング実装

Phase 3：本番準備（2-4週）

1. Cluster Mode 選択（Disabled or Enabled or Serverless）
2. Multi-AZ・Automatic Failover 設定
3. 永続化戦略（RDB/AOF/Hybrid）決定
4. セキュリティ設定（TLS/AUTH/KMS）
5. CloudWatch 監視・アラート構築
6. バックアップ・リカバリテスト
7. パフォーマンステスト・ロードテスト
8. 本番環境 runbook 作成

Phase 4：本番運用（継続）

1. 段階的ロールアウト（Blue/Green）
2. 監視ダッシュボード稼働
3. インシデント対応体制
4. 定期バックアップ・リカバリ訓練
5. パフォーマンスチューニング（ホットキー検出・対策）
6. セキュリティレビュー・パスワードローテーション
7. バージョンアップ・パッチ管理

実装チェックリスト

アーキテクチャ設計

[ ] エンジン選定（Valkey / Redis OSS / Memcached）
[ ] デプロイモード決定（Cluster Mode / Serverless）
[ ] Multi-AZ・Automatic Failover の必要性判定
[ ] 初期キャパシティ推定（メモリサイズ）
[ ] Subnet Group・Security Group 設計