Amazon SageMaker AI 完全ガイド 2026

初心者から実務者向けの包括的解説

Amazon SageMaker AI は、機械学習モデルの構築・学習・デプロイ・監視をエンドツーエンドでサポートする フルマネージド ML プラットフォーム です。2016 年の発表から進化を続け、2025-2026 年には SageMaker Lakehouse やジェネレーティブ AI ワークフロー統合により、データ分析から生成 AI まで統合プラットフォームへと拡張されています。本ドキュメントは、SageMaker AI の概念・機能・実装パターン・エコシステム・最新動向を体系的に解説する包括的ガイドです。

ドキュメントの目的

本ガイドは以下を対象としています。

初心者向け： SageMaker AI とは何か、なぜ必要かを学びたい方
データサイエンティスト向け： Studio IDE でモデル構築・実験を行いたい方
ML エンジニア向け： Training / Inference / Pipelines を構築したい方
MLOps / SRE 向け： Model Monitor・Pipelines でモデル監視・自動化を構築したい方
意思決定者向け： SageMaker AI vs Vertex AI vs Azure ML vs Bedrock の比較・投資判断

2026 年の SageMaker AI エコシステム

SageMaker AI リブランド：旧 SageMaker の統合 ML プラットフォーム
新 SageMaker（Lakehouse）：データレイク・ウェアハウス統合プラットフォーム
SageMaker HyperPod： 大規模分散学習・Foundation Model 学習基盤
SageMaker Canvas： ノーコード ML 構築ツール
SageMaker JumpStart： Foundation Model ハブ（Llama 3、Falcon、Stable Diffusion 等）
SageMaker Clarify： バイアス・説明性分析自動化
SageMaker Model Monitor： ドリフト検知・継続監視
Bedrock 統合： 推論モデル利用と SageMaker カスタムモデル開発の使い分け明確化
生成 AI ワークフロー： RAG・ファインチューニング・Inference Optimization

概要
SageMaker AI が解決する課題
主な特徴
アーキテクチャ
コアコンポーネント
主要ユースケース
SageMaker Studio（IDE）
Training（学習）
Built-in Algorithms vs Bring-your-own
SageMaker JumpStart（Foundation Model Hub）
SageMaker HyperPod（大規模分散学習）
Inference（推論）
Multi-Model Endpoints
Inference Recommender
SageMaker Pipelines（MLOps）
Model Registry & Model Cards
Feature Store
Clarify（Bias & Explainability）
Model Monitor（Drift Detection）
Ground Truth（ラベリング）
Edge Manager
SageMaker Canvas（ノーコード）
SageMaker Lakehouse
Bedrock との関係
セキュリティ
モニタリング
コスト最適化
他の類似ツールとの比較
クライアントとエコシステム
ベストプラクティス
トラブルシューティング
2025-2026 最新動向
学習リソース
実装例・活用シーン
導入ロードマップ
実装チェックリスト
まとめ
参考文献

概要

初心者向けメモ： SageMaker AI は「ML モデルを作って本番運用する人が使う統合プラットフォーム」です。データ準備（Processing）→ モデル学習（Training）→ デプロイ（Inference）→ 監視（Model Monitor）までが 1 つの環境で完結します。一方、既存の Foundation Model を API で使いたい場合は Bedrock の方が適切です。

本質的定義

Amazon SageMaker AI は、以下の 5 つの側面を統合したフルマネージド ML プラットフォームです：

統合開発環境（IDE）： SageMaker Studio で Jupyter ノートブック・コード編集・実験管理
フルマネージド学習： Training Job で GPU/TPU を自動起動・使用時間のみ課金
モデルデプロイ： 複数の推論エンドポイント形式（リアルタイム・サーバーレス・バッチ・非同期）
MLOps 自動化： Pipelines で再現性のある ML ワークフロー、Model Monitor で品質保証
Foundation Model 統合： JumpStart でカスタマイズ・ファインチューニング、Bedrock で API 利用

このサービスを選ぶ理由

なぜ Amazon SageMaker AI でないといけないのか？

✅ SageMaker AI が必要な場合

フルカスタム ML モデル を構築・学習・デプロイしたい（PyTorch/TensorFlow/scikit-learn）
ファインチューニング で独自データに適応させた Foundation Model を作りたい
MLOps 自動化 で CI/CD パイプラインを構築したい
モデル品質 をドリフト検知・継続監視で本番保証したい
複数チーム による ML プロジェクト管理・実験追跡が必要

❌ SageMaker AI が不要な場合

既存 Foundation Model（Claude・GPT-4・Llama）を API で使うだけ → Bedrock
ノーコードで ML モデルを素早く構築したい → SageMaker Canvas または AutoML
自社データセンターで管理したい → SageMaker on EC2 または Databricks

公式ドキュメント

SageMaker AI が解決する課題

課題	従来の課題	SageMaker AI での解決
学習環境構築	EC2 インスタンス・Jupyter・ライブラリ設定が複雑	Studio IDE ですぐに開始・自動スケーリング
GPU コスト	常時稼働で毎月数万円のコスト発生	Training Job で使用時間のみ課金・Spot で 70% 削減
モデルデプロイ	エンドポイント・ロードバランサ・スケーリングの手動管理	複数推論形式（リアルタイム・サーバーレス・バッチ）の自動管理
実験管理	手動で実験結果・パラメータを管理・再現性なし	Experiments で自動追跡・再現性確保・バージョン管理
本番品質保証	モデル精度低下・データドリフトに気づかない	Model Monitor で自動検知・CloudWatch 通知
MLOps 構築	学習→評価→デプロイを手動で繰り返し	Pipelines で完全自動化・CI/CD 統合
データ準備	Pandas で手動スクリプト作成・品質管理困難	Data Wrangler・Processing で可視化・変換自動化
モデル管理	複数モデルバージョンの混在・メタデータ欠落	Model Registry で承認フロー・メタデータ管理

主な特徴

特徴	説明	メリット
Studio IDE	ブラウザベースの統合開発環境	コード記述・実験・デバッグが一箇所で完結
フルマネージド学習	Training Job で GPU/TPU を自動起動	インフラ管理不要・使用時間のみ課金
複数推論形式	リアルタイム・サーバーレス・バッチ・非同期	ユースケースに応じた最適な推論形式を選択
Distributed Training	分散学習・モデル並列化	大規模モデルを複数 GPU/TPU で学習
Hyperparameter Tuning	自動ハイパーパラメータ最適化	ベストパラメータを効率的に探索
Spot Training	EC2 Spot インスタンス活用	学習コスト 70% 削減
Warm Pool	ウォームスタート機能	Training Job 起動時間を短縮
JumpStart	300+ Foundation Model ハブ	Llama・Falcon・Stable Diffusion をワンクリックデプロイ
Foundation Model Fine-tuning	カスタムデータでファインチューニング	独自ドメイン適応の生成 AI モデルを作成
Model Registry	バージョン管理・承認フロー	本番デプロイ前の品質ゲート
Pipelines	MLOps 自動化	学習→評価→デプロイを自動実行
Model Monitor	ドリフト検知・品質監視	本番モデルの継続品質保証
Clarify	バイアス・説明性分析	公平性・信頼性の向上
Feature Store	特徴量管理・リアルタイム提供	学習・推論で一貫した特徴量利用
Multi-Model Endpoints	1 エンドポイントで複数モデル	インフラコスト削減・モデル切り替え柔軟化
Ground Truth	データラベリングサービス	クラウドソーシング・品質管理統合
Edge Manager	エッジデバイスへのモデル配置	IoT・エッジコンピューティング対応
Canvas	ノーコード ML 構築	ビジネスユーザーも ML 実装可能

アーキテクチャ

初心者向けメモ： SageMaker AI は 4 層構造です。データソース（S3・データベース）から取ってきたデータを、Processing で準備し、Training で学習し、Inference で推論し、Model Monitor で監視します。「SageMaker 自体がこれらの処理を全てマネージする」のが重要ポイントです。

【図1】SageMaker AI エンドツーエンドアーキテクチャ

graph TD
    subgraph DataLayer[データソース層]
        S3[Amazon S3]
        RDS[Amazon RDS]
        Redshift[Amazon Redshift]
        DynamoDB[Amazon DynamoDB]
    end
    subgraph PrepLayer[データ準備層]
        Processing[Processing Job]
        Wrangler[Data Wrangler]
        FeatureStore[Feature Store]
    end
    subgraph TrainingLayer[学習層]
        Studio[SageMaker Studio]
        TrainingJob[Training Job]
        HPO[Hyperparameter Tuning]
        Distributed[Distributed Training]
    end
    subgraph ModelLayer[モデル管理層]
        Registry[Model Registry]
        JumpStart[JumpStart Foundation Models]
    end
    subgraph InferenceLayer[推論層]
        RealTime[Real-time Endpoint]
        Serverless[Serverless Endpoint]
        Batch[Batch Transform]
        Async[Async Inference]
    end
    subgraph MonitorLayer[監視・MLOps層]
        Monitor[Model Monitor]
        Clarify[Clarify]
        Pipelines[SageMaker Pipelines]
        CloudWatch[CloudWatch]
    end

    DataLayer --> PrepLayer
    PrepLayer --> TrainingLayer
    TrainingLayer --> ModelLayer
    ModelLayer --> InferenceLayer
    InferenceLayer --> MonitorLayer
    MonitorLayer -->|フィードバック| TrainingLayer

コンポーネント間データフロー

┌─────────────────────────────────────────────────────────────────┐
│                    SageMaker AI データフロー                      │
├─────────────────────────────────────────────────────────────────┤
│ 1. データ取得                                                    │
│    S3 / RDS / Redshift → Processing Job → S3                   │
│                                                                  │
│ 2. データ探索                                                    │
│    Studio IDE → Data Wrangler → 可視化・変換                    │
│                                                                  │
│ 3. 特徴量準備                                                    │
│    S3 → Feature Store → Online/Offline 提供                     │
│                                                                  │
│ 4. モデル学習                                                    │
│    Training Job (PyTorch/TensorFlow/Spark)                      │
│    → HPO で最適パラメータ探索                                    │
│    → Model Registry でバージョン管理                             │
│                                                                  │
│ 5. モデルデプロイ                                                │
│    Model Registry → Inference Endpoint                          │
│    (リアルタイム / サーバーレス / バッチ / 非同期)               │
│                                                                  │
│ 6. 本番監視                                                      │
│    Endpoint → Data Capture → Model Monitor                      │
│    → Drift Detection → CloudWatch Alarm → 再学習                │
│                                                                  │
│ 7. 自動化（Pipelines）                                          │
│    上記 1-6 を定義した DAG で自動実行・スケジュール             │
└─────────────────────────────────────────────────────────────────┘

コアコンポーネント

1. SageMaker Studio

SageMaker Studio Documentation

概要

Studio は、ブラウザベースの統合開発環境（IDE） で、以下の機能を提供します：

JupyterLab インターフェース での Python・R・Scala コード実行
ノートブック・スクリプト・ターミナル の統合管理
リアルタイムコラボレーション で複数ユーザーが同時編集
Git 統合 でバージョン管理
実験追跡（Experiments） でパラメータ・メトリクスを自動記録

使用例

# SageMaker Studio で実行
import sagemaker
from sagemaker.pytorch.estimator import PyTorch

session = sagemaker.Session()
role = sagemaker.get_execution_role()

# 学習ジョブ定義
pytorch_estimator = PyTorch(
    entry_point='train.py',
    role=role,
    instance_count=1,
    instance_type='ml.p3.2xlarge',
    framework_version='2.0',
    py_version='py310',
)

# 非同期学習開始
pytorch_estimator.fit(
    {'training': 's3://my-bucket/train/'},
    job_name='my-training-job'
)

# Studio UI で進捗・ログ・メトリクスを確認可能

特徴

機能	説明
Notebook	Jupyter 互換のノートブック
Experiments	自動実験追跡・パラメータ管理
Model Registry	モデルバージョン・メタデータ管理
GitHub Copilot	AI アシスタント（オプション）
Data Science Templates	テンプレートから素早く開始
Datasets	SageMaker 管理下のデータセット参照

2. Training Jobs（学習）

Training Documentation

フルマネージド学習の概念

from sagemaker.estimator import Estimator

estimator = Estimator(
    image_uri='<docker-image>',  # 学習用コンテナイメージ
    role=role,
    instance_type='ml.p3.2xlarge',  # GPU インスタンス
    instance_count=1,  # 単一インスタンス
    output_path='s3://my-bucket/models/',  # 出力先
)

# 学習実行
estimator.fit(
    {'train': 's3://my-bucket/data/train/'},
    job_name='my-job',
    wait=False  # 非同期実行
)

# 学習終了後、自動的に EC2 インスタンスは解放される

Training Job の形式

形式	説明	コスト	適用
On-Demand	標準価格で起動	100%	小~中規模学習
Spot	EC2 Spot インスタンス活用	30-70%	中~大規模・中断可能
Warm Pool	事前に GPU を保持	カスタム	頻繁な学習
Distributed	複数インスタンスで並列学習	インスタンス数 × 時間	大規模モデル

Spot Training で最大 70% コスト削減

from sagemaker.estimator import Estimator

estimator = Estimator(
    image_uri='<docker-image>',
    role=role,
    instance_type='ml.p3.2xlarge',
    instance_count=1,
    use_spot_instances=True,  # Spot インスタンス有効化
    max_wait=3600,  # 最大待機時間
    max_run=1800,  # 最大実行時間
)

estimator.fit({'train': 's3://...'})

Hyperparameter Tuning（HPO）

from sagemaker.tuner import IntegerParameter, HyperparameterTuner

tuner = HyperparameterTuner(
    estimator=estimator,
    objective_metric_name='validation:accuracy',  # 最適化対象
    hyperparameter_ranges={
        'learning_rate': ContinuousParameter(0.001, 0.1),
        'batch_size': IntegerParameter(32, 256),
        'epochs': IntegerParameter(5, 20),
    },
    max_jobs=12,  # 12 個の異なるハイパーパラメータセット試行
    max_parallel_jobs=4,  # 並列実行数
)

tuner.fit({'train': 's3://...'})

# 最適パラメータを自動で検出
best_job = tuner.best_training_job()

Distributed Training（分散学習）

from sagemaker.pytorch.estimator import PyTorch

pytorch_estimator = PyTorch(
    entry_point='train.py',
    role=role,
    instance_count=4,  # 4 個の GPU インスタンス
    instance_type='ml.p3dn.24xlarge',
    distribution={
        'pytorch': {
            'enabled': True,
            'processes_per_host': 8,  # 1 インスタンスあたり 8 プロセス
        }
    },
)

pytorch_estimator.fit({'training': 's3://...'})

Heterogeneous Training（異なる複数インスタンスタイプの混在）

pytorch_estimator = PyTorch(
    # ...
    instance_groups=[
        {
            'InstanceGroupName': 'GPU-Group',
            'InstanceType': 'ml.p3.8xlarge',
            'InstanceCount': 2,
        },
        {
            'InstanceGroupName': 'CPU-Group',
            'InstanceType': 'ml.c5.4xlarge',
            'InstanceCount': 1,
        },
    ],
)

3. Built-in Algorithms vs Bring-your-own

Built-in Algorithms（AWS 提供アルゴリズム）

アルゴリズム	用途	適用
XGBoost	構造化データ分類・回帰	表データ予測
Linear Learner	大規模線形回帰・分類	スケーラビリティ重視
Factorization Machines	推薦システム・レコメンド	疎データ対応
Image Classification	画像分類（ResNet・VGG）	CV タスク
Semantic Segmentation	画像セグメンテーション	医療画像・衛星画像
Object Detection	物体検出（SSD・YOLO）	リアルタイム検出
K-Means	クラスタリング	教師なし学習
PCA	次元削減	特徴量抽出
Seq2Seq	機械翻訳・要約	シーケンスタスク
BlazingText	テキスト分類・Word2Vec	NLP

Bring-your-own（カスタムコンテナ）

from sagemaker.estimator import Estimator

# カスタム PyTorch コンテナを使用
estimator = Estimator(
    image_uri='123456789.dkr.ecr.ap-northeast-1.amazonaws.com/custom-pytorch:latest',
    role=role,
    instance_type='ml.p3.2xlarge',
    instance_count=1,
)

estimator.fit({'training': 's3://...'})

比較表

項目	Built-in	Bring-your-own
セットアップ時間	最小（すぐ開始）	中（コンテナ構築必要）
カスタマイズ	限定的	完全カスタマイズ可能
パフォーマンス	最適化済み	実装依存
学習曲線	低い	高い
推奨	MVP・PoC・迅速実装	複雑なロジック・既存資産活用

4. SageMaker JumpStart（Foundation Model Hub）

JumpStart Documentation

概要

JumpStart は、300+ の事前学習済みモデルをワンクリックでデプロイまたはカスタマイズ できるハブです：

from sagemaker.jumpstart.model import JumpStartModel

# Llama 2 をデプロイ
model = JumpStartModel(
    model_id='meta-llama/Llama-2-7b-hf',  # モデル ID
    instance_type='ml.g4dn.xlarge',
)

predictor = model.deploy()

# 推論
response = predictor.predict({'inputs': 'What is AWS?'})

対応モデル

カテゴリ	モデル	用途
LLM	Llama 2/3, Falcon, Mistral	テキスト生成・Q&A
Vision	ViT, DINOv2	画像分類・検出
Image Generation	Stable Diffusion	テキスト→画像生成
Embedding	BERT, GPT-2, RoBERTa	テキスト埋め込み
Code	CodeLlama	コード生成
Multimodal	LLaVA, CLIP	画像+テキスト理解

ファインチューニング

from sagemaker.jumpstart.estimator import JumpStartEstimator

# Llama 2 をカスタムデータでファインチューニング
estimator = JumpStartEstimator(
    model_id='meta-llama/Llama-2-7b-hf',
    instance_type='ml.p3.2xlarge',
    hyperparameters={
        'epochs': 3,
        'learning_rate': 2e-4,
    },
)

estimator.fit(
    {'training': 's3://my-bucket/custom-data/'}
)

JumpStart vs Bedrock の使い分け

項目	JumpStart	Bedrock
用途	カスタマイズ・ファインチューニング	API で既存モデル利用
ユースケース	独自ドメイン適応・業界特化	RAG・プロンプト実装・生成 AI 機能組み込み
学習曲線	高い（ML 知識必要）	低い（API 呼び出しのみ）
コスト	学習・推論コスト（計算リソース）	API 呼び出し課金
管理	自社で Model Registry・Monitoring	AWS が管理

5. SageMaker HyperPod（大規模分散学習）

SageMaker HyperPod Documentation

概要

HyperPod は、大規模 Foundation Model や LLM 学習専用 の分散クラスター管理プラットフォームです。

特徴

特徴	説明
自動スケーリング	数百個の GPU を管理・自動プロビジョニング
チェックポイント管理	分散学習の中断・再開を効率化
ネットワーク最適化	GPU 間通信レイテンシを最小化
マルチノード監視	CloudWatch で全ノードの健全性監視

使用例

from sagemaker.hyperpod.estimator import HyperPodEstimator

estimator = HyperPodEstimator(
    entry_point='train_llm.py',
    role=role,
    instance_type='ml.p4d.24xlarge',  # 8x A100 GPU
    instance_count=10,  # 10 ノード × 8 GPU = 80 GPU
    distribution={
        'torch_distributed_data_parallel': {
            'enabled': True,
        }
    },
)

estimator.fit({'training': 's3://...'})

6. Inference（推論）

Inference Documentation

4 つの推論形式

graph LR
    A[推論形式] --> B[Real-time]
    A --> C[Serverless]
    A --> D[Batch]
    A --> E[Async]
    
    B --> B1["✅ 常時稼働<br>❌ コスト高"]
    C --> C1["✅ コスト低<br>❌ コールドスタート"]
    D --> D1["✅ 大容量<br>❌ レイテンシ高"]
    E --> E1["✅ 大規模<br>❌ 非同期処理"]

Real-time Endpoint（リアルタイム推論）

# モデルデプロイ
predictor = estimator.deploy(
    initial_instance_count=2,
    instance_type='ml.m5.xlarge',
    endpoint_name='my-endpoint',
)

# 推論呼び出し（ミリ秒レイテンシ）
response = predictor.predict({
    'instances': [[1.0, 2.0, 3.0]]
})

# Auto Scaling 設定
predictor.enable_auto_scaling(
    min_capacity=1,
    max_capacity=10,
    target_value=70.0,  # CPU 使用率 70% で スケール
)

Serverless Endpoint（サーバーレス推論）

# 断続的なリクエスト向け・コストがコールドスタート
predictor = model.deploy(
    serverless_inference_config={
        'memory_size_in_mb': 6144,  # 最大 6 GB
        'max_concurrency': 200,  # 最大同時実行
    },
    endpoint_name='my-serverless-endpoint',
)

# コールドスタート：初回呼び出しは 10-20 秒
response = predictor.predict(input_data)

Batch Transform（バッチ推論）

# S3 内のデータセット全体を一括推論
transformer = estimator.transformer(
    instance_count=1,
    instance_type='ml.m5.xlarge',
)

transformer.transform(
    data='s3://my-bucket/batch-data/',
    data_type='S3Prefix',
    content_type='text/csv',
)

# 結果は S3 に保存：s3://my-bucket/batch-data/output/

Async Inference（非同期推論）

# 大容量・長時間処理向け
predictor = model.deploy(
    async_inference_config={
        'output_path': 's3://my-bucket/async-output/',
        'max_concurrent_invocations': 10,
    },
    endpoint_name='my-async-endpoint',
)

# リクエスト送信
response = predictor.predict_async(
    input_path='s3://my-bucket/large-data.json'
)

# 処理完了を S3/SNS で通知 → 結果を S3 から取得
output_location = response.output_path

4 形式の比較表

項目	Real-time	Serverless	Batch	Async
レイテンシ	低（<100ms）	中（コールドスタート）	高（数分）	高（>10分）
コスト	高（常時）	中（リクエスト数）	低/高	低/中
スケーラビリティ	Auto Scaling	自動（200 同時）	インスタンス数	キュー制御
最適な用途	API・Web	間欠的なリクエスト	日次計算・全ユーザー予測	大規模・長時間処理

7. Multi-Model Endpoints

Multi-Model Endpoint Documentation

概念

1 つのエンドポイント上で複数のモデルをホストして、リクエストに応じて動的にモデルを選択・ロード。

from sagemaker.multidatamodel import MultiDataModel

# マルチモデルエンドポイント定義
mme = MultiDataModel(
    name='multi-model-endpoint',
    model_data_prefix='s3://my-bucket/models/',
    model_type='xgboost',
    container_uri='<sagemaker-xgboost-container>',
    role=role,
)

# 複数モデルを登録
mme.add_model('s3://my-bucket/models/model-a.tar.gz', 'model-a')
mme.add_model('s3://my-bucket/models/model-b.tar.gz', 'model-b')
mme.add_model('s3://my-bucket/models/model-c.tar.gz', 'model-c')

# デプロイ
mme.deploy(
    initial_instance_count=1,
    instance_type='ml.m5.xlarge',
)

# 推論時にモデルを指定
predictor = mme.predictor_for_model('model-a')
response = predictor.predict(input_data)

メリット

コスト最適化： 複数エンドポイント→1 エンドポイント
ダイナミックロード： リクエストに応じて自動ロード・アンロード
運用簡素化： エンドポイント管理が一元化

8. Inference Recommender

Inference Recommender Documentation

概要

モデルに最適なインスタンスタイプ・設定を自動推奨するサービス。

from sagemaker.inference_recommender import InferenceRecommender

recommender = InferenceRecommender(
    model_name='my-model',
    sample_payload_url='s3://my-bucket/sample-payload.json',
    instance_type='ml.m5.xlarge',  # 初期インスタンス
)

# 推奨結果を取得（数分）
recommendations = recommender.run()

# 推奨インスタンスをデプロイ
for rec in recommendations:
    print(f"推奨: {rec['InstanceType']}, レイテンシ: {rec['ModelLatency']}")

9. SageMaker Pipelines（MLOps）

SageMaker Pipelines Documentation

概念

ML ワークフロー全体（データ準備→学習→評価→デプロイ→監視）を DAG（有向非環状グラフ）として定義し、自動実行。

from sagemaker.workflow.pipeline import Pipeline
from sagemaker.workflow.steps import (
    ProcessingStep,
    TrainingStep,
    CreateModelStep,
    TransformStep,
    ConditionStep,
    FailStep,
)
from sagemaker.workflow.conditions import ConditionGreaterThan

# ステップ 1: データ前処理
processing_step = ProcessingStep(
    name='preprocessing',
    processor=sklearn_processor,
    code='preprocess.py',
    inputs=[...],
    outputs=[...],
)

# ステップ 2: モデル学習
training_step = TrainingStep(
    name='training',
    estimator=estimator,
    inputs={'train': processing_step.properties.ProcessingOutputConfig...},
)

# ステップ 3: 精度評価
eval_step = ProcessingStep(
    name='evaluation',
    processor=sklearn_processor,
    code='evaluate.py',
    inputs=[...],
)

# ステップ 4: 条件分岐（精度 > 0.8 なら本番デプロイ）
condition = ConditionGreaterThan(
    left=eval_step.properties.ProcessingOutputConfig['accuracy'],
    right=0.8,
)

# ステップ 5: 本番デプロイ（条件が真の場合）
deploy_step = CreateModelStep(
    name='deploy-to-production',
    model=training_step.properties.ModelArtifacts.S3ModelArtifacts,
)

# ステップ 6: デプロイ失敗時の通知
fail_step = FailStep(
    name='deployment-failed',
    error_message='Model accuracy too low',
)

# パイプライン定義
pipeline = Pipeline(
    name='ml-pipeline',
    parameters=[...],  # パラメータ定義
    steps=[
        processing_step,
        training_step,
        eval_step,
        ConditionStep(
            name='check-accuracy',
            conditions=[condition],
            if_steps=[deploy_step],
            else_steps=[fail_step],
        ),
    ],
)

# パイプラインを作成・実行
pipeline.upsert(role_arn=role)
execution = pipeline.start()

# 実行状況を監視
execution.wait()  # 完了まで待機

パイプラインのスケジュール実行

import json
from sagemaker.workflow.pipeline import Pipeline

# パイプラインを定義
pipeline = Pipeline(...)

# 日次実行スケジュール設定
schedule_role = 'arn:aws:iam::123456789:role/PipelineScheduleRole'

schedule = schedule_pipeline(
    schedule_expression='cron(0 3 * * ? *)',  # 毎日 3:00 UTC
    pipeline_definition=pipeline.definition(),
    pipeline_name='daily-ml-pipeline',
    iam_role_arn=schedule_role,
)

Pipelines の利点

利点	説明
再現性	パイプライン定義で学習・デプロイを完全再現可能
自動化	学習→評価→デプロイを自動実行
並列化	独立したステップを並列実行
エラーハンドリング	条件分岐で失敗パターンに対応
Git 統合	パイプライン定義を Git 管理可能

10. Model Registry & Model Cards

Model Registry Documentation

概念

モデルのバージョン管理・メタデータ・承認フローを一元管理。

from sagemaker.model_registry import ModelPackageGroup

# モデルグループ作成
model_package_group = ModelPackageGroup(
    model_package_group_name='fraud-detection-models',
    model_package_group_description='Fraud detection model versions',
)

# 学習後、モデルをレジストリに登録
model_package = estimator.model_step(
    name='fraud-detection-v1',
    model_data=model_data_uri,
    content_types=['text/csv'],
    response_types=['text/csv'],
    inference_instances=['ml.m5.large'],
    transform_instances=['ml.m5.xlarge'],
)

# メタデータ追加
model_package.set_model_card(
    model_overview={
        'model_description': 'LGBMベースの不正検出モデル',
        'model_version': '1.0',
        'model_creator': 'Data Science Team',
    },
    training_details={
        'training_dataset': 's3://my-bucket/train-data/',
        'training_environment': 'ml.p3.2xlarge',
        'training_metrics': {'accuracy': 0.95, 'precision': 0.92},
    },
)

# 承認フロー
model_package.approve(
    approval_status='Approved',  # or 'Rejected', 'PendingManualApproval'
    approval_comment='Validation passed. Ready for production.',
)

# 本番版を指定
model_package.set_model_package_status(
    model_approval_status='Approved'
)

Model Cards

モデルの動作・制限事項・使用条件を可視化するドキュメント。

model_card = ModelCard(
    name='fraud-detection-model-v1',
    content={
        'model_overview': {
            'model_description': '不正検出モデル',
            'model_type': 'Gradient Boosting',
            'model_artifact': 's3://...',
        },
        'intended_use': {
            'purpose_of_model': '金融機関の不正取引検出',
            'intended_users': 'データサイエンティスト・オペレータ',
            'out_of_scope_use_cases': ['顔認証', 'マネロン検出'],
        },
        'factors': {
            'relevant_factors': ['取引金額', '地理的位置', 'IP アドレス'],
            'evaluation_data': 'Test Set 2025-01',
            'environmental_factors': ['季節変動', 'キャンペーン時期'],
        },
        'metrics': {
            'accuracy': 0.95,
            'precision': 0.92,
            'recall': 0.88,
            'f1_score': 0.90,
        },
        'limitations': {
            'data_limitations': '2023-2024 のデータで学習',
            'model_limitations': 'リアルタイム取引予測には適さない',
        },
    },
)

model_card.save()

11. Feature Store

Feature Store Documentation

概念

特徴量（Feature）をリアルタイム・バッチで管理・提供 するサービス。学習・推論で一貫性のある特徴量を利用。

from sagemaker.feature_store.feature_group import FeatureGroup
import pandas as pd

# Feature Group 作成
feature_group = FeatureGroup(
    name='user-features',
    sagemaker_session=session,
)

# スキーマ定義
feature_group.load_feature_definitions(
    data_frame=pd.DataFrame({
        'user_id': [1, 2, 3],
        'age': [30, 25, 35],
        'account_age_days': [500, 200, 1000],
        'total_transactions': [100, 50, 200],
        'avg_transaction_amount': [50.0, 30.0, 100.0],
    })
)

# Feature Store に記録
feature_group.ingest(
    data_frame=df,
    max_workers=3,
    wait=True,
)

# 学習用：オフライン特徴量テーブル取得
training_data = feature_group.athena_query().run()

# 推論用：オンライン特徴量リアルタイム取得
import boto3

fs_client = boto3.client('sagemaker-featurestore-runtime')
response = fs_client.get_record(
    FeatureGroupName='user-features',
    RecordIdentifierValueAsString='123',  # user_id
)

features = response['Record']

Online / Offline の使い分け

用途	Online Store	Offline Store
技術	DynamoDB（リアルタイム）	Athena / S3（バッチ）
レイテンシ	ミリ秒	秒~分
用途	リアルタイム推論	学習・分析
コスト	読み取り数課金	S3 ストレージ

12. Clarify（Bias & Explainability）

SageMaker Clarify Documentation

バイアス検知

from sagemaker.clarify import BiasConfig, SageMakerClarifyProcessor

bias_config = BiasConfig(
    label_values_or_header_type=['positive'],  # ポジティブラベル
    facet_name='gender',  # バイアス対象属性
)

clarify_processor = SageMakerClarifyProcessor(
    role=role,
    instance_count=1,
    instance_type='ml.m5.xlarge',
)

clarify_processor.run_bias_analysis(
    data_config=data_config,
    bias_config=bias_config,
    output_path='s3://my-bucket/bias-report/',
)

# バイアス指標：
# - Class Imbalance Ratio (CIR)
# - Disparate Impact Ratio (DIR)
# - Kullback-Leibler Divergence (KL)

説明性分析（SHAP）

from sagemaker.clarify import SHAPConfig

shap_config = SHAPConfig(
    baseline=[0.0] * 10,  # ベースライン値
    num_samples=100,  # サンプル数
    text_config=None,
)

clarify_processor.run_explainability_analysis(
    data_config=data_config,
    model_config=model_config,
    shap_config=shap_config,
    output_path='s3://my-bucket/explainability-report/',
)

# 出力：各特徴量の SHAP 値（重要度）

13. Model Monitor（Drift Detection）

Model Monitor Documentation

概念

本番エンドポイントのデータドリフト・品質低下を自動検知・通知。

from sagemaker.model_monitor import DataCaptureConfig, ModelMonitor

# ステップ 1: エンドポイントのデータキャプチャを有効化
data_capture_config = DataCaptureConfig(
    enable_capture=True,
    sampling_percentage=100,  # すべてのリクエストをキャプチャ
    destination_s3_uri='s3://my-bucket/data-capture/',
)

# ステップ 2: エンドポイントにデータキャプチャを適用
predictor = model.deploy(
    data_capture_config=data_capture_config,
    endpoint_name='my-monitored-endpoint',
)

# ステップ 3: 基準統計を計算（学習データから）
baseline_job = ModelMonitor(
    role=role,
    instance_count=1,
    instance_type='ml.m5.xlarge',
).suggest_baseline(
    baseline_dataset='s3://my-bucket/train-data/',
    output_s3_uri='s3://my-bucket/baseline/',
)

# ステップ 4: 継続的なモニタリングジョブを設定
model_monitor = ModelMonitor(
    role=role,
    instance_count=1,
    instance_type='ml.m5.xlarge',
)

model_monitor.create_monitoring_schedule(
    monitor_schedule_name='continuous-monitoring',
    endpoint_input=endpoint_input,
    output_s3_uri='s3://my-bucket/monitoring-results/',
    statistics=baseline_statistics,
    constraints=baseline_constraints,
    schedule_expression='cron(0 */1 * * ? *)',  # 1 時間ごと
    enable_data_capture=True,
)

# ステップ 5: アラート設定（CloudWatch）
alarm = cloudwatch.Alarm(
    metric_name='model_drift',
    threshold=0.1,  # ドリフト率 10% 以上で通知
    alarm_actions=[sns_topic],
)

モニタリング対象メトリクス

メトリクス	説明	対応方法
Data Quality	NULL・型不整合・範囲外値	データ品質改善
Model Quality	精度・F1 スコア低下	モデル再学習
Bias Drift	グループ間の差別度の変化	ファインチューニング
Feature Attribution	SHAP 値の変化（説明性変化）	特徴量確認

14. Ground Truth（ラベリング）

Ground Truth Documentation

概要

クラウドソーシング・AI 支援・社内アノテーターの組み合わせでデータラベリング。

from sagemaker.groundtruth.labeling_job import create_labeling_job

labeling_job_response = create_labeling_job(
    project_name='image-classification-project',
    task_type='Image Classification',
    dataset='s3://my-bucket/images/',
    output_config={
        's3_output_path': 's3://my-bucket/labeled-data/',
    },
    workteam_arn='arn:aws:sagemaker:...:workteam/private/...',
    num_workers=5,
    task_title='Classify images as cat or dog',
    task_description='Label each image as a cat or dog.',
)

15. Edge Manager

Edge Manager Documentation

概要

モデルをエッジデバイス（IoT・スマートフォン）に配置・管理。

from sagemaker.edge import EdgePackagingJob

edge_job = EdgePackagingJob.create(
    model_name='fraud-detection-model',
    model_version='1.0',
    edge_packaging_job_name='package-fraud-model',
    role=role,
    compilation_output_config={
        's3_output_path': 's3://my-bucket/edge-models/',
    },
    framework='PYTORCH',
    target_device='jetson_nano',  # Jetson Nano 最適化
)

16. SageMaker Canvas（ノーコード）

SageMaker Canvas Documentation

概要

コード不要で ML モデルを構築するローコード UI。

1. データアップロード → Canvas にドラッグ
2. 予測対象列を選択
3. 「Build Model」をクリック
4. AutoML が最適なモデルを自動構築
5. 予測を実行・結果をダウンロード

特徴

ノーコード： UI のみでモデル構築
AutoML： アルゴリズム選択・ハイパーパラメータ自動設定
予測生成： バッチ推論・リアルタイム推論
ビジネスユーザー向け： データサイエンティスト不要

17. SageMaker Lakehouse

SageMaker Lakehouse Documentation

概要

2025-2026 年に新リリースされた データレイク・ウェアハウス統合プラットフォーム。従来の SageMaker データ準備機能を拡張し、データ分析・BI・ML が一箇所で実現。

特徴

機能	説明
統合データカタログ	S3・RDS・Redshift のメタデータを一元化
SQL クエリ	Apache Iceberg フォーマットでクエリ実行
Data Quality	スキーマ変更・重複・NULL 値を自動検出
BI 統合	Tableau・PowerBI との連携

主要ユースケース（10 以上）

1. 表データ ML（構造化データ）

ユースケース： 金融機関の与信スコアリング、e-コマースの購買予測

import sagemaker
from sagemaker.xgboost.estimator import XGBoost

# XGBoost で表データ学習
xgb = XGBoost(
    entry_point='train.py',
    role=role,
    instance_type='ml.m5.xlarge',
    instance_count=1,
    hyperparameters={'max_depth': 5, 'eta': 0.2},
)

xgb.fit({'train': 's3://my-bucket/train.csv'})

2. コンピュータビジョン（CV）

ユースケース： 画像分類・物体検出・医療画像診断

from sagemaker.image_uris import retrieve

# ResNet による画像分類
image_uri = retrieve('image-classification', region, version='1')

estimator = sagemaker.estimator.Estimator(
    image_uri=image_uri,
    role=role,
    instance_count=1,
    instance_type='ml.p3.2xlarge',
)

estimator.fit({'train': 's3://my-bucket/images/'})

3. NLP（自然言語処理）

ユースケース： テキスト分類・感情分析・機械翻訳

# HuggingFace の BERT でテキスト分類
from sagemaker.huggingface import HuggingFaceEstimator

huggingface_estimator = HuggingFaceEstimator(
    entry_point='train.py',
    role=role,
    instance_type='ml.p3.2xlarge',
    instance_count=1,
    transformers_version='4.26',
    pytorch_version='2.0',
    py_version='py310',
)

huggingface_estimator.fit({'train': 's3://my-bucket/texts/'})

4. Foundation Model ファインチューニング

ユースケース： カスタムドメインの LLM・生成 AI

# Llama 2 をカスタムデータでファインチューニング
from sagemaker.jumpstart.estimator import JumpStartEstimator

estimator = JumpStartEstimator(
    model_id='meta-llama/Llama-2-7b-hf',
    instance_type='ml.g4dn.12xlarge',
    instance_count=1,
)

estimator.fit({'train': 's3://my-bucket/custom-dataset/'})

5. リアルタイム推論

ユースケース： 不正検出・レコメンデーション・Web API

# モデルをエンドポイントにデプロイ
predictor = estimator.deploy(
    initial_instance_count=2,
    instance_type='ml.m5.xlarge',
)

# リアルタイム推論
response = predictor.predict({'instances': [[1.0, 2.0]]})

6. MLOps / パイプライン自動化

ユースケース： 日次モデル再学習・本番監視・自動デプロイ

# Pipelines で完全自動化
from sagemaker.workflow.pipeline import Pipeline

pipeline = Pipeline(
    name='ml-pipeline',
    steps=[processing, training, evaluation, deploy]
)

pipeline.start()  # 自動実行

7. レコメンデーションシステム

ユースケース： e-コマース・動画ストリーミング・SNS

# Factorization Machines で協調フィルタリング
fm = sagemaker.estimator.Estimator(
    image_uri=retrieve('factorization-machines', region),
    role=role,
    instance_count=1,
    instance_type='ml.m5.xlarge',
)

fm.fit({'train': 's3://my-bucket/user-item-matrix/'})

8. 異常検知

ユースケース： 不正取引・IoT センサー異常・サイバー攻撃

# Random Cut Forest で異常検知
rcf = sagemaker.estimator.Estimator(
    image_uri=retrieve('randomcutforest', region),
    role=role,
    instance_count=1,
    instance_type='ml.m5.xlarge',
)

rcf.fit({'train': 's3://my-bucket/timeseries-data/'})

9. 時系列予測

ユースケース： 株価予測・需要予測・天気予測

# DeepAR でトレンド・季節性を学習
deepar = sagemaker.estimator.Estimator(
    image_uri=retrieve('deepar', region),
    role=role,
    instance_count=1,
    instance_type='ml.m5.xlarge',
)

deepar.fit({'train': 's3://my-bucket/timeseries/'})

10. 生成 AI（テキスト・画像生成）

ユースケース： チャットボット・画像生成・要約生成

# Stable Diffusion でテキスト→画像生成
from sagemaker.jumpstart.model import JumpStartModel

model = JumpStartModel(
    model_id='stabilityai/stable-diffusion-2-1',
)

predictor = model.deploy(instance_type='ml.g4dn.xlarge')

# テキストから画像生成
response = predictor.predict({'prompt': 'a cat in space'})

11. A/B テスト

ユースケース： 複数モデル版比較・パフォーマンステスト

# 複数モデルをトラフィック分割
endpoint = sagemaker.endpoint.Endpoint(
    endpoint_name='ab-test-endpoint',
    variant_name_list=['model-a', 'model-b'],
    variant_weight_list=[0.5, 0.5],  # 50-50 分割
)

Bedrock との関係

項目	SageMaker AI	Bedrock
用途	カスタム ML モデル開発	Foundation Model API 利用
適用例	独自データで学習・ファインチューニング	Claude・GPT-4・Llama を API で使用
学習曲線	高い（ML 知識必要）	低い（API 呼び出しのみ）
メンテナンス	自社で管理（再学習・監視）	AWS が管理
カスタマイズ	完全カスタマイズ可能	プロンプト工学・RAG 程度
コスト	計算リソース課金	推論トークン課金
推奨	業界特化・機密データ・要求品質高	汎用・素早い実装・API 統合

セキュリティ

対策	説明
IAM Role	SageMaker の実行ロール制御・S3 アクセス権限管理
KMS 暗号化	モデル・データの暗号化（保存時・転送時）
VPC	SageMaker をプライベートサブネットで隔離
Network Isolation	エンドポイント・Training Job の外部通信遮断
Private Endpoint	AWS PrivateLink で VPC 内からの安全なアクセス
Data Encryption	S3 SSE-KMS・暗号化スナップショット
Model Registry	バージョン管理・承認フロー

モニタリング

CloudWatch 統合

import boto3

cloudwatch = boto3.client('cloudwatch')

# Training Job メトリクス監視
cloudwatch.get_metric_statistics(
    Namespace='AWS/SageMaker',
    MetricName='ModelTrainingTime',
    Dimensions=[
        {'Name': 'TrainingJobName', 'Value': 'my-job'}
    ],
    StartTime='2025-01-01T00:00:00Z',
    EndTime='2025-01-02T00:00:00Z',
    Period=300,
    Statistics=['Average', 'Maximum'],
)

SageMaker Studio でのモニタリング

Training Job ログ・メトリクスをリアルタイム表示
Endpoint 推論レイテンシ・エラー率を可視化
Model Monitor ドリフト・品質メトリクス表示

MLflow on SageMaker

import mlflow

mlflow.set_tracking_uri('sagemaker://ml-foundation')

with mlflow.start_run():
    mlflow.log_param('learning_rate', 0.001)
    mlflow.log_metric('accuracy', 0.95)
    mlflow.log_model(model, 'model')

コスト最適化

手法	削減効果	適用
Spot Training	70%	中断可能な学習
Savings Plans	20-30%	常時利用インスタンス
Multi-Model Endpoints	30-50%	複数モデルホスト時
Serverless Endpoint	40-60%	断続的なリクエスト
Batch Transform	50-70%	日次計算
Auto-Scaling	20-40%	変動するトラフィック

コスト見積例（月額）

リソース	インスタンス	時間数	料金
Training	ml.p3.2xlarge	40	`3,825 × 40h =` 153,000
Training (Spot)	ml.p3.2xlarge	40	`153,000 × 0.3 =` 45,900
Endpoint	ml.m5.large	730	`0.134 × 730h =` 97.82
Serverless	1000 推論/日	30 日	`0.00002 × 30,000 =` 0.60

他の類似ツールとの比較

SageMaker AI vs Vertex AI（Google Cloud）

項目	SageMaker	Vertex AI
AutoML	Canvas / Autopilot	AutoML Tables / Vision
Foundation Model	JumpStart	Model Garden
Notebook	Studio	Vertex AI Notebooks
Pipelines	SageMaker Pipelines	Vertex Pipelines
推論	複数形式	オンライン・バッチ
推奨	AWS 環境・複数形式推論	GCP 環境・BigQuery 統合

SageMaker AI vs Azure ML

項目	SageMaker	Azure ML
IDE	Studio（ブラウザ）	VS Code 統合
Compute	Training Job	Compute Instances
MLOps	Pipelines	ML Pipelines
推論	複数形式	オンライン・バッチ
推奨	AWS・完全マネージド	Azure・開発者向け

SageMaker AI vs Databricks MLflow

項目	SageMaker	Databricks
MLOps	統合	MLflow（OCP）
データ処理	Processing Job	Delta Lake
推論	マネージドエンドポイント	モデルサービング
推奨	ML 初心者・AWS 親和性	データエンジニア・Spark

SageMaker AI vs HuggingFace Spaces

項目	SageMaker	HuggingFace
モデルハブ	JumpStart（AWS）	Hub（OCP）
推論	マネージドエンドポイント	Spaces（Gradio）
ファインチューニング	Training Job	AutoTrain
推奨	本番運用・品質保証	研究・実験

クライアントとエコシステム

Python SDK

import sagemaker

# SageMaker Python SDK（公式）
session = sagemaker.Session()
role = sagemaker.get_execution_role()

統合ツール

ツール	用途	統合度
Jupyter	ノートブック開発	ネイティブ（Studio）
Git	バージョン管理	Studio から連携
MLflow	実験追跡	MLflow on SageMaker
Kubeflow	分散 ML	互換性あり
Apache Airflow	ワークフロー	Pipelines から可能

ベストプラクティス

1. データ品質管理

# 学習前にデータ検証
from sagemaker.data_quality import DataQualityJobDefinition

dq_job = DataQualityJobDefinition(
    name='data-quality-check',
    baseline_dataset='s3://my-bucket/baseline.csv',
    output_path='s3://my-bucket/dq-results/',
)

2. 実験管理

# Experiments で自動追跡
from sagemaker.experiments.run import Run

with Run(experiment_name='fraud-detection') as run:
    run['model_type'] = 'xgboost'
    run['hyperparameters'] = {'max_depth': 5}
    # 学習実行
    estimator.fit(...)
    run['accuracy'] = 0.95

3. モデル検証

# 本番デプロイ前の品質ゲート
if validation_accuracy > 0.90:
    model_package.approve()
else:
    model_package.reject()

4. パイプライン設計

# DAG で依存性を明確化
Preprocessing → Training → Evaluation → (Condition) → Deploy
                                            ↓
                                        if accuracy > 0.9

5. コスト監視

# CloudWatch で学習コスト監視
cloudwatch.put_metric_alarm(
    AlarmName='training-cost-alert',
    MetricName='TrainingJobsCost',
    Threshold=1000,  # $1000 超過で通知
)

トラブルシューティング

よくある問題と対応

問題	原因	対応
Out of Memory	インスタンスメモリ不足	より大きいインスタンスに変更
Training Timeout	学習時間が長い	Distributed Training で並列化
Endpoint Latency	レイテンシ高い	インスタンスサイズ・Auto Scaling 調整
Data Not Found	S3 パス不正	IAM ロール・S3 パス確認
Model Quality Low	データ品質・特徴量不足	Data Wrangler で前処理改善

2025-2026 最新動向

【図2】SageMaker AI ロードマップ（2025-2026）

timeline
    title SageMaker AI ロードマップ
    2025-Q1 : HyperPod 分散学習安定化 : Foundation Model 推論最適化
    2025-Q2 : Lakehouse 統合リリース : Bedrock 統合深化
    2025-Q3 : Canvas ノーコード拡張 : MLflow 完全統合
    2026-Q1 : エッジ学習機能 : Generative AI ワークフロー標準化

主要更新

SageMaker Lakehouse（新・2025 Q2）
- S3 データレイク + Redshift ウェアハウスの統一 SQL インターフェース
- Apache Iceberg ベースで分析・ML を統一
- Athena・Spark から同一メタデータアクセス
- データ準備から Feature Engineering まで Glue 連携で自動化
HyperPod の大幅拡張（2025-2026）
- EKS Orchestration：Kubernetes ベースのトレーニング（Slurm 並列対応）
- AWS Trainium2 チップ対応：NVIDIA GPU 比 30-40% 高性能
- Trainium3 プレビュー：2026 Q1 に正式版、さらに 40% 性能向上予定
- NVIDIA Multi-Instance GPU (MIG) 対応：1 GPU を複数の小規模タスク向け分割
- Continuous Provisioning for Slurm：効率的なクラスタスケーリング
- 数千 GPU での分散学習対応、エラー復旧・チェックポイント管理の自動化
Foundation Model & Bedrock 統合
- JumpStart に Llama 3、Falcon 15B、Mistral 追加
- SageMaker ファインチューニング vs Bedrock API 利用 の明確な使い分け
- SageMaker でカスタム学習、Bedrock で Foundation Model API 利用のハイブリッド
推論最適化と高度化
- Inference Recommender による自動選定
- Multi-Model Endpoints での AI ハイブリッド実装
- Serverless Endpoint（オートスケール・低レイテンシ）
生成 AI ワークフロー統合
- RAG（Retrieval-Augmented Generation） インテグレーション
- Bedrock Knowledge Bases との連携
- ファインチューニング・プロンプト最適化の自動化
- 多モーダル学習（テキスト・画像・音声統合）
MLOps & ガバナンス強化
- Model Registry の拡張：バージョン管理・承認フロー自動化
- Data Capture & Model Monitor：ドリフト検知・品質継続監視
- Clarify：バイアス・説明性分析の自動実行
セキュリティ・プライバシー強化
- Confidential Computing（TEE）対応：機密データ学習環境
- Zero-knowledge 推論検証：結果の完全性確認
- PII 検出・自動マスキング（Data Quality / Data Classification）

学習リソース

公式ドキュメント

コース

AWS 公式： Machine Learning on AWS（udemy / Coursera）
DataCamp： SageMaker 入門コース
Pluralsight： SageMaker 実践コース

コミュニティ

AWS ML Community
r/MachineLearning（Reddit）
Stack Overflow amazon-sagemaker タグ

実装例・活用シーン

シーン 1: 金融機関の与信スコアリング

1. データ準備：顧客情報・過去貸出履歴 → S3
2. Processing Job：特徴量エンジニアリング
3. Training Job：XGBoost で学習（HPO で最適化）
4. Evaluation：テストデータで精度確認（>0.9 必須）
5. Model Registry：承認フロー・メタデータ記録
6. Real-time Endpoint：Web API として提供
7. Model Monitor：ドリフト検知・継続監視
8. Pipelines：月次再学習を自動化

シーン 2: e-コマースのレコメンデーション

1. データ準備：ユーザー購買履歴 → S3
2. Feature Store：ユーザー・商品特徴量を管理
3. Training Job：Factorization Machines で協調フィルタリング
4. Multi-Model Endpoint：複数カテゴリモデルを統合
5. Serverless Endpoint：リクエスト時のみ起動
6. Batch Transform：日次推奨スコア計算
7. A/B Test：新・旧モデルをトラフィック分割

シーン 3: 医療画像診断支援

1. Ground Truth：医師がラベル付け（クラウドソーシング）
2. Processing Job：画像正規化・前処理
3. Training Job（分散）：ResNet で学習（複数 GPU）
4. Clarify：バイアス・説明性分析
5. Real-time Endpoint：診断画像をアップロード→スコア即座返却
6. Model Monitor：精度低下・ドリフト検知
7. Edge Manager：スマート内視鏡にモデル配置

導入ロードマップ

【Phase 1: 基礎構築（2-3 ヶ月）】
├─ SageMaker Studio セットアップ
├─ IAM・VPC・セキュリティ設定
├─ S3 バケット構築
└─ Python SDK・ボイラープレート準備

【Phase 2: パイロット（3-4 ヶ月）】
├─ 小規模データセットで PoC
├─ Built-in Algorithms で試験
├─ Training Job・Inference エンドポイント実装
└─ Model Monitor 基本設定

【Phase 3: 本番化（2-3 ヶ月）】
├─ 本番データの準備・品質管理
├─ Pipelines で MLOps 自動化
├─ Model Registry・承認フロー導入
├─ セキュリティ・監視強化
└─ 本番エンドポイント稼働・A/B テスト

【Phase 4: スケール・最適化（継続）】
├─ Foundation Model 導入（JumpStart）
├─ HyperPod で大規模学習
├─ コスト最適化（Spot・Serverless）
└─ Lakehouse 統合・データ分析基盤拡張

実装チェックリスト

データ準備フェーズ

[ ] S3 バケット作成・アクセス権限設定
[ ] データセット品質確認（NULL・重複・外れ値チェック）
[ ] データ分割（Train / Validation / Test）
[ ] Data Wrangler で特徴量エンジニアリング
[ ] Feature Store に特徴量登録

学習フェーズ

[ ] SageMaker Studio 起動・アクセス確認
[ ] 環境（Python / PyTorch / TensorFlow）準備
[ ] アルゴリズム選定（Built-in vs Bring-your-own）
[ ] Hyperparameter Tuning で最適化
[ ] 学習ログ・メトリクスをモニタリング
[ ] テストデータで精度検証

デプロイフェーズ

[ ] 推論形式選定（Real-time / Serverless / Batch / Async）
[ ] インスタンスタイプ・スケーリング設定
[ ] Model Registry へのモデル登録
[ ] メタデータ・モデルカード記述
[ ] エンドポイント起動・推論テスト

監視・運用フェーズ

[ ] Data Capture 有効化
[ ] Model Monitor セットアップ
[ ] CloudWatch アラーム設定
[ ] Pipelines で再学習自動化
[ ] ログ・エラー監視体制確立

まとめ

Amazon SageMaker AI は、ML モデルのライフサイクル全体（データ準備→学習→デプロイ→監視）をカバーする統合 ML プラットフォームです。

主要なメリット

✅ フルマネージド： インフラ管理不要・使用時間のみ課金 ✅ マルチモーダル： 表データ・画像・NLP・生成 AI まで対応 ✅ MLOps 統合： Pipelines・Model Monitor で本番品質保証 ✅ Foundation Model： JumpStart でカスタマイズ・ファインチューニング ✅ 柔軟な推論： リアルタイム・サーバーレス・バッチ・非同期から選択

選定基準

選択	条件
SageMaker AI	カスタム ML モデル・ファインチューニング・MLOps 必要
Canvas	ノーコード・素早い実装・ビジネスユーザー
Bedrock	Foundation Model API 利用・RAG・生成 AI 機能実装
Databricks	データエンジニア・Spark・Delta Lake 中心

次のステップ

AWS アカウント構築： Free Tier で無料試用
SageMaker Studio 起動： ブラウザから即座に開発開始
サンプル実装： AWS Examples GitHub でテンプレート活用
小規模 PoC： 1-2 ヶ月で初期パイロット完成
本番化： MLOps・監視体制を整備して運用開始

参考文献

公式資料

SageMaker HyperPod & Lakehouse

Foundation Model & LLM リソース

Bedrock 連携ドキュメント

コミュニティ・学習リソース

AWS Machine Learning Community
r/MachineLearning (Reddit)
Stack Overflow (amazon-sagemaker)
AWS re:Invent Sessions (YouTube)
Coursera - Machine Learning on AWS
AWS ML Blog (最新トレンド・事例)

最終更新：2026-04-26

目次

Amazon SageMaker AI 完全ガイド 2026

初心者から実務者向けの包括的解説

ドキュメントの目的

2026 年の SageMaker AI エコシステム

目次

概要

本質的定義

このサービスを選ぶ理由

✅ SageMaker AI が必要な場合

❌ SageMaker AI が不要な場合

公式ドキュメント

SageMaker AI が解決する課題

主な特徴

アーキテクチャ

【図1】SageMaker AI エンドツーエンドアーキテクチャ

コンポーネント間データフロー

コアコンポーネント

1. SageMaker Studio

概要

使用例

特徴

2. Training Jobs（学習）

フルマネージド学習の概念

Training Job の形式

Spot Training で最大 70% コスト削減

Hyperparameter Tuning（HPO）

Distributed Training（分散学習）

Heterogeneous Training（異なる複数インスタンスタイプの混在）

3. Built-in Algorithms vs Bring-your-own

Built-in Algorithms（AWS 提供アルゴリズム）

Bring-your-own（カスタムコンテナ）

比較表

4. SageMaker JumpStart（Foundation Model Hub）

概要

対応モデル

ファインチューニング

JumpStart vs Bedrock の使い分け

5. SageMaker HyperPod（大規模分散学習）

概要

特徴

使用例

6. Inference（推論）

4 つの推論形式

Real-time Endpoint（リアルタイム推論）

Serverless Endpoint（サーバーレス推論）

Batch Transform（バッチ推論）

Async Inference（非同期推論）

4 形式の比較表

7. Multi-Model Endpoints

概念

メリット

8. Inference Recommender

概要

9. SageMaker Pipelines（MLOps）

概念

パイプラインのスケジュール実行

Pipelines の利点

10. Model Registry & Model Cards

概念

Model Cards

11. Feature Store

概念

Online / Offline の使い分け

12. Clarify（Bias & Explainability）

バイアス検知

説明性分析（SHAP）

13. Model Monitor（Drift Detection）

概念

モニタリング対象メトリクス

14. Ground Truth（ラベリング）

概要

15. Edge Manager

概要

16. SageMaker Canvas（ノーコード）

概要

特徴

17. SageMaker Lakehouse

概要

特徴