G-gen の佐々木です。当記事では、Google Cloud が提供する、フルマネージドの AI エージェントプラットフォームである Vertex AI Agent Engine について解説します。

はじめに
Vertex AI Agent Builder とは
Vertex AI Agent Builder は、Google Cloud 上で AI エージェントを構築、管理、実行するために必要な機能を提供するプロダクト群です。
Vertex AI Agent Builder では、エージェント開発を容易にするオープンソース フレームワークである Agent Development Kit(ADK)、ユースケースに応じたエージェントのサンプルが多数提供される Agent Garden、GUI を用いてローコードでエージェントの設計・テストを行うことができる Agent Designer、そして当記事で紹介する Agent Engine などが提供されています。
Vertex AI Agent Engine とは
Vertex AI Agent Engine(以下、Agent Engine)は、Vertex AI Agent Builder に内包されたプロダクトの1つで、エージェントを実行するためのフルマネージドの実行基盤を提供します。
Agent Engine では、組み込みの機能としてエージェントのマルチターン会話を実現するセッション機能や自動スケーリング機能、その他エージェントの機能拡張・運用管理に必要な様々な機能を利用することができます。
他のエージェント実行基盤との比較
Google Cloud における代表的なエージェント実行基盤としては、Agent Engine の他に Cloud Run、Google Kubernetes Engine(GKE)などがあります。
Cloud Run では、Agent Engine と同様にサーバーレスの実行基盤でエージェントを実行することができます。Agent Engine と比較して実行環境のカスタマイズ性が高い反面、セッションの保持のようなエージェント特有の機能は Cloud SQL や Firestore などのサービスと連携するなどして独自に実装する必要があります。
GKE では Agent Engine や Cloud Run と比較して、コンピューティングリソースやネットワーク等インフラストラクチャの細かい制御が可能です。Kubernetes によるカスタマイズ性の非常に高いエージェント実行基盤を構築することができますが、トレードオフとして環境の構築・運用コストが高くなります。
| 実行環境 | Agent Engine | Cloud Run | GKE |
|---|---|---|---|
| セッション機能 | 組み込み | 独自実装 | 独自実装 |
| 自動スケーリング | 組み込み | 組み込み | 独自実装 |
| 実行環境のカスタマイズ性 | 低い | 中程度 | 高い |
| 環境の構築、運用コスト | 低い(サーバーレス) | 低い(サーバーレス) | 高い(マネージド Kubernetes クラスタ) |
Google Cloud 上で新たに AI エージェントの構築を検討する際は、まずはエージェントの実行に特化した Agent Engine の利用を検討し、Agent Engine では実現できない要件がある場合に Cloud Run や GKE を検討するのが良いでしょう。
Agent Engine の基本
エージェントの開発
Agent Engine では、Agent Development Kit(ADK)や LangChain、LangGraph などのフレームワークで開発したエージェントのほか、フレームワークに依存しない独自のエージェント(カスタムエージェント)をデプロイすることができます。
2026年3月現在、Agent Engine にエージェントをデプロイするには、Vertex AI SDK または REST API、ADK 用の CLI などを用いてデプロイ用の API を呼び出す必要があります。Google Cloud コンソールや gcloud CLI によるデプロイはサポートされていません。
以下の記事では、ADK を用いて開発したエージェントを Agent Engine にデプロイする手順を解説しています。
エージェントの実行環境
実行環境の基本事項
Agent Engine にデプロイしたエージェントは、Google Cloud が管理するフルマネージドの実行基盤で実行されます。
Agent Engine にデプロイしたエージェントに対してリクエストが送信されると、Agent Engine はリクエストを処理するためのコンテナインスタンスを起動し、その上でエージェントを実行します。
したがって、Agent Engine のインスタンスは Cloud Run のようにサーバーレスであり、必要なときだけコンピューティングリソースを確保してエージェントを実行するという特徴があります。
2026年3月現在はプレビュー提供の機能ですが、起動するコンテナインスタンスが確保するコンピューティングリソース(CPU、メモリ)や、コンテナインスタンスの最小・最大数、インスタンスあたりのエージェントの同時実行数は、エージェントのデプロイ時に指定することができます。
| 項目 | 設定値 | デフォルト値 |
|---|---|---|
| CPU(vCPU) | 1, 2, 4, 6, 8 | 4 |
| メモリ(Gi) | 1, 2, 4, 8, 16, 32 | 4 |
| 最小インスタンス数 | 0~10 | 0 |
| 最大インスタンス数 | 1~1,000 | 10 |
| エージェント同時実行数 | 1以上 | 9 |
コールドスタート
Agent Engine では、起動中のインスタンスがない場合、もしくは現在起動中のインスタンスでリクエストを処理しきれない場合に、それを処理するためのインスタンスを追加で起動します。
このような仕様から、コンテナインスタンスの起動待機時間により、エージェントのレスポンスが遅くなることがあります(コールドスタート)。コールドスタートによる平均レイテンシーは約4.7秒とされています。
これを回避するためには、常に起動したままにするインスタンスの数(min_instances)をリクエストの量に応じた適切な数(1以上)に設定します。
2026年3月現在、min_instances の設定はプレビュー提供の機能となっており、min_instances の値を1以上に設定していても、エージェントがアイドル状態の間はコンピューティングリソースの料金が発生しません。しかし、この仕様は将来的には変更される可能性があるため、適切なインスタンス数を設定できるようにパフォーマンスのモニタリングを行うことが重要です。
エージェントの使用
Agent Engine で実行されるエージェントは、Vertex AI SDK や REST API を使用して呼び出すことができます。
また、Agent Development Kit(ADK)を使用して開発したエージェントであれば、Google Cloud コンソールからエージェントを直接呼び出して会話することも可能です。

エージェントに対する権限付与
エージェントが BigQuery にアクセスする場合など、Agent Engine で実行されるエージェントが Google Cloud API を利用する場合、AI Platform Reasoning Engine サービスエージェントまたはカスタムサービスアカウントに対して必要な IAM 権限を付与します。
サービスエージェントは以下の形式で Agent Engine を利用しているプロジェクト内に存在します。
service-<プロジェクト番号>@gcp-sa-aiplatform-re.iam.gserviceaccount.com
Agent Engine のサブリソース
セッション
Agent Engine にデプロイしたエージェントは、ユーザーとエージェントの会話履歴を保持するセッション機能を組み込みで利用することができます。
セッションはユーザーがエージェントとの会話を開始したときに新たに作成され、ユーザーとエージェントの会話内容を記憶していきます。
セッションは、設定された有効期限か会話の終了によって削除されます。セッションが削除されるとそれまでの会話履歴は失われるため、会話の終了後、再度エージェントを利用するときに以前の会話履歴を参照させたい場合は後述の Memory Bank を利用する必要があります。
セッションは、Agent Development Kit(ADK)で開発したエージェントの場合は何も追加で実装する必要がなく、自動的に処理されます。それ以外の方法でエージェントを実行する場合は、API を利用してセッションを作成・管理することができます。
Memory Bank
Memory Bank はセッション機能と同様にユーザーとエージェントの会話履歴を記憶する機能です。
セッション機能が特定ユーザーの1つのセッション内の記憶を保持する機能であるのに対して、Memory Bank は特定ユーザーの複数のセッションにまたがる長期記憶を保持する機能です。長期記憶により、ユーザーごとにパーソナライズされた会話をセッション間でも継続することができます。
Memory Bank では、LLM を使用して会話の中から意味のある情報を抽出し、既存の記憶と統合することで記憶内容を洗練する機能と、記憶をマネージドのストレージに保存して必要な時に検索・取得する機能が提供されます。
Code Execution
Code Execution はエージェントがタスク内で生成したコードを、エージェントの実行環境とは分離された安全なサンドボックス上で実行する機能です。
サンドボックスでコードを実行するためには、Agent Development Kit(ADK)等を使用してサンドボックスを作成しておき、それを使用してコードを実行するようにエージェントを実装する必要があります。
サンドボックスは1秒以内に高速で起動し、エージェントが生成したコードを実行します。
なお、当機能は2026年3月時点では us-central1 リージョンのみで利用可能となっています。

Example Store(プレビュー機能)
Example Store は、Few-shot プロンプティングによってエージェントの回答品質を制御するための機能であり、エージェントが LLM に推論リクエストを送信する際に利用することができるプロンプトと回答の組み合わせのいくつかの例(Few-shot)を保存・管理することができます。
Example Store を使用するには、事前に Example Store インスタンスを作成し、サンプルとなるプロンプトと回答の組み合わせをインスタンスにアップロードしておく必要があります。
Agent Development Kit(ADK)で開発したエージェントの場合、エージェントが使用する Example Store インスタンスを事前に指定しておくことで、プロンプトの内容に応じて自動的にサンプルを取得して LLM へのリクエストに含めることができます。それ以外の方法でエージェントを実行する場合は、API を利用して Example Store から例を検索・取得し、LLM へのリクエストに含めるように実装する必要があります。

エージェントの品質評価
Agent Engine で実行するエージェントの品質は、Gen AI Evaluation Service を使用して評価することができます。
Gen AI Evaluation Service は Google Cloud コンソールや Vertex AI SDK から利用することができます。評価用のプロンプトのリストをデータセットとしてエージェントに渡して、エージェントから得られた回答を、事前定義された指標やユーザー定義の指標をベースに評価することができます。
オブザーバビリティ
モニタリング
Agent Engine は Cloud Monitoring と統合されており、組み込みの指標やカスタム指標、アラートを使用してエージェントをモニタリングすることができます。
組み込みの指標としては、以下の指標がサポートされています。
- リクエスト数
- リクエストのレイテンシー
- CPU 割り当て時間
メモリ割り当て時間
参考 : エージェントをモニタリングする
ロギング
Cloud Logging との統合により、エージェントが標準出力や標準エラー出力に書き込んだログは、デフォルトで Cloud Logging に転送されます。構造化されたログを記録したい場合は、組み込みの Python ロガーや Cloud Logging クライアントを使用します。
なお、Cloud Logging との統合はセッション機能、Memory Bank などの Agent Engine のサブリソースではサポートされていません。
- 参考 : エージェントのロギング
トレース
2026年3月時点ではプレビュー提供の機能ですが、Cloud Trace との統合により、エージェントが実行した関数呼び出しや LLM とのやり取りなどをタイムラインとして取得し、個々のオペレーションのパフォーマンスを分析することができます。
- 参考 : エージェントをトレースする
セキュリティ
エージェントの実行基盤として Agent Engine を使用する場合、Google Cloud が提供するエンタープライズレベルのセキュリティ機能を統合することができます。
例えば、VPC Service Controls を使用することで、Agent Engine で実行されるエージェントが BigQuery API や Cloud SQL Admin API などの Google Cloud API に安全にアクセスしつつ、エージェントによるデータの移動を事前定義した境界内に制限することができます。なお、VPC Service Controls は Code Execution のサンドボックスで実行されるコードにも適用されます。
また、セッション機能や Memory Bank で保存されるユーザーの会話履歴は、顧客管理の暗号鍵(CMEK)を使用して暗号化することができます。
料金
エージェントの実行基盤のコンピューティングリソースの利用料金として、vCPU とメモリの量に利用時間をかけた料金が発生します。エージェントがリクエストを処理していないアイドル時間については課金対象外となっています。
| リソース | 料金 | 備考 |
|---|---|---|
| vCPU | 1 vCPUあたり $0.0864/時間 | 1ヶ月の最初の50 vCPU 時間(1 vCPU の場合は50時間)は無料枠。アイドル時間は無料 |
| メモリ | 1 GiBあたり $0.009/時間 | 1ヶ月の最初の100 GiB 時間(1 GiB の場合は100時間)は無料枠。アイドル時間は無料 |
セッションや Memory Bank などエージェントの記憶に関する機能の利用料金として、保存した量に応じて以下の料金が発生します。
| 機能 | 料金 | 備考 |
|---|---|---|
| セッション | 保存されたイベント1,000件あたり $0.25 | |
| Memory Bank | 保存された記憶 : 1,000件あたり $0.25/月 保存された記憶の取得 : 記憶1,000件ごとに $0.50 |
記憶生成の LLM 費用が別途かかる 1ヶ月あたり最初に取得する1,000件までは無料 |
エージェントがタスク内で生成したコードを Code Execution を使用してサンドボックス上で実行する場合、サンドボックスのコンピューティングリソース料金が別途発生します。
| リソース | 料金 | 備考 |
|---|---|---|
| vCPU | 1 vCPUあたり $0.0864/時間 | アイドル時間は無料 |
| メモリ | 1 GiBあたり $0.009/時間 | アイドル時間は無料 |
佐々木 駿太 (記事一覧)
G-gen 最北端、北海道在住のクラウドソリューション部エンジニア
2022年6月に G-gen にジョイン。Google Cloud Partner Top Engineer に選出(2024 / 2025 Fellow / 2026)。好きな Google Cloud プロダクトは Cloud Run。
趣味はコーヒー、小説(SF、ミステリ)、カラオケなど。
Follow @sasashun0805