G-gen の佐々木です。当記事では、Google Cloud Next '26 で発表された Google Kubernetes Engine(略称 GKE)の新機能について、公式の投稿記事「What's new in GKE at Next '26」の内容をもとに紹介します。
- はじめに
- Accelerating the agentic era
- Redefining the scalability ceiling
- Supercharging state-of-the-art inference
- Eliminating RL compute bottlenecks
- Scaling on custom metrics

はじめに
以下の公式投稿を参考に、Google Cloud Next '26 で発表された Google Kubernetes Engine(略称 GKE)の新機能を紹介します。なお、当記事で紹介する機能の提供ステータス(GA / Preview / Private Preview / Coming Soon)は2026年4月23日現在の情報です。
他の Google Cloud Next '26 の関連記事は、Google Cloud Next '26 カテゴリの記事一覧から参照してください。
Accelerating the agentic era
GKE Agent Sandbox(GA)
GKE Agent Sandbox は、gVisor によるカーネル レベルの隔離技術を活用し、信頼できないコードやツール、エージェントを安全に実行するためのサンドボックス環境です。Gemini のセキュリティ基盤にも採用されている技術が利用されています。
毎秒300個のサンドボックスを1秒未満のレイテンシで起動できる、業界で最もスケーラブルかつ低レイテンシのエージェント インフラストラクチャとされています。特に Google Axion プロセッサを使用するノード上で実行した場合に優れたコストパフォーマンスを実現できます。
- 参考 : About Agent Sandbox
- 参考 : Google Axion プロセッサ
Redefining the scalability ceiling
GKE Hypercluster(Private GA)
GKE Hypercluster は、単一の GKE クラスタで、最大 100万チップ、256,000ノード、さらに複数の Google Cloud リージョンにまたがるインフラストラクチャを管理できる、GKE の新しい実行モデルです。従来の GKE では最大 65,000ノードまでがサポートされていましたが、およそ4倍の規模の大規模クラスタを複数リージョンにまたがって展開することができます。
地理的に分散したインフラストラクチャを統合されたコンピューティングリソースとして扱えるため、グローバル規模の AI ワークロードを 1 つのクラスタとして運用することが可能になります。
GKE Hypercluster では、セキュリティを損なうことなくクラスタの規模をグローバルに拡張するため、Google のソフトウェア強化型セキュリティエンジンである Titanium Intelligence Enclave を採用しています。ハードウェア証明(Hardware-attested)と Pod 単位での隔離により、Google Cloud のプラットフォーム管理者やユーザー側のクラスタ管理者ですらモデルの重みやプロンプトに直接アクセスできない「no-admin-access」モデルを実現しており、グローバル スケーリングとセキュリティを両立させます。
Supercharging state-of-the-art inference
Predictive Latency Boost(GA)
Predictive Latency Boost は、GKE Inference Gateway において、機械学習ベースの予測を用いたルーティングを行う機能です。
キューの深さ、メモリ負荷、キャッシュの局所性、バッチサイズなどをシグナルとした従来のヒューリスティックに基づく予測ではなく、リアルタイムで学習を行うモデル(軽量な XGBoost 回帰モデル)によるレイテンシ予測でルーティング先を決定することで、Time-to-first-token(TTFT : 最初のトークン取得までのレイテンシ)を最大 70% 削減できるとされています。手動でのチューニングも不要です。
Automatic KV Cache Storage Tiering(GA)
Automatic KV Cache Storage Tiering は、LLM 推論における KV キャッシュ を、RAM、Local SSD、Cloud Storage / Lustre といった異なるストレージ階層間で自動的に階層化する機能です。ロングコンテキストを扱う際のメモリボトルネックを解消できます。
たとえば、10K トークンのシステムプロンプトでは、RAM にオフロードすることで TTFT を 40% 以上削減し、スループットを 50% 向上させます。50K トークンのシステムプロンプトでは、Local SSD にオフロードすることでスループットをほぼ 70% 向上させます。
Eliminating RL compute bottlenecks
RL Scheduler(Preview)
RL Scheduler は、GKE 上で実行される強化学習(Reinforcement Learning : RL)の学習ループにおいてストラグラー効果(Straggler effect : 分散処理において、処理が遅延している一部のノードがバッチ全体の完了を遅らせる現象)を抑制し、バッチ間のテイルレイテンシを解消するためのインテリジェントな推論スケジューラです。
サンプリングリクエストを適切なワーカーにルーティングすることで、ワーカー全体のスループットを最大化します。
RL Sandbox(Preview)
RL Sandbox は、強化学習における報酬計算やツール呼び出しを、カーネルレベルで隔離されたサンドボックス上で実行するための機能です。サンドボックスはミリ秒単位でのプロビジョニングが可能であり、強化学習のサンプリングステップや報酬評価ステップに組み込みやすい設計となっています。
これにより、安全性を確保しながら、強化学習における学習ループ全体の実行効率を高めることができます。
RL Observability and Reliability Dashboards(Preview)
RL Observability and Reliability Dashboards では、強化学習ワークロード向けのダッシュボードが提供されます。強化学習アプリケーションのメトリクスやトレースが収集され、学習ループ全体のボトルネックやエラーの特定・最適化を迅速に行えるようになります。
Scaling on custom metrics
Intent-based Autoscaling on Custom Metrics(GA)
GKE において、Horizontal Pod Autoscaler(HPA)がカスタムメトリクスをネイティブに扱えるようになりました。本機能はエージェントレスのアーキテクチャを採用しており、Pod から直接メトリクスを取得して HPA によるスケーリングの判断に用いることができます。
従来、CPU・メモリ以外のメトリクス(例 : キューの深さ、リクエスト数など)に基づいてオートスケーリングを行うには、クラスタ外部の監視スタックを介してメトリクスを取得する必要がありました。この方式では、外部監視スタックに障害が発生した場合に連鎖的にスケーリングが停止するリスクがあります。
本機能は Pod から直接メトリクスを取得するため、スケーリングにおける外部の監視スタックへの依存を排除できます。
佐々木 駿太 (記事一覧)
G-gen 最北端、北海道在住のクラウドソリューション部エンジニア
2022年6月に G-gen にジョイン。Google Cloud Partner Top Engineer に選出(2024 / 2025 Fellow / 2026)。好きな Google Cloud プロダクトは Cloud Run。
趣味はコーヒー、小説(SF、ミステリ)、カラオケなど。
Follow @sasashun0805