Real-time multimodality: Building seamless experiences with the Gemini Live API(Google Cloud Next '26速報)

記事タイトルとURLをコピーする

G-gen の山崎です。当記事は、Google Cloud Next '26 in Las Vegas の1日目に行われたブレイクアウトセッション「Real-time multimodality: Building seamless experiences with the Gemini Live API」のレポートです。

G-gen Tech Blog では、現地でイベントに参加したメンバーや、日本から情報をウォッチするメンバーが、Google Cloud Next '26 に関連する記事を発信します。

blog.g-gen.co.jp

セッションの概要

本セッションでは、Gemini Live API のプロダクトリードを務める Fabien Mathey 氏や Google の Wendy Yin 氏が登壇し、Gemini Live API の基本機能や、新機能である 「Live Avatar」 の発表を行いました。

さらに、事例紹介として、Shopify、Citibank、ドイツの e コマース大手 Otto、そして株式会社スクウェア・エニックスの取り組みが紹介されました。特にスクウェア・エニックスからは「ドラゴンクエスト」シリーズの生みの親である堀井 雄二氏が登壇し、ゲームと AI の融合がもたらす未来のビジョンについて語られました。

Gemini Live API の概要と特徴

自律的エージェントのプラットフォーム

2026年4月現在、Gemini Live API は Gemini Enterprise Agent Platform 上で稼働しています。このプラットフォームは、単に AI に「指示」を出す段階から、タスクを「委任」する段階への移行を促すものです。

AI が知能を持つだけでなく、真の自律性を持つエージェントとして機能し、チームメンバーと同等の独立性と信頼性をもって行動するためには、人間が AI と対話するための全く新しい手段が必要であり、それを実現するのが Gemini Live API です。

Gemini Live API を支える3つの柱

Gemini Live API は、以下の3つの特徴があります。

オーディオ(音声)
高品質で双方向の音声通話を提供します。会話が流暢であるだけでなく、ユーザーが AI の発言を途中で遮る(Barge-in)ことも可能です。これにより、人間同士が対話しているかのような自然な会話が実現します。

ビジョン(視覚)
Gemini Live API は、画像、ライブビデオストリーム、画面共有など、AI に提供された視覚情報をリアルタイムで処理し、状況を理解します。

エンタープライズ対応
本番環境にアプリケーションを展開するために不可欠な、高いセキュリティ、スケーラビリティ、そして信頼性を提供します。

Affective dialog とコンテキストの記憶

セッション内では、Gemini Live API のリアルタイム処理能力を示すデモが行われました。最初のデモでは、AI に英語で詩を読ませている途中で発言を遮り、「フランス語で教えて」と要求しました。AI はユーザーから主導権を奪うことなく、瞬時に言語をフランス語に切り替えて詩を読み上げました。

続いて Affective dialog のデモが披露されました。ユーザーが「来週は私の誕生日で、100人の友達を招待したから盛大なパーティーになる」とワクワクしたトーンで話しかけると、AI も明るい声で応じます。しかし直後に、ユーザーが「実は全員に断られて一人になってしまった」と悲しそうなトーンで伝えると、AI はその声のトーンの変化を途中で検知し、瞬時に共感を示すようなトーンへと変化しました。リアルタイムの会話に応じて感情的なトーンを調整するこの機能は、AI との対話をより人間らしいものにします。

さらに、コンテキストの記憶機能についても紹介されました。会話の冒頭でカメラを通じてユーザーが提示した配送ラベルを AI が視覚的に認識します。その後、カメラからラベルを外した状態で「先ほどの配送ラベルの番号は何だったか」と尋ねると、AI は正確な番号を回答しました。Gemini Live API は、単に音声を聞くだけでなく、ビデオストリーミングを通じて得た視覚情報をセッション全体を通して記憶に留めることができます。

Gemini Live API の新機能の紹介

Live Avatar(2026年4月現在、プライベートプレビュー)

本セッションで、ライブビデオ生成機能を備えた Gemini 3.1 Live API が紹介されました。

このアップデートにより、新たに Live Avatar 機能が追加され、高品質な音声対話のエクスペリエンスに加えて、リアルタイムでユーザーを見つめ、流暢で自然な表情で反応するエージェントを構築することができます。

Live Avatar のデモ

ジョンソン・クリニックという仮想の診療施設の予約受付を行う Live Avatar のデモが行われました。

アバターは仮想の受付担当者として振る舞い、患者のフルネームや生年月日を正確に聞き取ります。その後、対面か遠隔診療かの希望、症状、希望する医師といった条件をヒアリングし、空いている予約枠を提示し、予約を完了させました。

企業の導入事例

Shopify : サポートアシスタント「Sidekick」

E コマースプラットフォームを提供する Shopify は、加盟店向けのアシスタントである「Sidekick」を Gemini Live API で強化しました。

デモでは、加盟店がドメイン設定タスクを実行するにあたって、Sidekick に音声で質問すると、AI が画面の UI をベースに手順を段階的に音声で案内し、加盟店の作業をリアルタイムにサポートしました。

Citibank : 次世代金融ウェルスアドバイザー

金融機関である Citibank は、Gemini Live API と Live Avatar を搭載した次世代のウェルスアドバイザー・モバイルアプリ「Citi Sky」を発表しました。

デモでは、顧客の譲渡性預金が来週満期を迎えるという状況下で、アプリ内の Live Avatar が、複数の選択肢を音声と画面で提示し、顧客からの回答を受けると、その場で更新手続きを完了させました。

Otto : e コマースにおける対話型アドバイザー

ドイツの e コマース大手 Otto からは、プロダクト責任者の Richard Brunner 氏が登壇しました。

Otto は「Otto, good decision(Otto、良い決断)」というブランドポジショニングを掲げており、オンラインショッピングでの検索を「顧客にシステムを理解させる」ものから、「システムが顧客のコンテキストやニーズを理解し、良い決断を支援する」ものへと再定義しました。

デモでは、「完璧なコーヒーメーカーを探している」と話しかけたユーザーに対して、AI が「手早く淹れたいか、淹れる過程を楽しみたいか」といったユーザーが求める条件を自然な会話で深掘りし、ユーザーの好みに合った商品を提案する様子が示されました。

Otto はテキストベースのチャットボットも並行して構築を行い、そのテスト結果によると、テキストベースのチャットボットではシステムとユーザーの間の平均対話ターン数が「4回」であったのに対し、音声対話では「11回」に増加しました。 これは、音声対話によるエンゲージメントの飛躍的な向上を示しており、より深いアドバイザリー体験の提供に成功したと述べました。

スクウェア・エニックス : 「真の相棒」としての AI

セッションの最後には、株式会社スクウェア・エニックスより「ドラゴンクエスト」シリーズの生みの親である堀井 雄二氏が登壇しました。

堀井氏は「人生はロールプレイングゲーム(RPG)である」という哲学を持ち、画面の向こうにいる一人一人の顔を浮かべながら、どうすれば面白いと思ってもらえるか、どうすれば驚いてもらえるか、そればかりを考えてきたと語りました。そして今、AI という新しい魔法の道具に巡り合い、ゲームと AI を融合させることで、ユーザー1人1人の言葉や行動に AI が心をあるかのように寄り添い、理解し合える世界が作れるのではないかと述べました。

デモ映像では、ドラゴンクエストの代表的なモンスターをベースとした「スラミィ」が登場し、プレイヤーからの問いかけに答える様子や、画面上のプレイヤーの外見をスラミィが視覚的に認識し、自発的に話しかける姿が披露されました。

堀井氏は、AI との冒険の旅が、あなたの人生の本当の力になるとし、それこそが、堀井氏が Google Cloud、ゲームを愛する全ての人と一緒に作り上げたい新しいロールプレイングゲームの姿であると語りました。

山崎 曜(記事一覧)

クラウドソリューション部

元は日系大手SIerにて金融の決済領域のお客様に対して、PM/APエンジニアとして、要件定義〜保守運用まで全工程に従事。
Google Cloud Partner Top Engineer 2025 選出。
Google Cloud 全 13 資格保有。
フルスタックな人材を目指し、日々邁進。