Gemini Proを使ってみた。Googleの最新生成AIモデル

記事タイトルとURLをコピーする

G-genの杉村です。Google の提供する最新の生成 AI モデルである Gemini は、Google Cloud 環境をお持ちであれば、すぐに試してみることができます。Gemini Pro の使い方を簡単にご紹介します。

はじめに

Gemini とは

Gemini とは、Google が2023年12月初旬に発表した、最新の生成 AI モデルです。テキスト、画像、動画など、複数の種類のデータを扱える「マルチモーダル」な生成 AI モデルであり、テキスト生成、動画や画像の説明、コーディングの補助など、さまざまなタスクで高いパフォーマンスを出すとされています。

Gemini には UltraProNano という3つのサイズが用意されています。Ultra が最大のサイズで最も高性能です。Nano はモバイルデバイスにも搭載できる最小サイズのモデルです。Pro はその中間とされており、2024年1月現在では唯一、Public Preview(一般利用者も試用できる状態)となっています。

Gemini Pro の試用

2024年1月現在、課金が有効化された Google Cloud(旧称 GCP)環境があれば、誰でも Gemini Pro を試用できます。

以下は、Google Cloud の Vertex AI Studio という Web UI を通して Gemini Pro をトライアルした際のスクリーンショットです。

画面上部のテキストボックスにテキスト情報を入力したり、画像や動画をアップロードして送信すると、テキストが生成されて返答されます。

料金

Gemini Pro を Google Cloud 経由で利用すると、Google Cloud プロジェクトに対して課金が発生します。

2024年1月現在は、以下のような課金体系です。入力した画像、動画、テキストの量と、出力されたテキストの量に応じた従量課金となります。

インプット 料金単価
画像 $0.0025 / 画像枚数
動画 $0.002 / 秒
テキスト $0.00025 / 1,000文字
出力 料金単価
テキスト $0.0005 / 1,000文字

最新の情報は公式ドキュメントをご参照ください。

Gemini Pro の使い方

Vertex AI Studio へアクセス

Google アカウントにログインした状態で、Vertex AI Studio の Web コンソール画面にアクセスします。

Google アカウントへのログイン、プロジェクトの選択、課金の有効化、Vertex AI API の有効化が求められた場合、画面の指示に沿ってこれらを有効化します(それらを行っただけでは、実際の課金は発生しません)。

スクリーンショット赤枠部分で、想定どおりのプロジェクトが選択されていることを確認してください。このプロジェクトに対して課金が発生します。

マルチモーダル API 試用画面への遷移

Multimodal Powered by Gemini という文字の下の「今すぐ試す」ボタンを押下します。

2024年1月時点ではこのボタンが表示されていますが、画面は変更される可能性があります。もしこのボタンがなければ、Web コンソール画面左端のメニューから「マルチモーダル」を押下し、遷移した先の画面で「Prompt design (single turn)」の下の「オープン」を押下してください。

プロンプトの入力

この画面で、さまざまなプロンプト(生成 AI モデルへの入力データ)を入力し、Gemini Pro にテキストを生成させることができます。

①のテキストボックスには、Gemini Pro に渡す文字列を入力できます。

②の INSERT MEDIA ボタンからは、画像や動画をアップロードすることができます。画像は PNG、JPG 形式に対応しています。動画は MKV、MOV、MP4、WEBM 形式に対応しており、最大7MB、2分までの動画に対応しています。

①と②でプロンプトを入力した後、③の送信ボタンを押下すると、下部の Response ブロックに生成結果が表示されます。

パラメータの調整

画面右部分で、細かいパラメータを調整することができます。

① リージョンは、プロンプトを送信する先の API エンドポイントの所在地を表しています。データの所在(Data residency)などに関連します。個人情報等を含まないプロンプトで試用する分には、あまり気にする必要はありません。

② Temperture(温度)は、生成内容のランダム度合いを制御するパラメータです。一般的にいって、より正確な生成内容を求める場合は Temperture を0に近くし、よりクリエイティブで予想外の結果を求める場合は1に近くします。

③ トークンの上限は、返答されるトークン数の上限を定めます。1トークンは概ね4文字とされています。

④ は停止シーケンスを定めるテキストボックスです。停止シーケンスとは、それが現れたらテキスト生成を停止する文字列です。句点(。)が現れたら生成を停止する、といった用途にも使えますし、不適切な表現や生成に含ませたくないワードを生成結果に含ませたくないときにも利用できます。

⑤ の Advanced セクションを展開すると、より詳細なパラメータ(Top K、Top P 等)を設定できるようになります。モデルが出力に使うトークンをどのように選択するかを指定するパラメータです。詳細は以下のドキュメントをご参照ください。

高度な使い方

Gemini Pro の応用

当記事では、Gemini Pro を手軽に試用する方法を紹介しました。

以下の記事では、Gemini Pro を Web アプリに組み込んで、チャットアプリを開発した例をご紹介しています。

blog.g-gen.co.jp

PaLM 2 の応用

以下の記事では、Google のもう1つの生成 AI 基盤モデルである「PaLM 2」などの Google 製生成 AI を、アプリケーションに組み込んで利用する高度な方法を紹介しています。ぜひご参照ください。

blog.g-gen.co.jp

blog.g-gen.co.jp

blog.g-gen.co.jp

blog.g-gen.co.jp

blog.g-gen.co.jp

杉村 勇馬 (記事一覧)

執行役員 CTO / クラウドソリューション部 部長

元警察官という経歴を持つ現 IT エンジニア。クラウド管理・運用やネットワークに知見。AWS 12資格、Google Cloud認定資格11資格。X (旧 Twitter) では Google Cloud や AWS のアップデート情報をつぶやいています。