Gemma

Cloud RunでGemma 3を動かしてみた

G-gen の佐々木です。当記事では、Cloud Run における GPU 利用のユースケースとして、オープン LLM である Gemma 3 を Cloud Run のサービスにデプロイしてみます。 前提知識 Cloud Run サービスの概要 Cloud Run における GPU 利用 Gemma 3 Cloud Run にオ…

GKE Inference Quickstartを使用して生成AIモデルの推論サーバーをデプロイしてみた

G-gen の佐々木です。当記事では GKE Inference Quickstart を使用し、Google Kubernetes Engine(GKE)で Google Cloud のベストプラクティスに沿った生成 AI ワークロードのデプロイを試してみます。 GKE Inference Quickstart とは 事前準備 コマンド実行…