Optimize your machine learning applications using BigQuery DataFrames(Google Cloud Next '24セッションレポート)

記事タイトルとURLをコピーする

G-gen の堂原です。本記事は Google Cloud Next '24 in Las Vegas の 2 日目に行われた Breakout Session「Optimize your machine learning applications using BigQuery DataFrames」のレポートです。

他の Google Cloud Next '24 の関連記事は Google Cloud Next '24 カテゴリの記事一覧からご覧いただけます。

セッションの概要

本セッションでは、この度 GA となった BigQuery DataFrames について、概要、デモ及びユースケースが紹介されました。

アジェンダ

背景

Next '24 内でも繰り返し述べられている通り、データ分析、特に AI・生成 AI を用いたデータ分析のための幅広いサービスが Google Cloud では提供されており、BigQuery はその代表と言えるでしょう。

さて、Python はデータアナリストやデータサイエンティスト(セッション中では「data practitioner」と称されてました)から最も人気なプログラミング言語です。

pandas や scikit-learn を用いたデータ処理、AI 分析はメジャーなデータ分析手法です。

ここで、BigQuery に蓄積されたビックデータを、これらのライブラリで分析するとき、以下のような課題に直面します。

  • メモリ : これらのライブラリはデータを一度ローカルのメモリに格納する必要があり、TB を超えるようなデータを分析する際、メモリ不足に直面する
  • コンピューティング : ローカルで TB を超えるデータを処理する場合、使用している計算機のパワーが不足してしまう
  • ガバナンス : 分析のためにはデータをローカルにコピーする必要があり、データの漏えい等のリスクがつきまとう

そのため、これまでは Spark 等を用いる必要がありました。

BigQuery DataFrames

BigQuery では、pandas、scikit-learn のような操作感で BigQuery 上のデータを分析することができる、BigQuery DataFrames が提供されています。

BigQuery DataFrames を用いることで、データを BigQuery に残したまま、つまり圧倒的なスケーリング機能が担保されたまま、慣れ親しんだ方法とほぼほぼ変わらないデータ分析が可能となります。

以前からプレビュー公開されていた本機能ですが、この度、晴れて GA(一般公開)されました。

BigQuery DataFrames は、以下のブログ記事で解説している通り大きく 2 つの機能が提供されています。

  • bigframes.pandas
  • bigframes.ml

blog.g-gen.co.jp

その上で今回、Gemini や PaLM 2 が呼び出せる bigframes.ml.llm が機能として追加されました。

デモ

上記の機能のデモとして、商品の購入履歴を基に以下のような処理を行う様子が紹介されました。

  1. データの前処理
  2. k-means を用いたクラスタリング
  3. Gemini を用いた各クラスターの解析及びキャンペーンメッセージの作成

約 1.6 TB ある購入履歴テーブルに対して、メモリが 15 GB しかないインスタンス上で上記の処理がスムーズに行われていきました。

ユースケース

最後に、ユースケースとして国際的な小売企業である Carrefour 社での活用が紹介されました。

Carrefour 社では、世界各国で生成されたデータが地域レベル、グローバルレベルの BigQuery に格納されています。

Carrefour 社でも例に漏れず、データ分析チームで最も需要のある言語は Python であり、実行環境のキャパシティを気にすることなく Python での分析が可能な BigQuery DataFrames はかなり重宝されているとのことでした。

関連記事

blog.g-gen.co.jp

堂原 竜希(記事一覧)

クラウドソリューション部データアナリティクス課。2023年4月より、G-genにジョイン。

Google Cloud Partner Top Engineer 2023, 2024に選出 (2024年はRookie of the yearにも選出)。休みの日はだいたいゲームをしているか、時々自転車で遠出をしています。