BigQueryテーブルエクスプローラを試してみた

記事タイトルとURLをコピーする

G-gen の奥田梨紗です。本記事では BigQuery の新しい機能である「テーブル エクスプローラ」の機能やユースケースについて紹介します。

テーブル エクスプローラとは

2024年7月に利用可能になった、BigQuery Studio(BigQuery の Web コンソール)の機能です。

この機能では、BigQuery テーブルの各列が持つ値の一覧化したり、出現頻度を可視化したりできます。SQL を実行しなくても、テーブル内のデータを探索的に確認することが可能です。

手順

手順はとてもシンプルです。

  1. 対象テーブルを選択
  2. BigQuery Studio から「テーブル エクスプローラ」のタブに遷移
  3. 表示対象の列を選択

手順2から手順3へのコンソール画面

手順3. では、複数のチェックボックスを選択することで複数列が選択できます。チェックボックスではなく列名を選択してしまうと、他の選択が解除されてしまうので注意してください。

想定されるユースケース

1. データの全体像を確認

テーブルが持つデータの性質を簡単に確認したいときに利用します。

対象の列は、最大10個まで選択できます。列を選択すると、列の持つ値とその出現頻度が、上位10個まで表示されます。

値の抽出に際しては、裏で自動的にクエリが発行されており、通常どおりの BigQuery 利用料金が発生することに留意してください(通常のクエリエディタと同じく、事前にスキャン量の見積もりが表示されます)。

10個の列を選択したテーブル エクスプローラ

また、値の左隣チェックボックスをオンにして「適用」を押下することで、その値を持つ行のみにフィルタしてデータを表示することができます。このときも、BigQuery に対してクエリが発生します。

例えば、架空の購入プロダクトと顧客リストで、購入品の「Chromebook」をチェックすることで、Chromebook の購入者のみの値を表示することができました。

チェックボックスを入れた値のみ表示されたテーブル エクスプローラ

2. 特定期間で確認(パーティション分割テーブルのみ)

本機能はパーティション分割テーブルにも対応しており、パーティショニング フィルタを適用できます。これにより、規模が大きいテーブルに対しても、スキャン量を節約することができるほか、特定期間内のデータのみを確認できます。

パーティション分割テーブルでのフィールド選択画面

例えば、Google Cloud の利用料金をエクスポートしたテーブルに対して、パーティション範囲を指定することで、特定の日付期間でどのサービスを利用しているのかを可視化できました。

指定したパーティション期間での値が表示されたテーブル エクスプローラ

3. クエリ作成を簡略化

パーティション テーブル タブの下部には、選択中の列と、適用中のフィルタを反映した SQL が表示されます。より詳細な分析を行いたい場合は、このクエリを活用することで効率的に分析可能です。

生成されたクエリが表示されたテーブル エクスプローラ

「生成されたクエリ」のタブ右隣の「 COPY to QUERY 」を押下することで従来のクエリ画面が分割画面で表示されます。

注意点

プレビュー段階である

2024年7月時点ではテーブル エクスプローラはプレビュー版となっており、本番環境での利用は推奨されておりません。プレビュー版のサービスを使うことに関しての注意点等は、以下の記事を参照してください。

クエリ費用が発生

処理するデータ量に応じてクエリ費用が発生します。

フィールド選択後、処理されるクエリの量が表示されますため、費用の目安を確認できます。

フィルタ選択後に表示されるクエリ処理量

奥田 梨紗(記事一覧)

クラウドソリューション部クラウドデベロッパー課
Google Cloudの可能性に惹かれ、2024年4月G-genにジョイン。
Google Cloud Partner Top Engineer 2025
Google Cloud 全 11 資格保有。日々修行中です!