G-gen の神谷です。本記事では Google Cloud (旧称 GCP) の BigQuery のコスト削減の方法をまとめます。

はじめに

コスト削減の手法

BigQuery は他クラウドのデータウェアハウスに比べてコストパフォーマンスの良いプロダクトと言えますが、使い方次第では高額になってしまいます。

複合的な要因が積み重なって料金が上がるため、銀の弾丸はありませんが、料金がかかる箇所を一つ一つ潰していくことで着実にトータルコストは抑えられます。本記事では、ここだけは押さえておきたいというポイントを解説します。

プロジェクトごとに選択する利用プランによって課金体系が異なります。

プロジェクトのデフォルト設定はオンデマンドですが、無料枠を超える場合は BigQuery Editions を選択したほうが安価になる傾向があります。詳細は以下の記事を参照してください。

どこに料金がかかっているかに応じて、打ち手が異なります。まずは、現状分析を行います。かかりがちなのは以下です。

クエリ料金/コンピュート料金
- 必要がないのに「SELECT * (全カラムの選択）」を使っている
- BI ダッシュボードからビューを呼び出している
- パーティションやクラスタリングを適切に使っていない
ストレージ料金
- バックアップ用のデータセットやテーブルが整理されず残っている
- パーティションやクラスタリングを適切に使っていない
データ格納料金
- ストリーミングインサートを使っている

調査方法としては以下です。特に Cloud Monitoring 指標は意外に忘れられがちです。有用な指標があるので、見るようにしたほうが良いでしょう。

また Looker Studio から BigQuery を利用している場合、以下の記事も参照してください。

BigQuery BI Engine (BigQuery のキャッシュ機能) との組み合わせによって、自社に最適なコストとパフォーマンスのトレードオフを決める
Looker Studio, Looker, Tableau, Connected Sheets などで利用可能

オンデマンド課金がある一定以上にかからないように確実な上限設定をしたい場合は、以下の記事を参照してください。

Google Cloud 公式で推奨されているコスト削減についても方法についても紹介します。

ダイレクトに課金を減らす方法に加えて、クエリパフォーマンスの最適化 (処理や実行時間、リソース消費量が減る) による間接的な費用削減方法についても説明されています。

大容量のクエリは小分けして中間テーブルに永続化する
課金される最大バイト数を設定して想定外に大きいクエリを仕組みによって回避する
正規化されているテーブルを非正規化する
- 具体的には、ネストデータ (STRUCT) や繰り返しデータ (ARRAY) を上手く使うことです。これまでの RDB の正規化のセオリーとは真逆を行くものです
WHERE 句で BOOL、INT、FLOAT または DATE 列を使用する
- クラスタ列の型として STRING も利用可能ですが、前述の型に比べてパフォーマンスが下がる
JOIN する前にデータを減らす
- 集計関数と GROUP BY は計算コストの高い処理なので、できるだけ早期にデータ量を減らしてから集計する