BigQuery

BigQuery で商品を「意味&ランキング検索」できる Chat Bot を作ってみた

G-gen の神谷です。本記事では、BigQuery の機能を使って、商品を意味&ランキング検索できる ChatBot を作ってみたので、そのご紹介ができればと思います。 アプリの概要 ユースケース 背景とメリット アーキテクチャ システムアーキテクチャ RAG テーブル設…

What's new with BigQuery(Google Cloud Next '24セッションレポート)

G-gen の西島です。本記事は Google Cloud Next '24 in Las Vegas の2日目に行われた Breakout Session「What's new with BigQuery」のレポートです。 他の Google Cloud Next '24 の関連記事は Google Cloud Next '24 カテゴリの記事一覧からご覧いただけま…

Optimize your machine learning applications using BigQuery DataFrames(Google Cloud Next '24セッションレポート)

G-gen の堂原です。本記事は Google Cloud Next '24 in Las Vegas の 2 日目に行われた Breakout Session「Optimize your machine learning applications using BigQuery DataFrames」のレポートです。 他の Google Cloud Next '24 の関連記事は Google Clou…

自然言語でデータ分析ができるGemini in BigQuery(データキャンバス)を試してみた

はじめまして!4月に G-gen に入社した奥田梨紗です。この度 Google Cloud Next '24 in Las Vegas で発表された Gemini in BigQuery を試してみたので手順等をご紹介します。 はじめに Gemini in BigQuery とは 試したこと Google Cloud 側へ利用申請を行う …

BigQuery Data Transfer Serviceのデータセットコピーを解説

G-gen の杉村です。当記事では、BigQuery Data Transfer Service で提供される、データセットコピー機能を解説します。 BigQuery Data Transfer Service とは データセットコピー機能とは ユースケース 認証・認可 データ転送の挙動 注意点 ストレージ料金 …

Pub/SubのBigQueryサブスクリプションを使ってみた

G-gen の杉村です。Pub/Sub の BigQuery サブスクリプションを使うと、Pub/Sub に対して発行したメッセージを簡単に BigQuery テーブルに書き込むことができます。 前提知識 BigQuery サブスクリプションとは テーブルスキーマの利用 テーブルの作成 Pub/Sub…

BigQueryのスナップショットとクローンを解説

G-gen の杉村です。BigQuery にはスナップショットとクローンと呼ばれる機能があり、ストレージ料金を節約しつつテーブルを瞬時に複製することができます。これらの機能について解説します。 スナップショットとクローン スナップショットとは / クローンと…

BigQueryの列レベル暗号化(Cloud KMS利用)を解説

G-gen の杉村です。BigQuery では、Cloud KMS で管理する暗号鍵を使って、列レベルの暗号化を行うことができます。その仕組みと方法を解説します。 BigQuery における暗号化 ストレージ暗号化とは 列レベル暗号化とは 権限と読取可能性 暗号化方式 AEAD 暗号…

Data Catalogを徹底解説!

G-gen の杉村です。Google Cloud のメタデータ管理ツールである Data Catalog を解説します。 概要 Data Catalog とは Data Catalog の機能 データカタログの利点 メタデータとは データ検索機能 検索方法 クエリの構文 メタデータ管理機能 Data Catalog が…

LangChainでBigQueryデータを使ったグラウンディングを実装してみた

G-gen 又吉です。当記事では、Google Cloud の LLM (Vertex AI PaLM API) と LangChain を組み合わせて、自然言語から BigQuery 上の統計データを取得する方法を紹介します。 はじめに 準備 実行環境 使用するデータ 実装 ライブラリのインストール 関数の定…

BigQueryでGROUP BY CUBE等を使ってみる

G-gen の杉村です。BigQuery の特殊な GROUP BY 構文である GROUP BY GROUPING SETS GROUP BY CUBE GROUP BY ROLLUP について解説します。 はじめに GROUP BY GROUPING SETS GROUP BY CUBE GROUP BY ROLLUP はじめに BigQuery で以下の特殊な GROUP BY 構文…

BigQueryのARRAYとSTRUCTを理解して使いこなす

G-gen の杉村です。BigQuery は通常の RDBMS と異なり分析用データベースであることから、非正規化したテーブルを扱うことが多くなります。そのための独特のデータ型として、ARRAY (配列) と STRUCT (構造体) があります。これらについて解説します。 概要 A…

BigQuery DataFramesを徹底解説

G-gen 又吉です。当記事では、Google Cloud Next '23 で発表された BigQuery DataFrames を解説します。BigQuery 上のデータを、pandas ライクな、また scikit-learn ライクなインターフェイスで操作できるライブラリです。 BigQuery DataFrames 概要 bigfra…

Looker StudioでGA4データを可視化したらBigQuery課金がスパイクした件

G-gen のタナです。Google Cloud (旧称 GCP) で、BigQuery へエクスポートした Google Analytics 4 (GA4) のデータを Looker Studio レポートのデータソースとして使用した際に、BigQuery の料金がスパイク (想定以上に膨らむこと) してしまいました。同じ問…

Looker StudioレポートごとのBigQueryクエリ課金額を調べる方法

G-gen の杉村です。Google Cloud (旧称 GCP) の BigQuery と BI ツールである Looker Studio のネイティブ統合機能である BigQuery native integration in Looker Studio が2023年10月2日に Private Preview (申込制) で公開されたため、その機能を活用して …

サーバーレスVPCアクセス経由でMySQLサーバーからBigQueryにデータ転送してみた話

G-gen の西島です。Google Cloud (旧称 GCP) の Cloud Run jobs 上に構築したジョブから Compute Engine 上の MySQL サーバーへ、サーバーレス VPC アクセス経由でクエリを発行し、その結果を BigQuery にロードするジョブの検証を行ったので、その紹介です…

BigQueryのオンデマンドクエリの利用量にフタをする (上限を設ける)

G-gen の杉村です。BigQuery のオンデマンドクエリの利用量にフタをする、つまりスキャンデータ量に上限を設けて突発課金を防止する工夫について紹介します。 はじめに 割り当て (Quota) の設定 Query usage per day 設定手順 割り当て画面へ遷移 対象の割り…

BigQueryのクロスリージョン・データセットレプリケーションを解説

G-gen の杉村です。BigQuery の可用性を高めるための クロスリージョン・データセットレプリケーション (Cross-region dataset replication) について解説します。 クロスリージョン・データセットレプリケーションとは 仕組み BigQuery の可用性 データのレ…

Googleの生成AI、PaLM 2をSlack連携して社内ツールとして導入してみた

Google Cloud (旧称 GCP) の生成 AI (Generative AI) である PaLM 2 を用いて、Slack と連携した簡易的なチャットボットの PoC を行いました。 生成 AI を社内で運用し、データを内部で管理することで、機密情報の保護ができます。また社員が入力したプロン…

Connected SheetsとBigQueryで技術ブログのGA4アクセス解析をしている話

G-gen の杉村です。記事タイトル通り「Connected Sheets と BigQuery で技術ブログの GA4 アクセス解析をしている話」について、技術的な話題を中心にご紹介したいと思います。 はじめに 技術ブログと GA4 データ保持期間と BigQuery Connected Sheets の活…

BigQueryを徹底解説!(応用編)

G-gen の杉村です。当記事は BigQuery について徹底的に解説する記事の応用編です。BigQuery に初めて触れる方はまずは基本編の記事を、ぜひご参照ください。 基本編の記事 外部データ連携の概要図 外部テーブル 外部テーブルとは 用途 Cloud Storage 外部テ…

BigQueryを徹底解説!(基本編)

G-gen の杉村です。Google Cloud のフルマネージドな分析用データベースである BigQuery について、徹底的に解説します。当記事は基本編であり、当記事を読み終わったあとは応用編もご参照ください。 概要 BigQuery とは 利用方法 フルマネージド (サーバー…

Looker Studio→BigQuery→Google SheetsにおけるPermission deniedの対処方法

G-gen の堂原です。本記事では、Looker Studio において、Google Sheets をソースとする BigQuery 外部テーブルに接続しようとすると発生する Permission denied エラーの対処法を紹介します。 はじめに 事象 : 外部テーブルへの接続でエラー 対処法 サマリ …

Dataformを徹底解説

G-gen 又吉です。Google Cloud (旧称 GCP) のデータ変換パイプラインツールである Dataform を解説します。 概要 Dataform とは 特徴とメリット 料金 Dataform のコンポーネント コンポーネント構成 リポジトリ リポジトリとは ファイル構成 開発ワークスペ…

Google Cloud データ分析系プロダクトの最新アップデート(2023年3月、BigQuery 編)

G-gen の神谷です。本記事では、Google Cloud のデータ分析系プロダクトのアップデートを取り上げ、変更点やその背景を考察し、プロダクトや機能についての理解を深めます。 新料金体系 BigQuery Editions BigQuery ML における推論での Vision API 等の呼び…

BigQueryの料金体系(BigQuery Editions)を徹底解説

G-genの杉村です。Google Cloud (旧称 GCP) のフルマネージドなデータウェアハウスサービスである BigQuery の新しい料金体系「BigQuery Editions」が 2023年3月29日に発表され、2023年7月5日に施行されました。当記事ではその仕組みと、従来の料金体系との…

Vertex AI WorkbenchとBigQuery MLで機械学習モデル(クラスタリング)を構築してみた

G-gen 又吉です。今回は Vertex AI Workbench を用いて JupyterLab の開発環境から BigQuery ML を実行し機械学習モデル(クラスタリング)を作成していきたいと思います。 概要 概要 今回使用するデータ K-means 法とは 準備 Vertex AI Workbench の作成 BigQ…

BigQuery MLで機械学習モデル(分類)を構築してみた

G-gen 又吉です。今回は BigQuery に備わる機械学習機能である BigQuery ML で、2 項ロジスティック回帰を用いた分類モデルを作成してみました。 BigQuery ML とは サポートされているモデル 今回使用するデータ 準備 各種ファイルのアップロード データセッ…

Looker Studio + BigQuery でコストを最適化する方法

G-gen の神谷です。本記事では、Looker Studio で BigQuery データソースを使う際のコスト最適化について説明します。 はじめに Looker Studio とは 料金体系 BigQuery コストを調べる 料金削減の基本方針 Looker Studio のキャッシュ機能 コンポーネントキ…

Batch で重い CSV を ETL する

G-gen の神谷です。本記事では、Batch を使って、大容量の CSV ファイルを BigQuery に ETL してみます。 Cloud Functions や Cloud Run といった類似サービスに比べて Batch の使いどころはどこかを検証します。 基本的な情報 Batch とは Batch の利点 ユー…

初学者向けにBigQueryを解説

当記事は みずほリサーチ&テクノロジーズ × G-gen エンジニアコラボレーション企画 で執筆されたものです。 みずほリサーチ&テクノロジーズ株式会社の藤根です。この度、G-gen さんとのコラボを通じて、弊社エンジニアによる Google Cloud の記事を執筆する…

BigQuery のコスト削減方法まとめ

G-gen の神谷です。本記事では Google Cloud (旧称 GCP) の BigQuery のコスト削減の方法をまとめます。 はじめに コスト削減の手法 BigQuery の料金体系 どこに料金がかかっているか調べる 調査ポイント 調査方法 テクニック SELECT * を使わず必要なカラム…

VPC Service Controls の IP アドレス制限と Looker Studio

G-gen の藤岡です。当記事では、Google Cloud(旧称 GCP)の BigQuery に特定の IP アドレスからのアクセスのみを許可する VPC Service Controls を設定しつつ、Looker Studio には IP アドレスの制限をかけずレポートを閲覧できるようにする方法を紹介しま…

Eventarcトリガーを利用してCloud StorageのファイルメタデータをBigQueryへ格納してみた

G-gen 又吉です。今回は Eventarcトリガーを利用して、Cloud Storage のファイルメタデータを BigQuery へ格納してみました。 概要 作成するもの Eventarcとは? Cloud Strage の準備 Cloud Storage トリガーとは Cloud Storage サービス アカウントへの権限…

BigQueryのテーブル識別子で構文エラー(テーブル名はバッククォートで囲むべきか)

事象 原因 解説 SQL における BigQuery のテーブル名の指定 バッククォートの要否 対策 対症療法 原則 事象 BigQuery で 標準 SQL を実行しようとした際に以下のエラーが発生した。 エラーメッセージで示された該当箇所は、テーブル名の指定であり、一見して…

Cloud Workflowsで簡易的なデータパイプラインを構築してみる

G-gen の杉村です。 Google Cloud (旧称 GCP) には Cloud Workflows という簡易的なワークフローツールがあります。今回の記事は Cloud Workflows を使った簡易的なデータパイプラインの構築方法をご紹介します。 はじめに Cloud Workflows とは 関連記事 こ…

Connected Sheets で始めるデータ分析

こんにちは、6月にG-gen にJoinした又吉です。 今回は、 Google Workspace の全エディションにおいて無償で利用可能な Connected Sheets をご紹介します。 はじめに Connected Sheets とは 前提条件 料金 アクセス制御 セットアップ 操作方法 概要 グラフ ピ…

pandasでBigQueryのデータを操作する方法 (基本編)

G-gen の杉村です。 Python のライブラリである pandas (パンダス) は、データ分析に用いられるツールとして有名です。 当記事では BigQuery から取得したデータを pandas で操作する方法をご紹介します。ごく基本的な内容ですが、コーディング時のメモとし…

BigQuery Data Transfer Serviceを使ってAmazon S3のデータをBigQueryに取り込む方法

BigQuery Data Transfer Serviceを使ってAmazon S3にあるデータを簡単にBigQueryに取り込む方法をご紹介します。

BigQuery OmniでAmazon S3のデータをクエリしてみた

G-genの大津です。 Google Cloud (旧称 GCP) において Amazon S3 にあるデータを BigQuery に取り込む方法のひとつとして、BigQuery Omni があります。 BigQuery Omni を使うと、 Amazon S3 を外部データソースとして、 BigQuery からクエリを実行することが…

BigQuery「承認されたビュー」と「承認されたデータセット」

G-gen の杉村です。 Google Cloud (旧称 GCP) の BigQuery にはアクセス制御のための仕組みが多数存在します。その中でも 承認されたビュー と 承認されたデータセット というよく似た名前の2つの機能をご紹介します。 この機能を使うと、利用者に見せるデー…

BigQuery Reservations(flat-rate pricing)を解説

G-gen の杉村です。当記事は「BigQuery Reservation (Flat-rate pricing)」について説明する記事です。 注意 : BigQuery の料金体系について 当記事で解説されている「BigQuery Reservation (Flat-rate pricing)」は 2023/07/05 で販売が終了 し、以後は Big…

BigQueryのSearch Indexを解説

G-gen の杉村です。 BigQuery の Search Index 機能が 2022年4月7日にプレビュー公開、2022年10月27日に GA されました。BigQuery に対する特定文字列の検索を高速化する当機能を解説します。 BigQuery Search Index の基本 BigQuery Search Index とは ユー…

BigQueryの列レベル・行レベルのセキュリティを解説

G-genの杉村です。 BigQueryでは 列レベル および 行レベル でアクセスポリシーを設定し、アクセス制限を行うことができます。この機能について解説します。 BigQuery 列レベルのセキュリティ 列レベルのセキュリティとは 分類 (Taxonomy) とポリシータグ 制…

BigQueryのScheduled Queryでジョブ失敗を通知する3つの方法

G-gen の杉村です。 BigQuery の Scheduled Query (スケジュールされたクエリ) で自動実行するクエリの、ジョブ失敗通知を行う方法について解説します。 はじめに 3つの方法 1. メール通知機能 2. Pub/Sub 3. ログベースの指標 ログベースの指標とアラートの…

BigQueryのパーティションとクラスタリングについての解説

G-genの杉村です。Google Cloud (旧称 GCP) の誇るデータウェアハウスサービスである BigQuery には、パフォーマンスの向上に当たり パーティション と クラスタリング という重要な概念があります。 それぞれの仕組みや使い分けを解説していきます。 パーテ…

BigQueryのアクセス制御と権限設計を解説

G-genの杉村です。BigQuery への認証・認可は Cloud IAM によって制御されますが、その仕組みは複雑です。当記事では、仕組みを詳細に解説します。 はじめに BigQuery と認証・認可 IAM の基本概念 BigQuery 関連の IAM 権限の理解 ジョブ実行とデータアクセ…

BigQuery新機能がNext '21で発表!まさかのインデックス機能、スナップショット、クローン...

G-gen の杉村です。Google Cloud Next '21 の What's new with BigQuery セッションで発表された新機能を、速報としてご紹介します。 BigQuery はじめに BigQuery Omni (GA) BigQuery Security & Governance for Data Lakes (Coming soon) BigQuery External…