Professional Data Engineer試験 必勝マニュアル。出題傾向・勉強方法

記事タイトルとURLをコピーする

G-gen の杉村です。Google Cloud (GCP) 認定資格である Professional Data Engineer 試験 は、 Google Cloud (GCP) でのデータエンジニアリングに関する難関資格です。 本投稿では試験の合格に役立つ情報を記載します。

試験の 利用規約 において、試験の内容を公開することは禁じられています。
本投稿では試験問題そのものを書くこと等はせず、主にサービスカットで 合格するためには何を知っているべきか を中心に記載します。

"何を知っているべきか" が分かっていれば Google Cloud サービスの公式ドキュメント等を中心とした学習の方向性が決まりますし、何より 実務にも応用可能 だと思います。

なお、このブログ投稿に記載されていることで試験範囲を全てカバーできているわけでは無い点、ご了承ください。
公式で発表されている 試験ガイド模擬試験 などもぜひ駆使して、学習を進めてください。

f:id:ggen-sugimura:20211118142912p:plain
Professional Data Engineer

はじめに

本投稿は以下のような方向けです。

  • Professional Data Engineer 試験を受けるために勉強をしており出題傾向を知りたい
  • Google Cloud サービスやデータエンジニアリングの基本的な知識は把握済みだ
  • 近日中に試験を受けようと思っているので、最後の勉強をしている

また前提知識として Google Cloud (GCP) の基礎知識を押さえるため、 Associate Cloud Engineer 試験 相当の知見は持っておいたほうが良いと言えます。
以下のブログ投稿も参考にしてください。

blog.g-gen.co.jp

組織 / IAM

IAM の 継承 の概念や、リソースとの紐づけ、またリソース階層 (組織/フォルダ/プロジェクト/各リソース...) などはしっかり押さえておきましょう。
以下のブログ記事をぜひ参考にしてください。

blog.g-gen.co.jp

オペレーションスイート

Cloud Monitoring の基本機能のほか、カスタム指標のとり方についてもしっかり理解しておきましょう。 Google の指標のリファレンス ページで Compute Engine や Pub/Sub 、 Cloud Storage などデータエンジニアリングにおいて重要なサービス群のメトリクスは、簡単でいいので眺めておくと良いです。

blog.g-gen.co.jp

データパイプライン

Dataflow

当試験で BigQuery と並んで最重要サービスの一つが、 Apache Beam のマネージドサービスである Dataflow です。
リアルタイム処理とバッチ処理を両方扱うことができ、少なくとも一回 (at-least-once) が原則である Pub/Sub からのデータを受け取って、一回限り (exactly-once) の処理を実現します。
マネージドサービスであるため、自動的なスケールイン・スケールアウトなどを実現することで低い運用負荷が実現されます。

...この試験の世界では、上記のようなデータパイプラインの実現にあたって Dataflow はほぼ必須コンポーネントとして捉えてよいです。

そこを押さえた上で、 Apache Beam のプログラミング モデル の理解と適切な選択ができるようにします。

Pub/Sub

多くの問題文、または選択肢で Dataflow とセットで Pub/Sub が現れます。
Apache Kafka を Pub/Sub で置き換える、という定番パターンが多く出題されます。

Cloud Composer

Google Cloud のサービスを活用してジョブオーケストレーションを行う場合は、 Cloud Composer が選択肢です。
ジョブ実行ツールとしては他に Cloud Scheduler がありますが、 Cloud Composer は DAG (有向非巡回グラフ) によるジョブの前後関係の管理やモニタリングの面で強みがあります。
データパイプラインでは Cloud Composer に強みがあると言えるでしょう。

Dataproc

Hadoop/Spark のマネージドサービスである Dataproc も頻出です。
ドキュメント でクラスタ構成や管理運用方法について押さえておきましょう。

Dataprep / Data Fusion

Dataprep / Data Fusion は類似したサービスです。
いずれも GUI でデータ収集・変換のパイプラインを構築できるマネージドサービスです。
ノーコーディングでデータパイプラインを構築できるのが魅力です。

何ができるサービスなのかを把握しておきます。

データベース

BigQuery

なんといっても Google Cloud の誇るフルマネージドなデータウェアハウスである BigQuery は、当然ながら当試験で最も出題される分野の一つです。
以下をしっかり押さえておきましょう。

  • BigQuery の特質 (列志向, 分散アーキテクチャ, スロット...)
  • パーティショニング・クラスタリング
  • 権限管理 (IAM, 承認されたビュー...)
  • バックアップの実現方法
  • 特殊な使い方
    • ストリーミングインサート (メリット/デメリット)
    • コスト管理 (スキャン量, Reservation...)

以下のブログ記事も参考にしてください。

blog.g-gen.co.jp

blog.g-gen.co.jp

BigTable

BigTable のユースケースを押さえておきます。
スキーマ設計 についてはドキュメントをよく読み込んでおき、特に大事な行キーの設計はよく理解しておきます。

モニタリング、本番用ワークロードと分析用ワークロードの分離、クラスタ拡張、 Key Visualizer...など管理運用面も把握しておきましょう。

その他のデータベース・移行

Cloud SQL, Datastore, Spanner, BigTable, BigQuery... それぞれのユースケース、できること、できないことを把握しておきましょう。
どういったユースケースでどの DB を選ぶのか、問われたら答えられるようにしておきます。
以下に、役に立つであろう表を掲載します。

名称 Cloud SQL Datastore (Firestore) Cloud Spanner Cloud BigTable BigQuery
概要 マネージドRDB。MySQL/PostgreSQL/SQL Serverが利用可能 NoSQL。現在ではFirebaseサービス群に統合 無制限のスケーリング、グローバル利用が可能なリレーショナルデータベース NoSQL。高スループット・高スケーラビリティ データウェアハウス。分析目的のカラムナDB
ユースケース 一般的なアプリ。RDB Web, モバイル,ゲーム等でKVSがマッチする場合 金融, ヘルスケア, ゲーム等でグローバルなトランザクション 時系列データ, 購入履歴, IoT等、高スループット・高スケーラビリティ SQLでの分析やELT
種類 RDB NoSQL (ドキュメントDB) RDB かつ分散アーキ NoSQL (ワイドカラム) データウェアハウス (表形式・列志向)
クエリ方法 SQL API もしくはSQLライク言語 SQL API SQL
トランザクション △ (※) ✕ (1行のみ可)

(※) Firestore と Datastore で仕様が違い、制限もいくつかある

その他に、各データベースでバックアップやデータのエクスポート、 DR の実現方法などの運用管理手法を押さえておきます。

データ移行というテーマも扱われます。
オンプレミスから Google Cloud への大規模なデータ移行には Transfer Appliance という選択肢もあり、どのようなシチュエーションやどのくらいの規模のデータにこのサービスが適しているのかは頭の片隅に入れておきます。

機会学習

Cloud Data Engineer 試験には機械学習系のサービスが頻出です。
試験ガイド に出てくるサービスは一通り、概要を理解する必要があります。

また Google Cloud 特有の知識というよりも、機械学習の一般的な用語や基礎知識については理解している必要があります。
ラベリング、トレーニング、モデル、推論、回帰、分類 (Classification) 、クラスタリング、リコメンデーション、教師あり学習、教師なし学習、混同行列、過学習とのその対策、など基礎的な用語を押さえます。

これらの用語の意味がわからない場合は、検索すれば情報がたくさん出てくるので、一通り理解して自分の言葉で説明できるくらいにはなっておきましょう。

Dialogflow, Vision API や Speech API といった Google が提供する API 系機械学習サービスと Auto ML 、AI Platform などの違いを理解しましょう。

また BigQuery ML も出題範囲です。
使い方やある程度の仕組みは理解している必要があります。

その他

受験環境

当社メンバーの受験環境に関する実体験が以下の記事で紹介されています。
ぜひご参照ください。

blog.g-gen.co.jp

blog.g-gen.co.jp

杉村 勇馬 (記事一覧)

クラウドソリューション部 部長

クラウド管理運用やネットワークに知見あり。AWSの全12資格をコンプリートしたので、次はGoogle Cloudの認定資格を狙っている。現在、Google Cloud認定資格は4冠。

2022年1月現在、ハマっているものはディズニープラスで見られるマーベルのドラマシリーズ。

(Wantedlyプロフィール)