AWS認定資格 WEB問題集&徹底解説

機械学習エンジニア–アソシエイト

AWS Glue の概要と試験出題ポイントは?

AWSサービスの一つであるAWS Glueはどんな内容なのでしょうか?また、AWS認定資格の機械学習エンジニア-アソシエイト(MLA)に合格するためには、サービスのどんなポイントを押さえておけばよいのでしょうか?
ここでは、そんなあなたの疑問に回答していきたいと思います

AWS Glue 徹底解説 | AWS認定試験の頻出ポイントまとめ

1. サービス概要

AWS Glueは、データの抽出・変換・ロード(ETL)をサーバーレスで実行するフルマネージドのデータ統合サービスです。Apache Spark/Python Shellベースのジョブを、インフラ管理なしに実行できます。

データレイク構築の中心的なサービスであり、Glue Data Catalog(統合メタデータストア)はAthena・EMR・Redshift Spectrum・Lake Formationと共有され、AWS全体のデータ管理基盤として機能します。

2. 主な特徴と機能

2.1 Glue Data Catalog

データベース・テーブル・スキーマ・接続情報(メタデータ)を管理する一元的なメタデータリポジトリです。

  • Athena・EMR・Redshift Spectrum・Lake FormationがData Catalogを参照。
  • Hive Metastoreと互換性あり(Apache Sparkからそのまま利用可能)。

2.2 Glue Crawler(クローラー)

S3・RDS・Redshift・DynamoDB等のデータソースに自動でアクセスし、データのスキーマを検出してData Catalogにテーブル定義を自動登録するツールです。スケジュール実行も可能。

2.3 Glue ETL ジョブ

  • Spark ジョブ: Apache SparkベースのPython/Scalaスクリプトで大規模データ変換。Glue DynamicFrameという拡張DataFrameを利用。
  • Python Shell: 小規模データ処理・ユーティリティ処理向けの軽量ジョブ。
  • Glue Streaming: Kinesis/Kafka/MSKのストリームデータをリアルタイムETL処理。

2.4 Job Bookmark(ジョブブックマーク)

前回の実行からの差分データ(新規追加分)のみを処理する増分処理機能。大規模S3データセットの定期ETLを効率化。

2.5 Glue Studio

GUIベースのビジュアルETLエディタ。ノードを繋いでデータ変換パイプラインをコードなしで作成・デプロイ。

2.6 AWS Glue DataBrew

データサイエンティスト・アナリスト向けのビジュアルデータ準備ツール。コードなしで250以上の変換処理を適用。データ品質プロファイリングも可能。

3. アーキテクチャおよび技術要素

  1. Glue CrawlerがS3/RDS等をスキャン→Data Catalogにテーブル定義を登録。
  2. Glue ETLジョブでS3のRawデータ(CSV等)→変換処理(クリーニング・結合)→S3にParquet/ORC形式で出力。
  3. AthenaがData Catalogを参照してS3のParquetデータをSQLでクエリ。
  4. QuickSightがAthena経由でデータを可視化。

4. セキュリティと認証・認可

  • IAMロール: Glueジョブ実行ロールでS3・RDS・KMS等へのアクセス権限を制御。
  • VPC接続: Glueジョブは指定したVPCサブネット内で実行可能(プライベートDBへのアクセス)。
  • Lake Formation統合: Data Catalogのテーブルに列/行レベルのアクセス制御を付加。
  • 暗号化: ジョブブックマーク・ログ・一時データのSSE-KMS暗号化をサポート。

5. 料金形態

  • Glue ETLジョブ: DPU(Data Processing Unit)の使用時間(DPU時間)に課金。最小課金1分。
  • Crawler: DPU時間に課金。
  • Glue Data Catalog: ストレージ(テーブル数)とリクエスト数に課金(無料枠あり)。
  • DataBrew: ノード時間に課金。

6. よくあるアーキテクチャ・設計パターン

  • データレイクETLパイプライン: S3(RAWデータ)→ Glue ETLジョブ(変換・クリーニング)→ S3(Parquet) → Athena(クエリ)→ QuickSight(可視化)。
  • 増分処理(Job Bookmark): 毎日S3に追加されるログをGlue Job Bookmarkで差分処理し、DWH(Redshift)にロード。全件再処理不要で効率的。
  • スキーマ自動検出: Glue Crawlerを定期実行し新しいデータソースのスキーマをData Catalogに自動登録。新規テーブルをすぐにAthenaでクエリ可能に。

7. 設定・デプロイ手順(ハンズオン例)

  1. Glueコンソールで「クローラーの追加」→データソース(S3バケット)・IAMロール・スケジュールを設定。
  2. クローラーを実行→Data CatalogにDB/テーブルが自動作成される。
  3. 「ジョブの追加」→スクリプトを作成(Glue Studio GUIで作成が容易)。ソース・変換・ターゲット(Parquet/S3)を定義。
  4. Job Bookmarkを有効化して増分処理を設定。
  5. Athenaでクエリを実行してETL結果を確認。

8. 試験で問われやすいポイント

8.1 Glue Data Catalogの役割

  • Q: AthenaとGlueの関係は?
    A: AthenaはGlue Data Catalogをテーブルメタデータとして参照する。GlueCrawlerがS3のデータ構造を自動スキャンしてData Catalogにテーブル定義を登録→AthenaはそのテーブルをSQLでクエリ。
  • Q: Glue Data Catalogを共有して使うAWSサービスは?
    A: Athena・EMR・Redshift Spectrum・AWS Lake Formation(統合メタデータストアとして共有)。

8.2 Job Bookmark

  • Q: Glue ETLで前回処理済みのデータをスキップして差分のみ処理するには?
    A: Glue Job Bookmark(増分処理機能)を有効化。前回処理したS3オブジェクトの状態を記録し、新規追加分のみを処理。

8.3 サーバーレスETL

  • Q: ETLサーバーを管理せずにデータ変換をするAWSサービスは?
    A: AWS Glue(サーバーレスETL。SparkクラスターのプロビジョニングなしにSparkジョブを実行)。

8.4 GlueとEMRの違い

  • Q: GlueとEMRどちらを使うべきか?
    A: GlueはサーバーレスでシンプルなETL・メタデータ管理に最適。EMRはクラスター構成・Hadoop/HBase/Presto等の細かい制御が必要な大規模処理向け。カスタマイズ性・コスト最適化ではEMRが有利。