AWS Glue の概要と試験出題ポイント

AWS Glue の概要と試験出題ポイントは？

AWSサービスの一つであるAWS Glueはどんな内容なのでしょうか？また、AWS認定資格の機械学習エンジニア-アソシエイト(MLA)に合格するためには、サービスのどんなポイントを押さえておけばよいのでしょうか？
ここでは、そんなあなたの疑問に回答していきたいと思います

AWS Glue 徹底解説 | AWS認定試験の頻出ポイントまとめ

1. サービス概要

AWS Glueは、データの抽出・変換・ロード（ETL）をサーバーレスで実行するフルマネージドのデータ統合サービスです。Apache Spark/Python Shellベースのジョブを、インフラ管理なしに実行できます。

データレイク構築の中心的なサービスであり、Glue Data Catalog（統合メタデータストア）はAthena・EMR・Redshift Spectrum・Lake Formationと共有され、AWS全体のデータ管理基盤として機能します。

2. 主な特徴と機能

2.1 Glue Data Catalog

データベース・テーブル・スキーマ・接続情報（メタデータ）を管理する一元的なメタデータリポジトリです。

Athena・EMR・Redshift Spectrum・Lake FormationがData Catalogを参照。
Hive Metastoreと互換性あり（Apache Sparkからそのまま利用可能）。

2.2 Glue Crawler（クローラー）

S3・RDS・Redshift・DynamoDB等のデータソースに自動でアクセスし、データのスキーマを検出してData Catalogにテーブル定義を自動登録するツールです。スケジュール実行も可能。

2.3 Glue ETL ジョブ

Spark ジョブ: Apache SparkベースのPython/Scalaスクリプトで大規模データ変換。Glue DynamicFrameという拡張DataFrameを利用。
Python Shell: 小規模データ処理・ユーティリティ処理向けの軽量ジョブ。
Glue Streaming: Kinesis/Kafka/MSKのストリームデータをリアルタイムETL処理。

2.4 Job Bookmark（ジョブブックマーク）

前回の実行からの差分データ（新規追加分）のみを処理する増分処理機能。大規模S3データセットの定期ETLを効率化。

2.5 Glue Studio

GUIベースのビジュアルETLエディタ。ノードを繋いでデータ変換パイプラインをコードなしで作成・デプロイ。

2.6 AWS Glue DataBrew

データサイエンティスト・アナリスト向けのビジュアルデータ準備ツール。コードなしで250以上の変換処理を適用。データ品質プロファイリングも可能。

3. アーキテクチャおよび技術要素

Glue CrawlerがS3/RDS等をスキャン→Data Catalogにテーブル定義を登録。
Glue ETLジョブでS3のRawデータ（CSV等）→変換処理（クリーニング・結合）→S3にParquet/ORC形式で出力。
AthenaがData Catalogを参照してS3のParquetデータをSQLでクエリ。
QuickSightがAthena経由でデータを可視化。

4. セキュリティと認証・認可

IAMロール: Glueジョブ実行ロールでS3・RDS・KMS等へのアクセス権限を制御。
VPC接続: Glueジョブは指定したVPCサブネット内で実行可能（プライベートDBへのアクセス）。
Lake Formation統合: Data Catalogのテーブルに列/行レベルのアクセス制御を付加。
暗号化: ジョブブックマーク・ログ・一時データのSSE-KMS暗号化をサポート。

5. 料金形態

Glue ETLジョブ: DPU（Data Processing Unit）の使用時間（DPU時間）に課金。最小課金1分。
Crawler: DPU時間に課金。
Glue Data Catalog: ストレージ（テーブル数）とリクエスト数に課金（無料枠あり）。
DataBrew: ノード時間に課金。

6. よくあるアーキテクチャ・設計パターン

データレイクETLパイプライン: S3（RAWデータ）→ Glue ETLジョブ（変換・クリーニング）→ S3（Parquet） → Athena（クエリ）→ QuickSight（可視化）。
増分処理（Job Bookmark）: 毎日S3に追加されるログをGlue Job Bookmarkで差分処理し、DWH（Redshift）にロード。全件再処理不要で効率的。
スキーマ自動検出: Glue Crawlerを定期実行し新しいデータソースのスキーマをData Catalogに自動登録。新規テーブルをすぐにAthenaでクエリ可能に。

7. 設定・デプロイ手順（ハンズオン例）

Glueコンソールで「クローラーの追加」→データソース（S3バケット）・IAMロール・スケジュールを設定。
クローラーを実行→Data CatalogにDB/テーブルが自動作成される。
「ジョブの追加」→スクリプトを作成（Glue Studio GUIで作成が容易）。ソース・変換・ターゲット（Parquet/S3）を定義。
Job Bookmarkを有効化して増分処理を設定。
Athenaでクエリを実行してETL結果を確認。

8. 試験で問われやすいポイント

8.1 Glue Data Catalogの役割

Q: AthenaとGlueの関係は？
A: AthenaはGlue Data Catalogをテーブルメタデータとして参照する。GlueCrawlerがS3のデータ構造を自動スキャンしてData Catalogにテーブル定義を登録→AthenaはそのテーブルをSQLでクエリ。
Q: Glue Data Catalogを共有して使うAWSサービスは？
A: Athena・EMR・Redshift Spectrum・AWS Lake Formation（統合メタデータストアとして共有）。

8.2 Job Bookmark

Q: Glue ETLで前回処理済みのデータをスキップして差分のみ処理するには？
A: Glue Job Bookmark（増分処理機能）を有効化。前回処理したS3オブジェクトの状態を記録し、新規追加分のみを処理。

8.3 サーバーレスETL

Q: ETLサーバーを管理せずにデータ変換をするAWSサービスは？
A: AWS Glue（サーバーレスETL。SparkクラスターのプロビジョニングなしにSparkジョブを実行）。

8.4 GlueとEMRの違い

Q: GlueとEMRどちらを使うべきか？
A: GlueはサーバーレスでシンプルなETL・メタデータ管理に最適。EMRはクラスター構成・Hadoop/HBase/Presto等の細かい制御が必要な大規模処理向け。カスタマイズ性・コスト最適化ではEMRが有利。

AWS認定資格 WEB問題集＆徹底解説
会員登録/ログイン