AWS認定資格 WEB問題集&徹底解説
クラウドプラクティショナー
AWS Glue の概要と試験出題ポイントは?
AWSサービスの一つであるAWS Glueはどんな内容なのでしょうか?また、AWS認定資格のクラウドプラクティショナー(CLF)に合格するためには、サービスのどんなポイントを押さえておけばよいのでしょうか?
ここでは、そんなあなたの疑問に回答していきたいと思います
1. サービス概要
AWS Glueは、データの抽出・変換・ロード(ETL)をサーバーレスで実行するフルマネージドのデータ統合サービスです。Apache Spark/Python Shellベースのジョブを、インフラ管理なしに実行できます。
データレイク構築の中心的なサービスであり、Glue Data Catalog(統合メタデータストア)はAthena・EMR・Redshift Spectrum・Lake Formationと共有され、AWS全体のデータ管理基盤として機能します。
2. 主な特徴と機能
2.1 Glue Data Catalog
データベース・テーブル・スキーマ・接続情報(メタデータ)を管理する一元的なメタデータリポジトリです。
- Athena・EMR・Redshift Spectrum・Lake FormationがData Catalogを参照。
- Hive Metastoreと互換性あり(Apache Sparkからそのまま利用可能)。
2.2 Glue Crawler(クローラー)
S3・RDS・Redshift・DynamoDB等のデータソースに自動でアクセスし、データのスキーマを検出してData Catalogにテーブル定義を自動登録するツールです。スケジュール実行も可能。
2.3 Glue ETL ジョブ
- Spark ジョブ: Apache SparkベースのPython/Scalaスクリプトで大規模データ変換。Glue DynamicFrameという拡張DataFrameを利用。
- Python Shell: 小規模データ処理・ユーティリティ処理向けの軽量ジョブ。
- Glue Streaming: Kinesis/Kafka/MSKのストリームデータをリアルタイムETL処理。
2.4 Job Bookmark(ジョブブックマーク)
前回の実行からの差分データ(新規追加分)のみを処理する増分処理機能。大規模S3データセットの定期ETLを効率化。
2.5 Glue Studio
GUIベースのビジュアルETLエディタ。ノードを繋いでデータ変換パイプラインをコードなしで作成・デプロイ。
2.6 AWS Glue DataBrew
データサイエンティスト・アナリスト向けのビジュアルデータ準備ツール。コードなしで250以上の変換処理を適用。データ品質プロファイリングも可能。
3. アーキテクチャおよび技術要素
- Glue CrawlerがS3/RDS等をスキャン→Data Catalogにテーブル定義を登録。
- Glue ETLジョブでS3のRawデータ(CSV等)→変換処理(クリーニング・結合)→S3にParquet/ORC形式で出力。
- AthenaがData Catalogを参照してS3のParquetデータをSQLでクエリ。
- QuickSightがAthena経由でデータを可視化。
4. セキュリティと認証・認可
- IAMロール: Glueジョブ実行ロールでS3・RDS・KMS等へのアクセス権限を制御。
- VPC接続: Glueジョブは指定したVPCサブネット内で実行可能(プライベートDBへのアクセス)。
- Lake Formation統合: Data Catalogのテーブルに列/行レベルのアクセス制御を付加。
- 暗号化: ジョブブックマーク・ログ・一時データのSSE-KMS暗号化をサポート。
5. 料金形態
- Glue ETLジョブ: DPU(Data Processing Unit)の使用時間(DPU時間)に課金。最小課金1分。
- Crawler: DPU時間に課金。
- Glue Data Catalog: ストレージ(テーブル数)とリクエスト数に課金(無料枠あり)。
- DataBrew: ノード時間に課金。
6. よくあるアーキテクチャ・設計パターン
- データレイクETLパイプライン: S3(RAWデータ)→ Glue ETLジョブ(変換・クリーニング)→ S3(Parquet) → Athena(クエリ)→ QuickSight(可視化)。
- 増分処理(Job Bookmark): 毎日S3に追加されるログをGlue Job Bookmarkで差分処理し、DWH(Redshift)にロード。全件再処理不要で効率的。
- スキーマ自動検出: Glue Crawlerを定期実行し新しいデータソースのスキーマをData Catalogに自動登録。新規テーブルをすぐにAthenaでクエリ可能に。
7. 設定・デプロイ手順(ハンズオン例)
- Glueコンソールで「クローラーの追加」→データソース(S3バケット)・IAMロール・スケジュールを設定。
- クローラーを実行→Data CatalogにDB/テーブルが自動作成される。
- 「ジョブの追加」→スクリプトを作成(Glue Studio GUIで作成が容易)。ソース・変換・ターゲット(Parquet/S3)を定義。
- Job Bookmarkを有効化して増分処理を設定。
- Athenaでクエリを実行してETL結果を確認。
8. 試験で問われやすいポイント
8.1 Glue Data Catalogの役割
- Q: AthenaとGlueの関係は?
A: AthenaはGlue Data Catalogをテーブルメタデータとして参照する。GlueCrawlerがS3のデータ構造を自動スキャンしてData Catalogにテーブル定義を登録→AthenaはそのテーブルをSQLでクエリ。 - Q: Glue Data Catalogを共有して使うAWSサービスは?
A: Athena・EMR・Redshift Spectrum・AWS Lake Formation(統合メタデータストアとして共有)。
8.2 Job Bookmark
- Q: Glue ETLで前回処理済みのデータをスキップして差分のみ処理するには?
A: Glue Job Bookmark(増分処理機能)を有効化。前回処理したS3オブジェクトの状態を記録し、新規追加分のみを処理。
8.3 サーバーレスETL
- Q: ETLサーバーを管理せずにデータ変換をするAWSサービスは?
A: AWS Glue(サーバーレスETL。SparkクラスターのプロビジョニングなしにSparkジョブを実行)。
8.4 GlueとEMRの違い
- Q: GlueとEMRどちらを使うべきか?
A: GlueはサーバーレスでシンプルなETL・メタデータ管理に最適。EMRはクラスター構成・Hadoop/HBase/Presto等の細かい制御が必要な大規模処理向け。カスタマイズ性・コスト最適化ではEMRが有利。
広告