AWS認定資格 WEB問題集&徹底解説

AIプラクティショナー

AWS Lake Formation の概要と試験出題ポイントは?

AWSサービスの一つであるAWS Lake Formationはどんな内容なのでしょうか?また、AWS認定資格のAIプラクティショナー(AIF)に合格するためには、サービスのどんなポイントを押さえておけばよいのでしょうか?
ここでは、そんなあなたの疑問に回答していきたいと思います

AWS Lake Formation 徹底解説

1. サービス概要

AWS Lake Formation は、AWSが提供するフルマネージドサービスで、データレイクを構築、保護、管理するための機能を提供します。 このサービスを利用することで、様々なデータソースからデータを効率的に収集し、カタログ化、変換、共有できます。 Lake Formationは、データのアクセス制御やセキュリティポリシーを一元的に管理し、データレイクの運用を簡素化します。

主なユースケースとして、データレイクの構築、データカタログの作成、データアクセス制御、データのガバナンス、データ共有などが挙げられます。

2. 主な特徴と機能

2.1 データレイクの構築と設定

AWS Lake Formationは、Amazon S3を基盤としたデータレイクを容易に構築できます。 データレイクの構成、ストレージ設定、データアクセス制御などを設定できます。

2.2 データカタログの作成と管理

AWS Glue Data Catalogを利用して、データレイク内のデータセットを自動的に検出、カタログ化できます。 データテーブルのスキーマ、パーティション、ロケーションなどのメタデータを管理できます。

2.3 集中型アクセス制御

データレイク内のデータに対するアクセス権限を一元的に管理できます。 テーブル、カラム、行レベルでのアクセス制御をサポートしています。

2.4 細粒度なアクセス制御

データに対する読み取り、書き込み、削除などの権限を、ユーザーやグループごとに詳細に設定できます。 これにより、データのセキュリティを強化できます。

2.5 データ共有

データレイク内のデータを、異なるAWSアカウントや組織間で安全に共有できます。 これにより、データコラボレーションを促進できます。

2.6 データ変換

AWS Glueと連携して、データレイクに格納されたデータを変換できます。 ETLジョブを作成し、データのクリーニング、変換、正規化などを実行できます。

2.7 ブループリント

一般的なデータレイクの構成パターンを定義したブループリントを提供しています。 これにより、データレイクの構築を迅速に行えます。

2.8 統合性

Lake Formationは、AWSの他のサービス(AWS Glue, Amazon Athena, Amazon Redshift, Amazon EMRなど)と統合されており、データレイクの構築、分析、活用を効率的に行うことができます。 AWS Lake Formation タグを利用して、リソースを分類できます。

3. アーキテクチャおよび技術要素

  1. ユーザーは、Lake FormationコンソールまたはAPIを使用して、データレイクを設定。
  2. Lake Formationは、データソース(Amazon S3など)からデータを収集し、AWS Glue Data Catalogにメタデータを登録。
  3. ユーザーは、Lake Formationを通じてデータアクセス権限を管理。
  4. 必要に応じて、AWS Glueでデータ変換を実施。
  5. Amazon Athena、Amazon Redshift、Amazon EMRなどのサービスでデータを分析。

AWS Lake Formationは、フルマネージドサービスとして提供され、高い可用性、スケーラビリティ、セキュリティを内包しています。 データレイクの構築、管理、共有を簡素化し、ユーザーはデータ分析に集中できます。

4. セキュリティと認証・認可

セキュリティはLake Formationの重要な要素です:

  • IAMによるアクセス制御: AWS IAMを利用して、Lake Formationリソースへのアクセスを制御し、権限を管理。
  • データ暗号化: 転送中および保存中のデータを暗号化し、データの機密性を保護。
  • VPCサポート: Amazon VPC内でLake Formationを使用する場合、プライベート接続を確立。
  • 監査ログ: AWS CloudTrailを利用して、API呼び出しやリソース変更を記録。
  • タグベースのアクセス制御: AWS Lake Formation タグを利用して、リソースレベルのアクセス制御を実施。

これにより、データレイクの安全性とコンプライアンスを確保できます。

5. 料金形態

AWS Lake Formationの料金は主に以下に基づきます:

  • データカタログ操作: データカタログのメタデータ操作数に応じた課金。
  • データアクセス制御: アクセス権限の付与、変更回数に応じた課金。
  • データ変換: AWS Glueによるデータ変換に要した時間に応じた課金。

6. よくあるアーキテクチャ・設計パターン

一般的なパターンは以下の通りです:

  • データレイクの構築: 複数のデータソースからデータをS3に集約し、Lake Formationで管理されたデータレイクを構築。
  • データカタログの作成: AWS Glue Data Catalogを利用して、データレイク内のデータをカタログ化し、メタデータを管理。
  • データアクセス制御: データレイク内のデータに対するアクセス権限を一元的に管理し、セキュリティポリシーを適用。
  • データ共有: データレイク内のデータを、異なるAWSアカウントや組織間で安全に共有。
  • データガバナンス: データ品質、データ lineage、データアクセス履歴などを管理し、データガバナンスを実現。

7. 設定・デプロイ手順(ハンズオン例)

  1. AWSコンソールでLake Formationを有効化。
  2. データレイクの管理者とデータレイクのロケーションを設定。
  3. AWS Glue Data Catalogにデータソース(Amazon S3など)を登録。
  4. データに対するアクセス権限を付与。
  5. AWS Glueでデータ変換ジョブを作成し、実行。
  6. Amazon Athenaでデータクエリを実行。

8. 試験で問われやすいポイント

8.1 データレイクの構築と設定

  • S3基盤: Amazon S3をデータレイクの基盤としていることを理解。
  • 設定管理: ストレージ設定、データアクセス制御などを設定できることを理解。

8.2 データカタログの作成と管理

  • Glue Data Catalog: AWS Glue Data Catalogを利用してメタデータを管理することを理解。
  • メタデータ管理: スキーマ、パーティション、ロケーションなどのメタデータを管理できることを理解。

8.3 集中型アクセス制御

  • 一元管理: データレイク内のデータに対するアクセス権限を一元的に管理できることを理解。
  • アクセスレベル: テーブル、カラム、行レベルでのアクセス制御をサポートしていることを理解。

8.4 料金体系

  • データカタログ操作: メタデータ操作数による課金を理解。
  • データアクセス制御: アクセス権限の付与、変更回数による課金を理解。
  • データ変換: AWS Glueによるデータ変換時間による課金を理解。

8.5 類似・関連サービスとの比較

  • AWS Glue: ETLサービス。Lake Formationはデータレイク管理サービス。
  • Amazon Athena: インタラクティブなクエリサービス。Lake Formationはデータアクセス管理サービス。

8.6 試験で頻出となる具体的な問われ方と答え

  • Q: AWS Lake Formationの主な用途は?
    A: データレイクの構築、保護、管理、共有を容易にすること。
  • Q: Lake Formationのデータレイクの基盤は何?
    A: Amazon S3。
  • Q: Lake Formationでデータカタログを作成するために利用するサービスは?
    A: AWS Glue Data Catalog。
  • Q: Lake Formationはどのようなアクセス制御をサポートする?
    A: テーブル、カラム、行レベルでのアクセス制御。
  • Q: Lake Formationの料金体系は?
    A: データカタログ操作、データアクセス制御、データ変換に応じた課金。
  • Q: Lake FormationとAWS Glueの違いは?
    A: GlueはETLサービス、Lake Formationはデータレイク管理。
  • Q: Lake FormationとAthenaの違いは?
    A: Athenaはクエリサービス、Lake Formationはアクセス管理サービス。