AWS認定資格 WEB問題集&徹底解説
機械学習エンジニア–アソシエイト
解説
正解はAとCです。
Amazon SageMaker Model Monitor を使用して本番環境のデータ品質を継続的に監視するには、以下の2つの主要な手順が必要です。
選択肢 A:Amazon SageMaker Model Monitor が入力データの品質を評価するためには、まず本番環境の推論データを収集する必要があります。SageMaker エンドポイントのデータキャプチャ機能を有効にすることで、リアルタイム推論のリクエストとレスポンスが指定されたAmazon S3バケットに自動的に保存されます。Model Monitor はこのキャプチャされたデータを分析します。
選択肢 C:Model Monitor は、収集した推論データと「ベースライン」となるデータの統計的特性を比較することでデータドリフトを検出します。このベースラインは通常、モデルのトレーニングに使用されたデータセットから生成されます。ベースライン統計を定義することで、Model Monitor は推論データが学習済みのモデルが期待するデータの分布や特徴から逸脱しているかどうかを判断できるようになります。
選択肢 B:手動でのデータポイントレビューは、大規模な本番環境における継続的なデータ品質監視には適していません。Amazon SageMaker Model Monitor の目的は、このプロセスを自動化し、異常を自動的に検出することです。
選択肢 D:データドリフトが検出された後のモデルの再トレーニングは重要な対処ステップですが、これはAmazon SageMaker Model Monitor による「監視」の直接的な手順ではありません。Model Monitor はドリフトの「検出」と通知を行うツールであり、検出後のアクション(例えば再トレーニングのトリガー)は別のワークフローやサービス(例: AWS Step Functions、Amazon EventBridge と Lambda の組み合わせ)によってオーケストレーションされます。また、AWS Batchジョブは、大規模なコンピュートタスクを実行するためのサービスであり、モデル再トレーニングのトリガーとして直接使用されることは一般的ではありません。
Amazon Simple Storage Service (Amazon S3)
選択肢 A:Amazon SageMaker Model Monitor が入力データの品質を評価するためには、まず本番環境の推論データを収集する必要があります。SageMaker エンドポイントのデータキャプチャ機能を有効にすることで、リアルタイム推論のリクエストとレスポンスが指定されたAmazon S3バケットに自動的に保存されます。Model Monitor はこのキャプチャされたデータを分析します。
選択肢 C:Model Monitor は、収集した推論データと「ベースライン」となるデータの統計的特性を比較することでデータドリフトを検出します。このベースラインは通常、モデルのトレーニングに使用されたデータセットから生成されます。ベースライン統計を定義することで、Model Monitor は推論データが学習済みのモデルが期待するデータの分布や特徴から逸脱しているかどうかを判断できるようになります。
選択肢 B:手動でのデータポイントレビューは、大規模な本番環境における継続的なデータ品質監視には適していません。Amazon SageMaker Model Monitor の目的は、このプロセスを自動化し、異常を自動的に検出することです。
選択肢 D:データドリフトが検出された後のモデルの再トレーニングは重要な対処ステップですが、これはAmazon SageMaker Model Monitor による「監視」の直接的な手順ではありません。Model Monitor はドリフトの「検出」と通知を行うツールであり、検出後のアクション(例えば再トレーニングのトリガー)は別のワークフローやサービス(例: AWS Step Functions、Amazon EventBridge と Lambda の組み合わせ)によってオーケストレーションされます。また、AWS Batchジョブは、大規模なコンピュートタスクを実行するためのサービスであり、モデル再トレーニングのトリガーとして直接使用されることは一般的ではありません。
関連サービスの解説
Amazon SageMakerAmazon Simple Storage Service (Amazon S3)
+ 質問 / コメント
解答・解説に疑問がある場合や、よりよい解説がある場合など、お気軽にコメントください。ただし、短文コメントは表示されません。また、中傷などコメントの内容によっては、会員機能を停止させて頂きます。教え学び合える場になれば嬉しいです。(コメント投稿にはログインが必要です)
正答率 %
No.4 解説
とあるEコマース企業では、顧客の購買行動を予測する機械学習モデルを本番環境にデプロイし運用しています。モデルは過去数ヶ月間、安定した性能を示していましたが、最近になり予測精度が著しく低下しているとの報告がありました。
データサイエンスチームが調査した結果、モデルの入力データに異常値が増加していることや、データ分布がトレーニング時と大きく異なっていることが判明しました。チームは、将来的に同様の問題が発生しないよう、本番環境の推論入力データの品質を継続的に監視し、データドリフトや予期せぬ変更を自動的に検知できる仕組みを構築したいと考えています。この要件を満たすために、Amazon SageMaker Model Monitor を用いて実施すべき適切な手順はどれか。2つ選択してください。
データサイエンスチームが調査した結果、モデルの入力データに異常値が増加していることや、データ分布がトレーニング時と大きく異なっていることが判明しました。チームは、将来的に同様の問題が発生しないよう、本番環境の推論入力データの品質を継続的に監視し、データドリフトや予期せぬ変更を自動的に検知できる仕組みを構築したいと考えています。この要件を満たすために、Amazon SageMaker Model Monitor を用いて実施すべき適切な手順はどれか。2つ選択してください。
- SageMaker エンドポイントでデータキャプチャを有効化し、推論のリクエストとレスポンスをAmazon S3に保存する。
- モデルによる予測後に、各データポイントをデータサイエンティストが手動で詳細にレビューし、ドリフトを特定する。
- トレーニングデータセットからデータ品質のベースライン統計を生成し、期待されるデータの特性を定義する。
- データドリフトが検出された際、モデルの自動再トレーニングをトリガーするためのAWS Batchジョブを設定する。