AWS認定資格 WEB問題集&徹底解説
機械学習エンジニア–アソシエイト
解説
正解はDです。数千万枚、50TB超という非常に大規模なデータセットに対して、高いスループットと低レイテンシーでのアクセス、およびローカルストレージ消費の最小化が求められる場合、Amazon SageMakerのFastFile入力モードとAmazon FSx for Lustreの組み合わせが最も適しています。Amazon FSx for Lustreは、Amazon S3と連携して高性能なファイルシステムを提供し、分散トレーニングにおけるデータI/Oのボトルネックを解消します。FastFileモードは、FSx for Lustreのような高性能ファイルシステムへの最適化されたアクセスを提供し、オンデマンドで必要なデータチャンクをストリーミングすることで、トレーニング効率を最大化します。
選択肢 A:Pipe入力モードはS3から直接データをストリーミングするため、ローカルストレージの消費を抑え、トレーニングの開始を早めることができます。しかし、数十TB規模のデータセットで要求される非常に高いスループットと低レイテンシーのI/O性能は、FastFileモードとFSx for Lustreの組み合わせに劣る可能性があります。
選択肢 B:Amazon EFSは共有ファイルシステムとして便利ですが、数千万枚の画像ファイルと50TBを超えるデータセットに対して、機械学習トレーニングで求められる極めて高いI/Oスループットと低レイテンシーの要件を満たすには、パフォーマンスが不足する可能性が高いです。特にランダムアクセス性能がFSx for Lustreほど高くないため、I/Oボトルネックとなることがあります。
選択肢 C:File入力モードで全データセットをローカルストレージにダウンロードする方法は、50TB超という大規模なデータセットでは非現実的です。ダウンロードに膨大な時間がかかり、トレーニングの開始が遅れるだけでなく、トレーニングインスタンスのストレージ容量が不足するか、過剰なストレージコストが発生します。また、I/Oボトルネックの根本的な解決にはなりません。
Amazon FSx
Amazon SageMaker
Amazon Simple Storage Service (Amazon S3)
選択肢 A:Pipe入力モードはS3から直接データをストリーミングするため、ローカルストレージの消費を抑え、トレーニングの開始を早めることができます。しかし、数十TB規模のデータセットで要求される非常に高いスループットと低レイテンシーのI/O性能は、FastFileモードとFSx for Lustreの組み合わせに劣る可能性があります。
選択肢 B:Amazon EFSは共有ファイルシステムとして便利ですが、数千万枚の画像ファイルと50TBを超えるデータセットに対して、機械学習トレーニングで求められる極めて高いI/Oスループットと低レイテンシーの要件を満たすには、パフォーマンスが不足する可能性が高いです。特にランダムアクセス性能がFSx for Lustreほど高くないため、I/Oボトルネックとなることがあります。
選択肢 C:File入力モードで全データセットをローカルストレージにダウンロードする方法は、50TB超という大規模なデータセットでは非現実的です。ダウンロードに膨大な時間がかかり、トレーニングの開始が遅れるだけでなく、トレーニングインスタンスのストレージ容量が不足するか、過剰なストレージコストが発生します。また、I/Oボトルネックの根本的な解決にはなりません。
関連サービスの解説
Amazon Elastic File System (Amazon EFS)Amazon FSx
Amazon SageMaker
Amazon Simple Storage Service (Amazon S3)
+ 質問 / コメント
解答・解説に疑問がある場合や、よりよい解説がある場合など、お気軽にコメントください。ただし、短文コメントは表示されません。また、中傷などコメントの内容によっては、会員機能を停止させて頂きます。教え学び合える場になれば嬉しいです。(コメント投稿にはログインが必要です)
正答率 %
No.17 解説
製薬会社に所属するデータサイエンティストとして、医療画像診断AIモデルの大規模な機械学習プロジェクトに取り組んでいます。このプロジェクトでは、数千万枚に及ぶ高解像度医療画像(合計50TB超)をAmazon S3バケットに格納しています。モデルのトレーニングプロセスでは、複数のGPUインスタンスを効率的に活用し、データI/Oがボトルネックとならないよう、高いスループットと低レイテンシーで画像データにアクセスできる必要があります。また、トレーニングインスタンス上のローカルストレージ消費は最小限に抑えたいと考えています。Amazon SageMakerでトレーニングジョブを実行する際、これらの要件を満たすために最も適切なデータ入力モードとAWSストレージ構成はどれですか。
- SageMakerのPipe入力モードを選択し、Amazon S3からデータを直接ストリーミングすることで、トレーニングインスタンスのローカルストレージを節約しつつ、モデルがデータの処理を即座に開始できるようにします。
- SageMakerのFile入力モードを使用し、Amazon EFSをマウントしてデータセットをトレーニングインスタンス間で共有します。これにより、分散トレーニング時にもすべてのインスタンスからデータにアクセス可能になります。
- SageMakerのFile入力モードを選択し、Amazon S3から全データセットをトレーニングインスタンスのローカルストレージにダウンロードしてからトレーニングを開始します。これにより、トレーニング中にすべてのデータがローカルで利用可能になります。
- SageMakerのFastFile入力モードとAmazon FSx for Lustreを組み合わせることで、Amazon S3に格納されたデータへのオンデマンドアクセスを低レイテンシーかつ高スループットで実現します。