AWS認定資格 WEB問題集&徹底解説

AIプラクティショナー

正解 A問題
(お気に入りチェック) 1 2 3 4
解説
正解はAです。機械学習モデル開発において、データセットの適切な分割は極めて重要です。トレーニングセットはモデルのパラメータ(重みやバイアス)を学習するために使用します。バリデーションセットは学習プロセス中にハイパーパラメータ(学習率、層の数など)の調整やモデルアーキテクチャの選択に使用し、過学習を防ぎます。テストセットは開発プロセス全体を通じて一切使用せず、最終的に選定されたモデルの汎化性能を公平に評価するために保持します。この3段階の分割により、モデルの信頼性の高い評価が可能になります。

選択肢B:データセットの用途が完全に逆転しています。トレーニングセットは学習に使用するものであり、最終評価には使用しません。また、テストセットはハイパーパラメータ調整に使用すると、そのデータに対して過学習が発生し、真の汎化性能が測定できなくなります。

選択肢C:3つのデータセットは異なる明確な目的を持ちます。すべてを性能評価に使用するという理解は誤りです。トレーニングセットは学習用、バリデーションセットは開発中の調整用、テストセットは最終評価用と、それぞれ役割が異なります。

選択肢D:ハイパーパラメータの調整はバリデーションセットで行うべきものであり、トレーニングセットでは行いません。また、テストセットでパラメータを学習することは、評価データでの学習となり、モデル評価の公平性が失われます。

関連サービスの解説
Amazon SageMaker

+ 質問 / コメント
解答・解説に疑問がある場合や、よりよい解説がある場合など、お気軽にコメントください。ただし、短文コメントは表示されません。また、中傷などコメントの内容によっては、会員機能を停止させて頂きます。教え学び合える場になれば嬉しいです。(コメント投稿にはログインが必要です)
正答率 74%
No.13 解説
ある製造業の企業がAmazon SageMakerを使用して、製品の不良品を検出する画像分類モデルの開発を進めています。データサイエンスチームは、収集した製品画像データセットをモデル開発に活用する準備を行っています。チームリーダーは、モデルの精度と汎化性能を確保するために、データセットを適切に分割する必要があると考えています。データセットの分割方法とそれぞれの用途について、正しい理解に基づく推奨事項はどれですか。
  • トレーニングセットでモデルのパラメータを学習し、バリデーションセットでハイパーパラメータの調整とモデル選択を行い、テストセットで最終的なモデル性能を評価する
  • トレーニングセットでモデルの最終評価を行い、バリデーションセットでモデルのパラメータを学習し、テストセットでハイパーパラメータの調整を行う
  • トレーニングセット、バリデーションセット、テストセットはすべて同じ目的でモデルの性能評価に使用され、分割する理由は統計的な信頼性を高めるためである
  • トレーニングセットでハイパーパラメータを調整し、バリデーションセットで最終的な性能を測定し、テストセットでモデルのパラメータを学習する

(会員限定)当問題の評価をお願いします。改善に活用します。