Azure認定資格 WEB問題集&徹底解説
AI-900:Microsoft Azure AI Fundamentals
解説
正解はAです。機械学習モデルのトレーニングと評価では、データをランダムに分割し、トレーニング用とテスト用に分けることが標準的なアプローチです。一般的な分割比率は70~80%をトレーニング用、20~30%を評価用とすることで、モデルが十分に学習しながらも未知のデータに対する汎化性能を適切に評価できます。ランダム分割により、データの偏りを避け、評価の信頼性を高めることができます。
選択肢 B:50%ずつの分割では、トレーニングに使用できるデータ量が不十分となり、モデルの学習が不完全になる可能性があります。一般的にトレーニングデータは評価データよりも多く確保することが推奨されます。
選択肢 C:特定の特徴量でソートしてからデータを分割すると、トレーニングデータと評価データの分布が大きく異なる可能性があり、モデルの汎化性能を正しく評価できません。データの独立性が損なわれます。
選択肢 D:トレーニングに使用したデータと同じデータで評価を行うと、過学習の検出ができず、モデルの実際の性能を測定できません。未知のデータに対する予測精度を評価することが機械学習の基本原則です。
選択肢 B:50%ずつの分割では、トレーニングに使用できるデータ量が不十分となり、モデルの学習が不完全になる可能性があります。一般的にトレーニングデータは評価データよりも多く確保することが推奨されます。
選択肢 C:特定の特徴量でソートしてからデータを分割すると、トレーニングデータと評価データの分布が大きく異なる可能性があり、モデルの汎化性能を正しく評価できません。データの独立性が損なわれます。
選択肢 D:トレーニングに使用したデータと同じデータで評価を行うと、過学習の検出ができず、モデルの実際の性能を測定できません。未知のデータに対する予測精度を評価することが機械学習の基本原則です。
関連サービスの解説
Azure Machine Learning+ 質問 / コメント
解答・解説に疑問がある場合や、よりよい解説がある場合など、お気軽にコメントください。ただし、短文コメントは表示されません。また、中傷などコメントの内容によっては、会員機能を停止させて頂きます。教え学び合える場になれば嬉しいです。(コメント投稿にはログインが必要です)
正答率 100%
No.1 解説
あなたは顧客の購買行動を予測する機械学習モデルを開発しています。データセットには顧客の年齢、購入履歴、Webサイトの閲覧時間、地域情報が含まれています。モデルのトレーニングと評価を適切に実施するために、データ分割の方法を選択する必要があります。どの方法を選ぶべきですか?
- データをランダムに80%と20%に分割し、80%をトレーニング用、20%を評価用に使用する
- データをランダムに50%ずつに分割し、それぞれをトレーニング用と評価用に使用する
- 特定の特徴量(例:年齢)でデータをソートし、前半をトレーニング用、後半を評価用に使用する
- すべてのデータをトレーニングに使用し、同じデータで評価も実施する