AWS認定資格 WEB問題集&徹底解説

機械学習エンジニア–アソシエイト

正解 D問題
(お気に入りチェック) 1 2 3 4
解説
正解はDです。
タスク1は、事前にラベルのないデータから類似性に基づいてグループ(セグメント)を抽出する「クラスタリング」の要件です。これは教師なし学習の範疇であり、K-Meansアルゴリズムがこの目的に適しています。K-Meansは、データポイントをk個のクラスターに分割し、各クラスター内のデータポイントが互いに似ているように、かつ異なるクラスターのデータポイントとは異なるようにグループ化します。
タスク2は、既存のラベル付きデータ(高価値顧客、一般顧客)に基づいて、新しいデータポイント(新規顧客)がどのカテゴリに属するかを予測する「分類」の要件です。これは教師あり学習の範疇であり、K-Nearest Neighbors (KNN) アルゴリズムがこの目的に適しています。KNNは、新しいデータポイントの最も近いk個のラベル付きデータポイントのクラスを多数決で決定し、そのクラスに分類します。

選択肢 A:K-Nearest Neighbors (KNN) は主に分類または回帰に使用される教師あり学習アルゴリズムであり、次元削減の目的には通常使用されません。また、K-Meansの教師なしクラスタリングの要件を満たしません。

選択肢 B:タスク1ではラベルのない顧客のセグメンテーションが求められており、KNNは分類タスクに使用される教師あり学習アルゴリズムであるため不適切です。また、タスク2でK-Meansを売上予測(回帰)に使用することはできません。K-Meansはクラスタリング(グループ分け)のためのアルゴリズムです。

選択肢 C:K-Meansは教師なし学習アルゴリズムであり、分類ではなくクラスタリングに使用されます。K-Nearest Neighbors (KNN) は教師あり学習アルゴリズムであり、クラスタリングではなく分類(または回帰)に使用されます。アルゴリズムの学習タイプと目的が逆になっています。

関連サービスの解説
Amazon SageMaker

+ 質問 / コメント
解答・解説に疑問がある場合や、よりよい解説がある場合など、お気軽にコメントください。ただし、短文コメントは表示されません。また、中傷などコメントの内容によっては、会員機能を停止させて頂きます。教え学び合える場になれば嬉しいです。(コメント投稿にはログインが必要です)
正答率 %
No.20 解説
あるEコマース企業は、顧客データを活用してビジネス戦略を強化することを計画しています。具体的には、2種類の異なるデータ分析タスクに取り組む必要があります。
最初のタスクは、既存の多数の顧客の行動パターンや購買履歴から、自動的に類似性に基づいた顧客セグメントを抽出することです。この際、事前に定義された顧客グループのラベルは存在しません。2番目のタスクは、新たに登録された顧客が、過去のデータに基づいて「高価値顧客」または「一般顧客」のいずれに分類されるかを予測することです。ここでは、既存顧客には「高価値」や「一般」といった明確なラベルが付与されています。
これらの異なる分析要件を満たすために、以下のうちどの機械学習アルゴリズムの組み合わせが最も適切ですか?
  • 両方のタスクにK-Nearest Neighbors (KNN) を使用し、次元削減とパターン認識を行う
  • タスク1にはK-Nearest Neighbors (KNN) を使用して顧客を高価値と低価値に分類し、タスク2にはK-Meansを使用して新しい顧客からの売上を予測する
  • タスク1にはK-Meansを使用し、これは教師あり学習で顧客グループを分類する。タスク2にはK-Nearest Neighbors (KNN) を使用し、これは教師なし学習で顧客をクラスタリングする
  • タスク1にはK-Meansアルゴリズムが最適であり、既存顧客をラベルなしでクラスタリングする。タスク2にはK-Nearest Neighbors (KNN) アルゴリズムが最適であり、ラベル付きデータに基づいて新規顧客を分類する

(会員限定)当問題の評価をお願いします。改善に活用します。