Azure認定資格 WEB問題集&徹底解説

AI-900:Microsoft Azure AI Fundamentals

正解 A問題
(お気に入りチェック) 1 2 3 4
解説
正解はAです。最新のマルチモーダルAIモデル(例:CLIP、BLIP、Azure OpenAI ServiceのGPT-4 Visionなど)では、画像エンコーダーが視覚情報から特徴ベクトルを抽出し、言語エンコーダーがテキストを埋め込みベクトルに変換します。両者を共通のベクトル空間(latent space)に射影することで、画像とテキストの意味的な対応関係をモデルが学習し、画像に適したキャプションを生成できます。このアプローチはAzure AI VisionやAzure OpenAI Serviceなどで採用されている標準的な手法です。

選択肢B:メタデータタグと定型文テンプレートの組み合わせは柔軟性に欠け、多様な画像内容に対応した自然な説明文を生成することができません。マルチモーダルモデルの本質である視覚と言語の統合学習を活用していません。

選択肢C:画像分類と文章生成を独立して訓練し、推論時にラベルを受け渡す方式では、視覚情報と言語情報の深い意味的結びつきを学習できません。分類ラベルだけでは画像の詳細な内容や文脈を十分に伝達できず、生成される説明文の品質が制限されます。

選択肢D:OCRは画像内の文字情報を読み取る技術であり、写真全体の視覚的内容(物体、シーン、色彩、構図など)を理解するものではありません。文字が含まれない画像や、視覚的要素が重要な画像には対応できず、画像キャプション生成の一般的なアプローチとして不適切です。

関連サービスの解説
Azure AI Service
Azure AI Vision
Azure OpenAI Service

+ 質問 / コメント
解答・解説に疑問がある場合や、よりよい解説がある場合など、お気軽にコメントください。ただし、短文コメントは表示されません。また、中傷などコメントの内容によっては、会員機能を停止させて頂きます。教え学び合える場になれば嬉しいです。(コメント投稿にはログインが必要です)
正答率 %
No.49 解説
Azure上で画像とテキストを組み合わせた生成AIアプリケーションを開発しています。ユーザーがアップロードした写真に対して自動的に説明文を生成する機能を実装する必要があります。現代のマルチモーダルAIモデルにおいて、視覚情報とテキスト情報を統合して画像キャプションを生成する仕組みとして、最も適切なアプローチはどれですか。
  • 画像エンコーダーで抽出した視覚的特徴と、言語エンコーダーで生成したテキスト埋め込みを、共通のベクトル空間にマッピングすることで両者の意味的な対応関係を学習する
  • 画像から抽出したメタデータタグを事前定義された辞書と照合し、該当するタグに紐づけられた定型文テンプレートを組み合わせて説明文を構築する
  • 画像分類モデルと文章生成モデルをそれぞれ独立して訓練し、推論時に分類結果のラベルをキーワードとして文章生成側に受け渡す
  • 画像内の文字情報をOCR技術で読み取ってテキスト化した後、抽出されたテキストを自然言語処理モデルで要約および再構成する

(会員限定)当問題の評価をお願いします。改善に活用します。