AWS認定資格 WEB問題集&徹底解説

AIプラクティショナー

Amazon Transcribe の概要と試験出題ポイントは?

AWSサービスの一つであるAmazon Transcribeはどんな内容なのでしょうか?また、AWS認定資格のAIプラクティショナー(AIF)に合格するためには、サービスのどんなポイントを押さえておけばよいのでしょうか?
ここでは、そんなあなたの疑問に回答していきたいと思います

Amazon Transcribe 徹底解説 | AWS認定試験の頻出ポイントまとめ

1. サービス概要

Amazon Transcribeは、機械学習を使って音声をテキストへ変換する自動音声認識(Automatic Speech Recognition: ASR)サービスです。 S3に保存した音声/動画ファイルのバッチ文字起こしと、ライブ音声のストリーミング文字起こしに対応し、字幕、議事録、通話分析、検索用メタデータ作成に利用できます。

試験では、Transcribeは「音声をテキストに変換」、Pollyは「テキストを音声に変換」、Comprehendは「テキストを分析」、Translateは「翻訳」と整理します。 話者分離、チャネル識別、カスタム語彙、カスタム言語モデル、PIIリダクション、Call Analytics、Transcribe Medicalの使い分けが問われやすいポイントです。

2. 主な特徴と機能

2.1 バッチ文字起こし

S3上の音声/動画ファイルに対してStartTranscriptionJobを実行し、結果をJSONや字幕形式でS3に出力します。 会議録、メディアアーカイブ、過去通話ログなど、リアルタイム性が不要な大量処理に向きます。

2.2 ストリーミング文字起こし

ライブ音声をWebSocketまたはHTTP/2ストリームで送信し、逐次的に文字起こし結果を受け取れます。 ライブ字幕、リアルタイム議事録、オペレーター支援など低遅延が必要な用途で選択します。

2.3 話者分離とチャネル識別

Speaker diarizationは同じ音声内の複数話者を識別し、発言者ごとにラベル付けします。 Channel identificationはステレオ録音などで顧客/エージェントのように左右チャネルが分かれている通話をチャネル別に分離します。

2.4 カスタム語彙とカスタム言語モデル

Custom Vocabularyは製品名、人名、専門用語など特定語句の認識精度を上げます。 Custom Language Modelはドメイン固有の文脈や言い回しを学習して、より広範な認識精度改善を狙う機能です。

2.5 PII識別/リダクションとコンテンツフィルタ

Transcribeは個人情報(PII)を識別し、文字起こし結果からマスキングできます。 不適切語句のフィルタや語彙フィルタも利用でき、通話ログ共有やコンプライアンス対応に有用です。

2.6 Call AnalyticsとTranscribe Medical

Call Analyticsはコンタクトセンター向けに会話特性、感情、カテゴリ、問題検出などを提供します。 Transcribe Medicalは医療会話や医療用語の文字起こしに特化したHIPAA対象ワークロード向け機能です。

3. アーキテクチャおよび技術要素

  1. バッチ処理では、音声/動画ファイルをS3にアップロードし、StartTranscriptionJobでジョブを開始する。
  2. Transcribeが音声を解析し、テキスト、タイムスタンプ、信頼度、話者/チャネル情報などを出力する。
  3. ストリーミング処理では、アプリケーションが音声ストリームをTranscribe Streamingへ送信し、部分結果と確定結果を受け取る。
  4. 専門用語が多い場合はCustom Vocabulary、より広い文脈改善にはCustom Language Modelを適用する。
  5. PIIリダクションや語彙フィルタを適用し、結果をS3、DynamoDB、OpenSearch Service、Comprehend、QuickSightへ連携する。
  6. CloudTrail、CloudWatch、KMS、IAM、S3バケットポリシーで監査とデータ保護を行う。

通話分析では、Transcribeで文字起こしし、Comprehendで感情/キーフレーズ/PIIを分析する構成と、Call Analyticsで通話特化の分析を行う構成を要件で選びます。

4. セキュリティと認証・認可

  • IAM最小権限: transcribe:StartTranscriptionJobtranscribe:StartStreamTranscription、S3入出力権限を用途ごとに限定する。
  • S3/KMS: 入力音声、出力トランスクリプト、字幕ファイルはS3ブロックパブリックアクセスとKMS暗号化で保護する。
  • 転送時暗号化: API通信はTLSで保護し、ストリーミング音声も暗号化された接続で送信する。
  • PIIリダクション: 共有・分析前に個人情報をマスクし、機密情報を含む通話ログの露出を抑える。
  • 監査: CloudTrailでAPI呼び出しを記録し、CloudWatch/EventBridgeでジョブ失敗や異常を検知する。
  • 規制ワークロード: TranscribeはHIPAA対象として利用できるが、PHIは保存時/転送時暗号化やBAAなどの要件を満たす必要がある。

5. 料金形態

Amazon Transcribeは、文字起こしした音声時間に基づく従量課金です。追加機能により別料金が発生する場合があります。

  • バッチ/ストリーミング: 文字起こしした音声秒数に基づき、月次利用量で課金される。
  • 最低課金: リクエストごとに最小課金時間があるため、非常に短い音声を大量処理する場合は注意する。
  • 追加機能: PIIリダクション、Call Analytics、Custom Language Modelなどは追加料金が発生することがある。
  • 周辺コスト: S3保存、KMS、Lambda、Step Functions、CloudWatch Logs、データ転送も合わせて見積もる。
  • コスト最適化: 必要な音声だけを処理し、無音除去、バッチ化、適切なリージョン選択、不要な再処理の回避を行う。

6. よくあるアーキテクチャ・設計パターン

  • 会議議事録: 会議録音をS3へ保存し、Transcribeで文字起こし、ComprehendやBedrockで要約する。
  • ライブ字幕: Web/配信アプリから音声をStreaming APIへ送り、リアルタイム字幕として表示する。
  • コンタクトセンター分析: 通話録音をCall Analyticsで分析し、顧客感情、問題カテゴリ、オペレーター品質を把握する。
  • 字幕ファイル生成: 動画ファイルをバッチ文字起こしし、SRT/VTT形式の字幕を生成して配信に利用する。
  • 検索可能な音声アーカイブ: トランスクリプトをOpenSearch Serviceに登録し、音声/動画を全文検索可能にする。
  • 医療音声処理: 医療会話や専門用語はTranscribe Medicalを検討し、PHI保護要件を満たす。

7. 設定・デプロイ手順(ハンズオン例)

  1. S3バケットを作成し、音声または動画ファイルをアップロードする。暗号化とアクセス制御を確認する。
  2. Transcribe用IAMロールまたは実行ユーザーに、Transcribeジョブ実行とS3読み書き権限を付与する。
  3. StartTranscriptionJobで言語、入力S3 URI、出力先、必要に応じて話者分離/チャネル識別/PIIリダクションを指定する。
  4. ジョブ完了後、S3のJSONまたは字幕ファイルを確認する。
  5. 専門用語の認識精度が低い場合はCustom Vocabularyを作成し、再実行する。
  6. リアルタイム用途ではStreaming APIを使い、部分結果の表示と確定結果の保存を実装する。

8. 試験で問われやすいポイント

8.1 サービス選択

  • Q: Amazon Transcribeは何をするサービス?
    A: 音声や動画の音声トラックをテキストに変換する自動音声認識サービス。
  • Q: テキストを音声に変換するサービスはTranscribe?
    A: いいえ。テキストを音声化するのはAmazon Polly。
  • Q: 文字起こし後に感情やキーフレーズを分析するには?
    A: Transcribeの出力をAmazon Comprehendへ渡す。

8.2 バッチとストリーミング

  • Q: S3上の録音ファイルを後から文字起こしするには?
    A: StartTranscriptionJobによるバッチ文字起こしを使う。
  • Q: ライブ字幕やリアルタイム議事録を作るには?
    A: Transcribe Streamingを使う。
  • Q: バッチ文字起こしの出力先は?
    A: S3にJSONや字幕形式で出力する。

8.3 話者/チャネルと精度改善

  • Q: 1つの録音内で複数話者の発言を区別するには?
    A: Speaker diarization(話者分離)を使う。
  • Q: 顧客とオペレーターが左右チャネルに分かれた通話を区別するには?
    A: Channel identification(チャネル識別)を使う。
  • Q: 製品名や専門用語の認識精度を上げるには?
    A: Custom Vocabularyを使う。
  • Q: ドメイン全体の言い回しや文脈に合わせて精度改善するには?
    A: Custom Language Modelを検討する。

8.4 セキュリティとコンプライアンス

  • Q: トランスクリプトから個人情報を隠すには?
    A: PII識別/リダクションを使う。
  • Q: 通話録音と文字起こし結果を保護するには?
    A: S3ブロックパブリックアクセス、KMS暗号化、IAM最小権限、CloudTrail監査を組み合わせる。
  • Q: 医療音声やPHIを扱う場合に検討する機能は?
    A: Transcribe Medicalを検討し、HIPAA/BAAと暗号化要件を満たす。

8.5 料金と関連機能

  • Q: Transcribeの主な課金軸は?
    A: 文字起こしした音声時間。短い音声でもリクエストごとの最小課金時間に注意する。
  • Q: コンタクトセンター通話の品質やカテゴリ分析をしたい場合は?
    A: Amazon Transcribe Call Analyticsを使う。
  • Q: 大量音声処理のコストを下げる基本策は?
    A: 必要部分のみ処理し、無音や不要ファイルを除外し、再処理を避ける。