AWS認定資格 WEB問題集&徹底解説

AIプラクティショナー

Amazon Polly の概要と試験出題ポイントは?

AWSサービスの一つであるAmazon Pollyはどんな内容なのでしょうか?また、AWS認定資格のAIプラクティショナー(AIF)に合格するためには、サービスのどんなポイントを押さえておけばよいのでしょうか?
ここでは、そんなあなたの疑問に回答していきたいと思います

Amazon Polly 徹底解説 | AWS認定試験の頻出ポイントまとめ

1. サービス概要

Amazon Pollyは、テキストを自然な音声に変換するフルマネージドのテキスト読み上げ(Text-to-Speech: TTS)サービスです。 複数言語・複数音声に対応し、標準音声、ニューラル音声、ロングフォーム音声、生成音声などを選択して、アプリケーション、eラーニング、アクセシビリティ、IoT、ナレーションに組み込めます。

試験では、Pollyは「テキストを音声に変換」、Transcribeは「音声をテキストに変換」、Lexは「会話型ボット」、Translateは「翻訳」と整理します。 Pollyで生成した音声は追加料金なしでキャッシュ/再生できる点、SSMLで発音や間を制御できる点、長文はS3への非同期合成を使う点がよく問われます。

2. 主な特徴と機能

2.1 TTSエンジンと音声タイプ

Pollyは標準TTSに加え、より自然なニューラルTTS、長時間コンテンツ向けのロングフォーム音声、より表現力の高い生成音声などを提供します。 利用できる音声タイプや言語はリージョン・音声ごとに異なるため、要件に応じて対応状況を確認します。

2.2 SynthesizeSpeechと非同期タスク

SynthesizeSpeechは短いテキストを同期的に音声ストリームとして返します。 長いテキストや大量生成ではStartSpeechSynthesisTaskを使い、出力をS3に保存する非同期処理を選びます。

2.3 SSMLによる読み上げ制御

Speech Synthesis Markup Language(SSML)により、読み上げ速度、音量、ピッチ、休止、強調、発音、日付や数字の読み方などを制御できます。 ニュース読み上げなど一部の音声では話し方のスタイル指定も利用できます。

2.4 Lexiconと発音カスタマイズ

Pronunciation Lexiconを使うと、ブランド名、専門用語、人名などの読み方をカスタマイズできます。 同じテキストでも辞書とSSMLを組み合わせることで、自然で一貫した音声を生成できます。

2.5 Speech marks

Speech marksは、単語、文、音素、ビゼームなどのタイミング情報をJSONで返す機能です。 字幕ハイライト、リップシンク、学習アプリ、カラオケ風表示など、音声と画面表示を同期させる用途で使います。

2.6 出力形式と配信

MP3、Ogg Vorbis、PCMなどの音声形式を選択でき、生成済み音声はS3に保存してCloudFrontで配信できます。 同じテキストを繰り返し読み上げる場合は、生成音声をキャッシュして再利用することでレイテンシとコストを抑えます。

3. アーキテクチャおよび技術要素

  1. アプリケーションがテキスト、言語/音声、エンジン、出力形式を指定してPolly APIを呼び出す。
  2. 短文や即時応答ではSynthesizeSpeechで音声ストリームを取得する。
  3. 長文や大量生成ではStartSpeechSynthesisTaskで非同期タスクを開始し、結果をS3に保存する。
  4. SSMLやLexiconで読み方、休止、速度、強調を調整する。
  5. 音声ファイルをS3/CloudFrontで配信し、必要に応じてDynamoDBなどでテキストと音声ファイルの対応をキャッシュする。
  6. CloudTrail、CloudWatch、IAM、KMSでAPI利用、出力データ、アクセス権を管理する。

サーバーレス構成では、S3へのテキスト投入をLambdaで検知し、Polly非同期タスクを起動して音声ファイルを生成するパターンが扱いやすいです。

4. セキュリティと認証・認可

  • IAM最小権限: polly:SynthesizeSpeechpolly:StartSpeechSynthesisTask、Lexicon操作、S3出力権限を必要範囲に限定する。
  • S3出力保護: 非同期合成の出力音声をS3に保存する場合は、ブロックパブリックアクセス、バケットポリシー、KMS暗号化を設定する。
  • VPCエンドポイント: AWS PrivateLinkでVPC内からPolly APIへプライベート接続できる。
  • 監査: CloudTrailでPolly API呼び出しを記録し、CloudWatchでアプリケーションログやタスク失敗を監視する。
  • 機密テキスト: 読み上げ対象に個人情報や機密情報が含まれる場合は、入力テキスト、出力音声、キャッシュの保存期間とアクセス制御を設計する。
  • 規制ワークロード: PollyはHIPAAやPCI DSSなどの規制ワークロードで利用できるため、必要な契約・暗号化・監査設定を満たす。

5. 料金形態

Amazon Pollyは主に合成した文字数に基づく従量課金です。音声タイプごとに料金が異なるため、品質要件とコストのバランスを取ります。

  • 文字数課金: 合成した文字数に応じて課金され、標準、ニューラル、ロングフォーム、生成音声で単価が異なる。
  • キャッシュ再生: 一度生成した音声は追加のPolly料金なしで保存・再生できるため、繰り返し利用ではキャッシュが有効。
  • 非同期合成: 長文のStartSpeechSynthesisTaskも合成文字数が課金対象になり、S3保存や転送の周辺コストも発生する。
  • 配信コスト: S3、CloudFront、データ転送、KMS、ログ保存などは別途課金される。
  • コスト最適化: 同じ文面は再合成せずキャッシュし、必要な品質に応じて音声タイプを選択する。

6. よくあるアーキテクチャ・設計パターン

  • アクセシビリティ読み上げ: Web/モバイルアプリが記事本文をPollyで音声化し、視覚障害者や移動中の利用者に提供する。
  • eラーニング教材: 教材テキストをSSMLで調整し、S3/CloudFrontから音声教材として配信する。
  • コンタクトセンター音声: Amazon ConnectやLexと組み合わせ、IVRやボット応答を自然な音声で再生する。
  • ニュース/通知読み上げ: DynamoDBやCMSの新規テキストをLambdaで検知し、Pollyで音声生成して配信する。
  • 字幕/リップシンク: Speech marksで単語や文のタイミングを取得し、画面表示と音声を同期する。
  • 多言語音声配信: Translateで翻訳したテキストをPollyで読み上げ、多言語コンテンツを作成する。

7. 設定・デプロイ手順(ハンズオン例)

  1. Pollyコンソールで言語、音声、エンジンを選び、短いテキストを読み上げて品質を確認する。
  2. SSMLで休止、強調、読み方を調整し、必要に応じてPronunciation Lexiconを登録する。
  3. SDK/CLIからSynthesizeSpeechを呼び出し、MP3などの音声ファイルを取得する。
  4. 長文の場合はStartSpeechSynthesisTaskを使い、出力先S3バケットとIAM権限を設定する。
  5. 生成済み音声をS3/CloudFrontで配信し、同一テキストの再合成を避けるキャッシュ設計を追加する。
  6. CloudTrail、CloudWatch、S3アクセスログ、KMSで監査と保護を確認する。

8. 試験で問われやすいポイント

8.1 サービス選択

  • Q: Amazon Pollyは何をするサービス?
    A: テキストを自然な音声に変換するText-to-Speechサービス。
  • Q: 音声をテキストに変換するサービスはPolly?
    A: いいえ。音声をテキスト化するのはAmazon Transcribe。
  • Q: 会話型ボットを構築するサービスは?
    A: Amazon Lex。Pollyはボット応答などの音声読み上げに使える。

8.2 音声タイプと品質

  • Q: より自然な読み上げが必要な場合は?
    A: Neural TTS、Long-form、Generative voicesなど、要件に合う高品質音声を選ぶ。
  • Q: ニュース読み上げのような話し方を調整したい場合は?
    A: 対応音声でSSMLのスタイル指定を使う。
  • Q: 利用できる音声やエンジンは常に全リージョン共通?
    A: いいえ。音声タイプ、言語、リージョンごとに対応状況を確認する。

8.3 SSMLとカスタマイズ

  • Q: 読み上げ速度、休止、強調、発音を制御するには?
    A: SSMLを使う。
  • Q: ブランド名や専門用語の読み方を固定するには?
    A: Pronunciation Lexiconを使う。
  • Q: 音声と画面上の単語ハイライトを同期するには?
    A: Speech marksを使い、単語や文のタイミング情報を取得する。

8.4 同期/非同期と配信

  • Q: 短いテキストを即時に音声化するAPIは?
    A: SynthesizeSpeech。
  • Q: 長文を音声化してS3に出力するには?
    A: StartSpeechSynthesisTaskを使う。
  • Q: Webで大量ユーザーに音声を配信する代表構成は?
    A: Pollyで生成し、S3に保存してCloudFrontで配信する。

8.5 料金とセキュリティ

  • Q: Pollyの主な課金軸は?
    A: 合成した文字数。音声タイプにより単価が異なる。
  • Q: 同じ音声を何度も再生する場合のコスト最適化は?
    A: 生成音声をS3などにキャッシュし、再合成を避ける。生成済み音声の再生自体に追加Polly料金はかからない。
  • Q: VPC内からPollyへプライベート接続するには?
    A: VPCエンドポイント(AWS PrivateLink)を使う。
  • Q: 出力音声に機密情報が含まれる場合の対策は?
    A: S3暗号化、IAM最小権限、保存期間管理、CloudTrail監査を設定する。