シンプルで使いやすい API

Amazon Polly 用の API を使用すれば、アプリケーションに音声合成を簡単に統合できます。音声に変換するテキストを Polly API に送信するだけで、Amazon Polly からアプリケーションにオーディオストリームがすぐに返信されます。アプリケーションで直接ストリーミングを開始することも、MP3 のような標準的な音声ファイル形式で保存することもできます。

サンプリングレート サンプルコード
"Hi.My name is Joanna." from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hi.My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

さまざまな音声と言語を選択可能

Amazon Polly では、何十種類ものリアルな音声を多数の言語でサポートしているため、最適な音声を選択して、音声対応アプリケーションをさまざまな国で配信できます。Amazon Polly では、標準音声とニューラル音声合成 (NTTS) の音声に加えて、より自然で人間に近い音声を実現する音声品質を向上させる長形式音声と生成音声が提供されるようになりました。

Danielle、Gregory、Ruth、Patryk、Alva、Raúl は、ロングフォームのバリエーションで利用できる音声です。

Ruth、Matthew、Amy、Joanna、Danielle、Stephen、Olivia、Ayanda、Lucia、Lupe、Léa、Mía、Vick は、ジェネレーティブバリアントで利用できます。

言語または言語バリアント

女性

男性

     

アラビア語-MSA

Zeina

 

アラビア語 - 湾岸方言

Hala (ニューラル)

Zayd (ニューラル)

広東語

Hiujin (ニューラル)

 

カタルーニャ語

Arlet (ニューラル)

 

デンマーク語

Sofie (ニューラル)

Mads

 

Naja

 

Dutch

Laura (ニューラル)

Ruben

 

Lotte

 

オランダ語 (フランドル) - ベルギー

Lisa (ニューラル)

 

英語 - インド

Kajal (ニューラル)

 
 

Raveena

 
 

Aditi

 

英語 - アイルランド

Niamh (ニューラル)

 

英語 - ニュージーランド

Aria (ニューラル)

 

英語 - 南アフリカ

Ayanda (ジェネレーティブ)

 
 

Ayanda

 

英語 — 英国

エイミー (ジェネレーティブ)

Brian (ニューラル)

 

Amy (ニューラル)

Brian (スタンダード)

 

Amy (スタンダード)

Arthur (ニューラル)

 

Emma (ニューラル)

 
 

Emma (スタンダード)

 

英語 – 米国

Ruth (ジェネレーティブ)

Patrick (ロングフォーム)

 

Ruth (ロングフォーム)

グレゴリー (ロングフォーム)

 

ルース (ニューラル)

Gregory (ニューラル)

 

Danielle (ジェネレーティブ)

Stephen (ジェネレーティブ)

 

Danielle (ロングフォーム)

Stephen (ニューラル)

 

Joanna (ジェネレーティブ)

Matthew (ジェネレーティブ)

 

ジョアンナ (ニューラル)

Matthew (ニューラル)

 

Joanna (スタンダード)

Matthew (スタンダード)

 

Salli (ニューラル)

Justin (ニューラル)

 

Salli (スタンダード)

Justin (スタンダード)

 

Kendra (ニューラル)

Joey (ニューラル)

 

Kendra (スタンダード)

Joey (スタンダード)

 

Kimberly (ニューラル)

 
 

Kimberly (スタンダード)

 
 

Ivy (ニューラル)

 
 

Ivy (スタンダード)

 

英語 - ウェールズ

   

英語 - オーストラリア

Olivia (ジェネレーティブ)

Geraint

 
 

Olivia (ニューラル)

Russell

 

Nicole

 

フィンランド語

Suvi (ニューラル)

 

フランス語 - ベルギー

Isabelle (ニューラル)

 

フランス語 - カナダ

Gabrielle (ニューラル)

 
 

Chantal

Liam (ニューラル)

フランス語 - フランス

Léa (ジェネレーティブ)

 
 

Léa (ニューラル)

Mathieu

 

Léa (スタンダード)

Rémi

 

Céline

 

ドイツ語 - オーストリア

Hannah (ニューラル)

 

ドイツ語 -ドイツ

Vicki (ジェネレーティブ)

 
 

Vicki (ニューラル)

 
 

Vicki (スタンダード)

Daniel (ニューラル)

 

Marlene

Hans

ヒンディー語 - インド

Kajal (ニューラル)

 
 

Aditi

 

アイスランド語

Dóra

 

イタリア語

Bianca (ニューラル)

Karl

 

Bianca (スタンダード)

Adriano

 

Carla

Giorgio

日本語

Kazuha (ニューラル)

 
 

Tomoko (ニューラル)

Takumi (ニューラル)

 

Mizuki

Takumi (スタンダード)

韓国語

ソヨン (ニューラル)

 
 

ソヨン (スタンダード)

 

中国標準語

Zhiyu (ニューラル)

 
 

Zhiyu (スタンダード)

 

ノルウェー語

Ida (ニューラル)

 
 

Liv

 

ポーランド語

Ola (ニューラル)

 
 

Ewa

Jacek

 

Maja

Jan

ポルトガル語 - ブラジル

Vitória (ニューラル)

 
 

Vitória (スタンダード)

Ricardo

 

Camila (ニューラル)

Thiago

 

Camila (スタンダード)

 

ポルトガル語 - ポルトガル

Inês (ニュートラル)

 
 

Inês (スタンダード)

Cristiano

ルーマニア語

Carmen

 

ロシア語

Tatyana

 

スペイン語 - メキシコ

Mia (ジェネレーティブ)

Maxim

 

Mia (ニューラル)

Andrés

 

Mia (スタンダード)

 

スペイン語 - スペイン

Alva (ロングフォーム)

Raul (ロングフォーム)

 

Licia (ジェネレーティブ)

Sergio

 

Lucia (ニューラル)

Enrique

 

Lucia (スタンダード)

 

スペイン語 - 米国

Conchita

 
 

Lupe (ジェネレーティブ)

Pedro (ニューラル)

 

Lupe (ニューラル)

Miguel

 

Lupe (スタンダード)

 

スウェーデン語

Penélope

 
 

Astrid

 

トルコ語

Elin (ニューラル)

 
 

Filiz

 

ウェールズ語

Burcu (ニューラル)

 
 

Gwyneth

 
     

 

 

 

 

強化された視覚的エクスペリエンスのための音声の同期

Amazon Polly により、特定の文、単語、および音が発音された場合に情報を提供する追加のメタデータストリームを、簡単にリクエストできます。このメタデータストリームを合成音声のオーディオストリームとともに使用して、音声と同期した顔のアニメーションや、カラオケのような単語のハイライトなどの拡張されたビジュアル機能によって、アプリケーションを構築できるようになりました。

スピーチマークの使用方法に関する詳細については、「ドキュメント」を参照してください。 

ストリーミング音声の最適化

Amazon Polly を使えば、アプリケーションからユーザーに、あらゆる種類の情報をほぼリアルタイムにストリーミングできます。また、さまざまなサンプリングレートから選択して、アプリケーション向けに帯域幅と音質を最適化できます。Amazon Polly では、MP3、Vorbis、raw PCM のオーディオストリーム形式がサポートされています。

サンプリングレート MP3 サイズ OGG のサイズ
PCM のサイズ
24.00 kHz 聞く 19.31 kB 18.11 kB 該当なし
22.05 kHz 聞く
19.33 kB 17.62 kB 該当なし
16.05 kHz 聞く 16.22 kB 15.48 kB

100.68 kB

8.00 kHz 聞く 13.26 kB 9.72 kB 50.34 kB

発話スタイル、音声の速さ、高さ、大きさの調整

Amazon Polly は、W3C が定めた音声合成アプリケーション向け XML ベースマークアップ言語の標準フォーマットである Speech Synthesis Markup Language (SSML) に対応しており、言い回し、強調、イントネーションのための一般的な SSML タグがサポートされています。Amazon SSML のカスタムタグには、特定の音声をニュースキャスターの発話スタイルで読み上げる機能など、独自のオプションがあります。この柔軟性により、ユーザーの注意を引き、それを維持することのできる生き生きとした音声を作成できます。

詳細については、「SSML タグに関する Amazon Polly のドキュメント」をご覧ください。

SSML
これが普段の話し方です (なし)
ニュースを読み上げたりフラッシュブリーフィングを配信したりするニュースキャスターのように話すこともできます。 <speak><amazon:domain name="news">ニュースを読み上げたりフラッシュブリーフィングを配信したりするニュースキャスターのように話すこともできます。</amazon:domain></speak>
私はもっと高い声で話すことも、もっと低い声で話すこともできます。 <speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak>
私はとてもゆっくり話すことができます。または、とても速く話すことができます <speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or  I can speak <prosody rate="x-fast">really fast</prosody></speak>
私はとても大きな声で話すこともできます。または、とても小さな声で話すことができます <speak>私は <prosody volume="x-loud">とても大きな声で</prosody>話すことができます。または、<prosody volume="x-soft">とても小さな声で</prosody>話すことができます。 </speak>
私は小声で話すことができます。 <speak>私には秘密があります。あなたにだけこっそり教えます。<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">私は人間ではありません。</prosody></prosody></amazon:effect>信じられますか?</speak>

ニュースキャスターの発話スタイル

Amazon Polly では、テレビやラジオのニュースキャスターが話しているかのように音声を合成することができます。これは、ニュース記事を読んだり、フラッシュブリーフィングの更新を配信するのに最適です。現在、ニューキャスタースタイルは、ニューラルテキスト読み上げ機能を使用する Matthew と Joanna の声での米国英語 (en-US)、Amy の声での英国英語 (en-GB)、および Lupe の声での米国スペイン語 (es-US) を利用可能です。米国英語英国英語、または米国スペイン語の音声サンプルをお聞きください。

音声の最大継続時間の調整

Amazon Polly を使用すれば、時間駆動の韻律と呼ばれる機能を使って定義する最大割り当て時間に基づいて、音声の速度を自動的に調整できます。これは多くのユースケース、特にローカライズに効果的です。

例えば、トレーニング用の動画に米国英語の音声が埋め込まれていて、この動画をドイツ語にローカライズしたいとします。そこで、Amazon Translate を使用してテキストを翻訳し、Polly で声を翻訳するとします。ローカライズされたドイツ語の音声が対応する動画のフレームに入ることが不可欠なため、ドイツ語の音声を米国英語の音声より長くすることはできません。この機能を使用すれば、吹き替え処理をさらに簡単に行うことができます。

プラットフォームとプログラミング言語のサポート

Amazon Polly では、AWS SDK (Java、Node.js、.NET、PHP、Python、Ruby、Go、C++) および AWS Mobile SDK (iOS/Android) に含まれるすべてのプログラミング言語がサポートされます。また、Polly では HTTP API もサポートされるため、独自のアクセスレイヤーを実装できます。

API、コンソール、コマンドラインを使用した音声合成

Amazon Polly には、Polly API (およびさまざまな言語固有の SDK)、AWS マネジメントコンソール、AWS コマンドラインインターフェイス (CLI) を使用してアクセスできます。コンソール、API、CLI のいずれを使用しても、Amazon Polly の機能すべてを完全に制御できます。

カスタム辞書

Amazon Polly のカスタム辞書 (語彙機能) を使えば、会社名、略語、外国語、新語など、特定の単語 (フランス語以外の音声で発話する際の "ROTFL" や "C'est la vie" など) の発音を変更できます。このような発音をカスタマイズするには、辞書エントリの XML ファイルをアップロードします。例えば、"Nguyen" の発音をカスタマイズする場合、この XML を使用して音素を指定します。

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

ブランド音声

ブランド音声は、Amazon Polly チームと協力して、組織専用のニューラルテキスト読み上げ (NTTS) 音声を作成するカスタムエンゲージメントです。ブランド音声を使用すると、Amazon Connect や Alexa スキルの統合など、さまざまなユースケースで製品とアプリケーションを独自の音声 ID で差別化できます。ペルソナを特定し、俳優を特定し、彼らのスピーチを記録し、最終的に音声を生成するためのモデルを構築およびトレーニングするために、プロセス全体を通してお客様と協力します。その後、音声は AWS アカウント ID で利用可能になります。

ナショナルオーストラリア銀行のブランド音声を聴く »

ニュージーランド銀行のブランド音声を聞く »

Polly を使用してブランド音声を構築することにご興味がある場合は、AWS アカウントマネージャーに問い合わせるか、詳細についてお問い合わせください。

コンタクトセンターの統合

Amazon Connect

Amazon Polly は、カスタマーコンタクトセンターを設置および管理し、あらゆる規模で信頼できるカスタマーエンゲージメントを提供するために使用される AWS のクラウドベースのコンタクトセンターソリューションである Amazon Connect とネイティブに統合されます。会話型自動音声応答システムにテキスト読み上げプロンプトを追加する方法の詳細については、Amazon Connect 内で Polly ボイスを使用する方法をご覧ください。

Genesys Cloud CX

Genesys Cloud CX は、電話、テキスト、チャットなど複数のチャネルで顧客とエージェントの体験を統一するクラウドコンタクトセンターソリューションです。既存の Polly ボイスのいずれかを使用して音声ボットをデプロイすることができます。詳細については、Genesys Cloud ドキュメントを参照してください。

Amazon Chime SDK

Amazon Chime SDK はリアルタイムの通信コンポーネントのセットで、これを使用して、デベロッパーは音声通話、ビデオ通話、画面共有機能を独自のウェブ、モバイル、またはテレフォニーアプリケーションにすばやく追加できます。 Amazon Chime SDK が Amazon Polly とのネイティブ統合をサポートし、ビルダーがテキストや数値データをリアルな音声に変換し、出力を電話の発信者に自動的に再生するアプリケーションを簡単に作成できるようになります。

AWS Contact Center Intelligence (CCI)

Amazon Polly は複数の AWS CCI パートナーによって使用されているため、セルフサービスのカスタマーサービス仮想エージェント、情報ボット、またはアプリケーションボットをシームレスに作成できます。Amazon Polly のパートナーには、Genesys、Vonage、Accenture が含まれます。パートナーの詳細については、AWS CCI および AWS CCI パートナーのページにアクセスしてください。