Einfach verwendbare API

Amazon Polly bietet eine API, die es Ihnen ermöglicht, die Sprachsynthese schnell in Ihre Anwendung zu integrieren. Sie senden einfach den Text, der in Sprache umgewandelt werden soll, an die Amazon Polly-API, und Amazon Polly gibt sofort den Audiostream an Ihre Anwendung aus, sodass Ihre Anwendung ihn direkt abspielen oder in einem Standard-Audioformat wie MP3 abspeichern kann.

Abtastrate Beispiel-Code
Hi. My name is Joanna. from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hallo. My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

Große Auswahl an Stimmen und Sprachen

Amazon Polly beinhaltet Dutzende natürliche Stimmen und unterstützt mehrere Sprachen, sodass Sie die ideale Stimme auswählen und ihre sprachaktivierten Anwendungen in vielen Ländern vertreiben können. Zusätzlich zu Standard- und Neural Text-zu-Sprache (NTTS)-Stimmen bietet Amazon Polly jetzt Langform-Stimmen und generative Stimmen an, die die Sprachqualität für natürlichere und menschlichere Stimmen verbessern.

Danielle, Gregory, Ruth, Patryk, Alva und Raúl sind Stimmen, die in einer Langform-Variante erhältlich sind.

Ruth, Matthew, Amy, Joanna, Danielle, Stephen, Olivia, Ayanda, Lucia, Lupe, Léa, Mía und Vicki sind in einer generativen Variante erhältlich

Sprache oder Sprachvariante

Weiblich

Männlich

     

Arabisch-MSA

Zeina

 

Arabisch – Golfstaaten

Hala (Neural)

Zayd (Neural)

Kantonesisch

Hiujin (Neural)

 

Katalanisch

Arlet (Neural)

 

Dänisch

Sofie (Neural)

Mads

 

Naja

 

Niederländisch

Laura (Neural)

Ruben

 

Lotte

 

Niederländisch (Flämisch) – Belgien

Lisa (Neural)

 

Englisch – Indien

Kajal (Neural)

 
 

Raveena

 
 

Aditi

 

Englisch – Irland

Niamh (Neural)

 

Englisch – Neuseeland

Aria (Neural)

 

Englisch – Südafrika

Ayanda (generativ)

 
 

Ayanda

 

Englisch – Großbritannien

Amy (generativ)

Brian (Neural)

 

Amy (Neural)

Brian (Standard)

 

Amy (Standard)

Arthur (Neural)

 

Emma (Neural)

 
 

Emma (Standard)

 

Englisch – USA

Ruth (Generativ)

Patrick (Langform)

 

Ruth (Langform)

Gregory (Langform)

 

Ruth (Neural)

Gregory (Neural)

 

Danielle (Generativ)

Stephen (Generativ)

 

Danielle (Langform)

Stephen (Neural)

 

Joanna (Generativ)

Matthew (Generativ)

 

Joanna (Neural)

Matthew (Neural)

 

Joanna (Standard)

Matthew (Standard)

 

Salli (Neural)

Justin (Neural)

 

Salli (Standard)

Justin (Standard)

 

Kendra (Neural)

Joey (Neural)

 

Kendra (Standard)

Joey (Standard)

 

Kimberly (Neural)

 
 

Kimberly (Standard)

 
 

Ivy (Neural)

 
 

Ivy (Standard)

 

Englisch – Wales

   

Englisch – Australien

Olivia (Generativ)

Geraint

 
 

Olivia (Neutral)

Russell

 

Nicole

 

Finnisch

Suvi (Neural)

 

Französisch – Belgien

Isabelle (Neural)

 

Französisch – Kanada

Gabrielle (Neural)

 
 

Chantal

Liam (Neural)

Französisch – Frankreich

Léa (Generativ)

 
 

Léa (Neural)

Mathieu

 

Léa (Standard)

Rémi

 

Céline

 

Deutsch – Österreich

Hannah (Neural)

 

Deutsch – Deutschland

Vicki (Generativ)

 
 

Vicki (Neural)

 
 

Vicki (Standard)

Daniel (Neural)

 

Marlene

Hans

Hindi – Indien

Kajal (Neural)

 
 

Aditi

 

Isländisch

Dóra

 

Italienisch

Bianca (Neural)

Karl

 

Bianca (Standard)

Adriano

 

Carla

Giorgio

Japanisch

Kazuha (Neural)

 
 

Tomoko (Neural)

Takumi (Neural)

 

Mizuki

Takumi (Standard)

Koreanisch

Seoyeon (Neural)

 
 

Seoyeon (Standard)

 

Mandarin

Zhiyu (Neural)

 
 

Zhiyu (Standard)

 

Norwegisch

Ida (Neural)

 
 

Liv

 

Polnisch

Ola (Neural)

 
 

Ewa

Jacek

 

Maja

Jan

Portugiesisch – Brasilien

Vitória (Neural)

 
 

Vitória (Standard)

Ricardo

 

Camila (Neural)

Thiago

 

Camila (Standard)

 

Portugiesisch – Portugal

Inês (Neural)

 
 

Inês (Standard)

Cristiano

Rumänisch

Carmen

 

Russisch

Tatyana

 

Spanisch – Mexikanisch

Mia (Generativ)

Maxim

 

Mia (Neural)

Andrés

 

Mia (Standard)

 

Spanisch – Spanien

Alva (Langform)

Raúl (Langform)

 

Lucia (Generativ)

Sergio

 

Lucia (Neural)

Enrique

 

Lucia (Standard)

 

Spanisch – USA

Conchita

 
 

Lupe (Generativ)

Pedro (Neural)

 

Lupe (Neural)

Miguel

 

Lupe (Standard)

 

Schwedisch

Penélope

 
 

Astrid

 

Türkisch

Elin (Neural)

 
 

Filiz

 

Walisisch

Burcu (Neutral)

 
 

Gwyneth

 
     

 

 

 

 

Synchronisieren von Sprache für eine erweiterte visuelle Erfahrung

Amazon Polly vereinfacht das Anfordern eines zusätzlichen Metadaten-Streams, der Informationen zur Aussprache bestimmter Sätze, Wörter und Laute bereitstellt. Mithilfe dieses Metadaten-Streams und des Audio-Streams mit synthetisierter Sprache können Sie jetzt Anwendungen mit erweiterter visueller Erfahrung erstellen, beispielsweise sprachsynchronisierte Gesichtsanimationen oder Worthervorhebungen im Karaoke-Stil.

Weitere Informationen zum Verwenden von Speech Marks finden Sie in der Dokumentation

Optimieren Sie die Streaming-Qualität der Audio-Dateien

Mit Amazon Polly können Sie vielerlei Informationen fast in Echtzeit über Ihre Anwendung streamen und Benutzern zur Verfügung stellen. Außerdem können Sie aus vielen Abtastraten auswählen, um Bandbreite und Tonqualität für Ihre Anwendung zu optimieren. Amazon Polly unterstützt MP3, Vorbis und unkomprimierte PCM-Audiostream-Formate.

Abtastrate MP3-Größe   Größe OGG
Größe PCM
24,00 kHz Anhören 19,31 KB 18,11 KB
22,05 kHz Anhören
19,33 KB 17,62 KB
16,05 kHz Anhören 16,22 KB 15,48 KB

100,68 KB

8,00 kHz Anhören 13,26 KB 9,72 KB 50,34 KB

Anpassen des Sprachstils, der Sprachrate, der Tonhöhe und der Lautstärke

Amazon Polly unterstützt die Speech Synthesis Markup Language (SSML), eine vom W3C standardisierte und auf XML basierende Auszeichnungssprache für Anwendungen zur Sprachsynthese, sowie gängige SSML-Tags zu Ausdrucksweise, Betonung und Tonfall. Benutzerdefinierte Amazon SSML-Tags bieten einzigartige Optionen, z. B. die Möglichkeit, bestimmte Stimmen in einem Nachrichtensprecher-Sprachstil sprechen zu lassen. Diese Flexibilität ermöglicht es Ihnen, natürliche Sprache zu erzeugen, die die Aufmerksamkeit Ihrer Zielgruppe auf sich zieht und aufrecht erhält.

Weitere Informationen finden Sie in der Amazon Polly-Dokumentation zu SSML-Tags.

Beispiel SSML
So spreche ich normalerweise. (keins)
Ich kann auch in einem Nachrichtensprecher-Stil sprechen, als ob ich einen Nachrichtenartikel lesen oder ein Flash-Briefing abhalten würde. <speak><amazon:domain name="news">Ich kann auch in einem Nachrichtensprecher-Stil sprechen, als ob ich einen Nachrichtenartikel lesen oder ein Flash-Briefing abhalten würde.</amazon:domain> </speak>
Ich kann mit einer höheren oder in einer niedrigeren Tonlage sprechen. <speak>Ich kann mit einer <prosody pitch="high">höheren Stimme sprechen</prosody>, oder ich kann <prosody pitch="low">mit einer tieferen Stimme sprechen</prosody></speak>
Ich kann ganz langsam oder richtig schnell sprechen. <speak>Ich kann <prosody rate="x-slow">sehr langsam sprechen</prosody>, oder ich kann <prosody rate="x-fast">sehr schnell sprechen</prosody></speak>
Ich kann auch sehr laut oder sehr leise sprechen. <speak>Ich kann auch <prosody volume="x-loud">sehr laut</prosody> oder <prosody volume="x-soft">sehr leise</prosody> sprechen.</speak>
Ich kann flüstern. <speak>Ich muss Ihnen ein Geheimnis erzählen, ich werde es Ihnen zuflüstern.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">Ich bin kein Mensch.</prosody></prosody></amazon:effect>Können Sie das glauben?</speak>

Sprachstil „Nachrichtensprecher“

Amazon Polly kann verwendet werden, um Sprache zu synthetisieren, als ob sie von einem Fernseh- oder Radiosprecher gesprochen würde. Dies kann eine gute Möglichkeit sein, Nachrichtenartikel zu lesen oder Flash-Briefing-Updates zu vermitteln. Der Nachrichtensprecher-Stil ist derzeit für die Stimmen Matthew und Joanna (US-amerikanisches Englisch, en-US), für die Stimme Amy (britisches Englisch, en-GB) und für die Stimme Lupe (US-amerikanisches Spanisch, es-US) unter Verwendung von neuronaler Text-to-Speech-Technologie verfügbar. Hören Sie sich eine Hörprobe für US-amerikanisches Englisch, für britisches Englisch oder für US-amerikanisches Spanisch an.

Maximale Sprechdauer anpassen

Mit Amazon Polly können Sie das Sprechtempo automatisch durch eine maximale Sprechdauer anpassen. Die Sprechdauer legen Sie mittels einer als zeitgesteuerte Intonation bezeichneten Funktion fest. Dies ist in vielen Anwendungsfällen nützlich, insbesondere bei der Sprachlokalisierung.

Nehmen wir beispielsweise an, in Ihrem Trainingsvideo ist in US-Englisch gesprochener Text eingebettet, und Sie möchten das Video ins Deutsche lokalisieren. Nehmen wir an, Sie übersetzen den Text mit Amazon Translate und verwenden für die Sprachausgabe Polly. Wichtig ist dabei, dass der lokalisierte deutsche Text in entsprechenden Zeitrahmen im Video gesprochen wird. Der deutsche gesprochene Text darf somit nicht länger als der englische Text sein. Sie können mit dieser Funktion die Synchronisierung erleichtern.

Plattform- und Programmiersprachen-Support

Amazon Polly unterstützt alle Programmiersprachen des AWS SDK (Java, Node.js, .NET, PHP, Python, Ruby, Go, and C++) und des AWS Mobile SDK (iOS/Android). Außerdem unterstützt Polly eine HTTP-API, sodass Sie Ihre eigene Zugriffsebene implementieren können.

Sprachsynthese über die API, die Konsole oder die Befehlszeile

Amazon Polly kann über die Polly-API (und zahlreiche sprachspezifische SDKs), die AWS Management Console und die AWS-Befehlszeilenschnittstelle (CLI) verwaltet werden. Sie haben vollständige Kontrolle über alle Funktionen von Amazon Polly, egal ob Sie den Service über die Konsole, die API oder die CLI verwenden.

Benutzerdefinierte Lexika

Mit den benutzerdefinierten Lexika oder Wörterlisten von Amazon Polly können Sie die Aussprache bestimmter Wörter, zum Beispiel von Firmennamen, Akronymen, Fremdwörtern und Neologismen (z. B. „ROTFL“, „C’est la vie“ für nicht französischsprachige Stimmen) modifizieren. Um die Aussprache anzupassen, laden Sie eine XML-Datei mit lexikalischen Einträgen hoch. Sie können beispielsweise die Aussprachen von Nguyen anpassen, indem Sie ein Phonem in der folgenden XML-Datei zur Verfügung stellen:

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Brand Voice

Brand Voice ist ein individuelles Element, bei dem Sie mit dem Amazon Polly-Team zusammenarbeiten, um eine neurale Text-to-Speech (NTTS)-Stimme für die exklusive Nutzung durch Ihre Organisation zu erstellen. Brand Voice ermöglicht es Ihnen, Ihre Produkte und Anwendungen mit einer einzigartigen stimmlichen Identität in einer Vielzahl von Anwendungsfällen zu differenzieren, einschließlich der Integration von Amazon Connect und Alexa Skills. Wir arbeiten während des gesamten Prozesses mit Ihnen zusammen, um die Persona zu identifizieren, einen Schauspieler oder eine Schauspielerin zu bestimmen und ihre Rede aufzuzeichnen und schließlich ein Modell zu bauen und zu trainieren, um die Stimme zu produzieren. Die Stimme wird dann für Ihre AWS-Konto-ID(s) verfügbar gemacht.

Hören Sie sich die Markenstimme der National Australia Bank an »

Hören Sie sich die Markenstimme der Bank of New Zealand an »

Wenn Sie daran interessiert sind, eine Markenstimme mit Brand Voice und Polly aufzubauen, wenden Sie sich bitte an Ihren AWS Account Manager oder kontaktieren Sie uns, um weitere Informationen zu bekommen.

Kontaktcenter-Integrationen

Amazon Connect

Amazon Polly ist nativ in Amazon Connect integriert, die cloudbasierte Kontaktcenter-Lösung von AWS, mit der Sie ein Kunden-Kontaktcenter einrichten und verwalten und eine zuverlässige Kundeninteraktion nach Maß bereitstellen können. Um weitere Informationen über das Hinzufügen von Aufforderungen von Text-zu-Sprache zu Ihrem dialogorientierten interaktiven Sprachantwortsystem zu erhalten, lesen Sie, wie Sie Polly-Stimmen in Amazon Connect verwenden.

Genesys Cloud CX

Genesys Cloud CX ist eine Cloud-Kontaktcenter-Lösung, die das Erlebnis für Kunden und Kundendienstmitarbeiter über mehrere Kanäle wie Telefon, Text und Chat hinweg vereint. Sie können Ihre Voice-Bots mit einer der vorhandenen Polly-Stimmen bereitstellen. Weitere Informationen finden Sie in der Genesys-Cloud-Dokumentation.

Amazon Chime SDK

Die Amazon Chime SDK ist ein Satz von Echtzeit-Kommunikationskomponenten, den Entwickler nutzen können, um ihre eigenen Web-, Mobiltelefon- oder Telefon-Anwendungen schnell um Audioanruf-, Videoanruf- und Bildschirmfreigabefunktionen zu erweitern. Das Amazon Chime SDK unterstützt die native Integration mit Amazon Polly, was es Entwicklern leicht macht, Anwendungen zu erstellen, die Text und numerische Daten in lebensechte Sprache umwandeln und die Ausgabe automatisch einem Telefonanrufer wiedergeben.

AWS Contact Center Intelligence (CCI)

Amazon Polly wird von einigen AWS-CCI-Partnern verwendet, damit Sie nahtlos virtuelle Kundendienstmitarbeiter, Informationsbots oder Anwendungsbots für den Self-Service-Kundendienst erstellen können. Zu den Partnern von Amazon Polly gehören Genesys, Vonage und Accenture. Für weitere Informationen zu Partnern besuchen Sie AWS CCI und die Seite der AWS-CCI-Partner.