API de uso sencillo

Amazon Polly proporciona una API que le permite integrar la síntesis del habla en su aplicación de manera rápida. Simplemente envía el texto que desea convertir en habla a la API de Amazon Polly, y Amazon Polly le envía al instante la transmisión de audio a su aplicación, para que pueda comenzar a transmitirla directamente o almacenarla en un formato de archivo de audio estándar, como MP3.

Frecuencia de muestreo Código de muestra
"Hi. My name is Joanna." from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hi. My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

Amplia selección de voces e idiomas

Amazon Polly incluye decenas de voces realistas y es compatible con varios idiomas, de manera que puede seleccionar la voz ideal y distribuir sus aplicaciones con voz en numerosos países. Además de las voces de texto a voz neuronal (NTTS) y estándar, Amazon Polly ofrece ahora voces de formato largo y generativas que mejoran la calidad del habla para conseguir voces más naturales y parecidas a las humanas.

Danielle, Gregory, Ruth, Patryk, Alva y Raúl son voces disponibles en una variante de formato largo.

Ruth, Matthew, Amy, Joanna, Danielle, Stephen, Olivia, Ayanda, Lucia, Lupe, Léa, Mía y Vicki están disponibles en una variante generativa.

Idioma o variante de idioma

Mujer

Hombre

     

Árabe-MSA

Zeina

 

Árabe (del Golfo)

Hala (neuronal)

Zayd (neuronal)

Cantonés

Hiujin (Neural)

 

Catalán

Arlet (Neural)

 

Danés

Sofie (neuronal)

Mads

 

Naja

 

Neerlandés

Laura (Neuronal)

Ruben

 

Lotte

 

Neerlandés (flamenco) - Bélgica

Lisa (neuronal)

 

Inglés - India

Kajal (neuronal)

 
 

Raveena

 
 

Aditi

 

Inglés - Irlanda

Niamh (neuronal)

 

Inglés - Nueva Zelanda

Aria (Neural)

 

Inglés - Sudáfrica

Ayanda (generativa)

 
 

Ayanda

 

Inglés - Reino Unido

Amy (generativa)

Brian (neuronal)

 

Amy (neuronal)

Brian (estándar)

 

Amy (estándar)

Arthur (neuronal)

 

Emma (neuronal)

 
 

Emma (estándar)

 

Inglés - Estados Unidos

Ruth (generativa)

Patrick (formato largo)

 

Ruth (formato largo)

Gregory (formato largo)

 

Ruth (Neuronal)

Gregory (neuronal)

 

Danielle (generativa)

Stephen (generativa)

 

Danielle (formato largo)

Stephen (neuronal)

 

Joanna (generativa)

Matthew (generativa)

 

Joanna (neuronal)

Matthew (Neural)

 

Joanna (Estándar)

Matthew (estándar)

 

Salli (neuronal)

Justin (neuronal)

 

Salli (estándar)

Justin (estándar)

 

Kendra (neuronal)

Joey (neuronal)

 

Kendra (estándar)

Joey (estándar)

 

Kimberly (neuronal)

 
 

Kimberly (Estándar)

 
 

Ivy (Neural)

 
 

Ivy (Estándar)

 

Inglés - Gales

   

Inglés - Australia

Olivia (generativa)

Geraint

 
 

Olivia (neuronal)

Russell

 

Nicole

 

Finés

Suvi (Neuronal)

 

Francés - Bélgica

Isabelle (Neural)

 

Francés - Canadá

Gabrielle (neuronal)

 
 

Chantal

Liam (neuronal)

Francés - Francia

Léa (generativa)

 
 

Léa (neuronal)

Mathieu

 

Léa (Estándar)

Rémi

 

Céline

 

Alemán - Austria

Hannah (Neural)

 

Alemán - Alemania

Vicki (generativa)

 
 

Vicki (neuronal)

 
 

Vicki (estándar)

Daniel (neuronal)

 

Marlene

Hans

Hindi, India

Kajal (neuronal)

 
 

Aditi

 

Islandés

Dóra

 

Italiano

Bianca (neuronal)

Karl

 

Bianca (estándar)

Adriano

 

Carla

Giorgio

Japonés

Kazuha (neuronal)

 
 

Tomoko (neuronal)

Takumi (neuronal)

 

Mizuki

Takumi (estándar)

Coreano

Seoyeon (Neuronal)

 
 

Seoyeon (estándar)

 

Mandarín

Zhiyu (neuronal)

 
 

Zhiyu (estándar)

 

Noruego

Ida (Neuronal)

 
 

Liv

 

Polaco

Ola (neuronal)

 
 

Ewa

Jacek

 

Maja

Jan

Portugués - Brasil

Vitória (neuronal)

 
 

Vitória (estándar)

Ricardo

 

Camila (neuronal)

Thiago 

 

Camila (estándar)

 

Portugués - Portugal

Inês (neuronal)

 
 

Inês (estándar)

Cristiano

Rumano

Carmen

 

Ruso

Tatyana

 

Español - México

Mia (generativa)

Maxim

 

Mia (neuronal)

Andrés

 

Mia (Estándar)

 

Español, España

Alva (formato largo)

Raúl (formato largo)

 

Lucia (generativa)

Sergio

 

Lucia (neuronal)

Enrique

 

Lucia (estándar)

 

Español - Estados Unidos

Conchita

 
 

Lupe (generativa)

Pedro (neuronal)

 

Lupe (neuronal)

Miguel

 

Lupe (estándar)

 

Sueco

Penélope

 
 

Astrid

 

Turco

Elin (neuronal)

 
 

Filiz

 

Galés

Burcu (neuronal)

 
 

Gwyneth

 
     

 

 

 

 

Sincronización de voz para una experiencia visual mejorada

Amazon Polly facilita la solicitud de un flujo adicional de metadatos que proporcione información sobre cuándo se pronuncian frases, palabras y sonidos concretos. Al usar este flujo de metadatos junto con el flujo de audio de voz sintetizada, ahora puede crear sus aplicaciones con una experiencia visual mejorada, como animación facial sincronizada con voz o resaltado de palabras estilo karaoke.

Consulte la documentación para obtener más información sobre cómo utilizar las marcas de voz. 

Optimice su audio de streaming

Con Amazon Polly, puede transmitir cualquier tipo de información a los usuarios mediante su aplicación en casi tiempo real. Puede elegir entre varias tasas de muestreo para optimizar el ancho de banda y la calidad de audio de su aplicación. Amazon Polly soporta MP3, Vorbis y formatos de transmisión de audio PCM sin procesar.

Frecuencia de muestreo Tamaño de MP3   Tamaño OGG
Tamaño PCM
24,00 kHz Escuchar 19,31 KB 18,11 KB N/D
22,05 kHz Escuchar
19,33 KB 17,62 KB N/D
16,05 kHz Escuchar 16,22 KB 15,48 KB

100,68 KB

8,00 kHz Escuchar 13,26 KB 9,72 KB 50,34 KB

Ajuste el estilo de habla, la frecuencia, el tono y el volumen de la voz

Amazon Polly es compatible con el lenguaje de etiquetado de síntesis del habla (SSML), un lenguaje de etiquetado basado en XML estándar del W3C para aplicaciones de síntesis del habla, y admite etiquetas SSML comunes para frases, énfasis y entonación. Las etiquetas personalizadas de Amazon SSML ofrecen opciones únicas, como la capacidad de hacer que ciertas voces hablen con un estilo de habla de presentador de noticias. Esta flexibilidad le permite crear habla realista que atraerá y retendrá la atención de su público.

Para obtener más información, consulte la documentación de Amazon Polly sobre las etiquetas SSML.

Muestra SSML
Así hablo normalmente. (ninguno)
También puedo hablar en un estilo de presentador de noticias, como si estuviera leyendo un artículo de noticias o dando un resumen informativo rápido. <speak><amazon:domain name="news">También puedo hablar en un estilo de presentador de noticias, como si estuviera leyendo un artículo de noticias o dando un informe rápido.</amazon:domain></speak>
Puedo hablar con un tono agudo o puedo hablar con un tono grave. <speak>Puedo hablar con un <prosody pitch="high">tono agudo</prosody>, o puedo hablar con un<prosody pitch="low">tono grave</prosody>.</speak>
Puedo hablar muy lento o puedo hablar muy rápido. <speak>Puedo hablar <prosody rate="x-slow">muy lento</prosody>, o puedo hablar <prosody rate="x-fast">muy rápido</prosody>.</speak>
También puedo hablar muy alto o puedo hablar muy bajo. <speak>También puedo hablar <prosody volume="x-loud">muy alto</prosody> o puedo hablar <prosody volume="x-soft">muy bajo</prosody>.</speak>
Puedo susurrar. <speak>Le voy a contar un secreto susurrando.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">No soy humano.</prosody></prosody></amazon:effect>¿A que es increíble?</speak>

Estilo de habla presentador de notificas

Amazon Polly se puede utilizar para sintetizar el habla como si fuera hablada por un presentador de televisión o radio. Esta puede ser una excelente manera de leer artículos de noticias o de ofrecer rápidos resúmenes informativos. El estilo de presentador de noticias está disponible actualmente para las voces de Matthew y Joanna en inglés estadounidense (en-US), la de Amy en inglés británico (en-GB) y la de Lupe en español estadounidense (es-US) gracias a al text-to-speech Neural. Escuche una muestra de audio en inglés estadounidense, inglés británico o español estadounidense.

Ajuste la duración máxima del habla

Amazon Polly le permite ajustar automáticamente la velocidad del habla en función del tiempo máximo asignado que defina con una característica llamada prosodia basada en tiempo. Esta función es útil en muchos casos de uso, especialmente en la localización.

Por ejemplo, supongamos que tiene habla en inglés de EE.UU. integrada en un video de formación técnica y desea localizar este video al alemán. Imaginemos que traduce el texto con Amazon Translate y lo reproduce oralmente con Polly. Es fundamental que el habla localizada al alemán se transmita en los marcos del video correspondientes, por lo que el habla en alemán no puede ser más larga que el habla en inglés de EE.UU. Puede usar esta característica para facilitar el proceso de doblaje.

Compatibilidad con plataformas y lenguajes de programación

Amazon Polly admite todos los lenguajes de programación incluidos en el AWS SDK (Java, Node.js, .NET, PHP, Python, Ruby, Go y C++) y el SDK para móviles de AWS (iOS/Android). Polly también soporta una API de HTTP para que pueda implementar su propia capa de acceso.

Síntesis del habla mediante la API, la consola o la línea de comandos

Puede accederse a Amazon Polly a través del API de Polly (y varios SDK de lenguaje específico), la consola de administración de AWS y la interfaz de línea de comandos (CLI) de AWS. Dispone de control absoluto de todas las capacidades de Amazon Polly, tanto si utiliza el servicio a través de la consola como de la API o la CLI.

Lexicones personalizados

Con los lexicones personalizados, o vocabularios, de Amazon Polly puede modificar la pronunciación de determinadas palabras, como nombres de compañías, acrónimos, palabras extranjeras y neologismos (p. ej., “ROTFL”, “C’est la vie” en una voz no francesa). Para personalizar estas pronunciaciones, debe cargar un archivo XML con entradas léxicas. Por ejemplo, puede personalizar la pronunciación de Nguyen proporcionando un fonema con este código XML:

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Brand Voice

Brand Voice es una interacción personalizada en la que trabaja con el equipo Amazon Polly para desarrollar voces de texto a voz neuronal (NTTS) para el uso exclusivo de su empresa. Brand Voice le permite diferenciar sus productos y aplicaciones con una identidad vocal única en una amplia variedad de casos prácticos, incluidas las integraciones de Amazon Connect y Alexa Skills. Trabajamos con usted durante todo el proceso para identificar la persona, identificar un actor o actriz y grabar su voz, y por último crear y entrenar un modelo para producir la voz. A continuación, la voz se pone a disposición en el ID de su cuenta de AWS.

Escuche la voz de marca del Banco Nacional de Australia »

Escuche la voz de marca del Banco Nacional de Nueva Zelanda »

Si está interesado en crear una voz de marca mediante Polly, contacte con su administrador de cuentas de AWS o contacte con nosotros para obtener más información.

Integraciones del centro de contacto

Amazon Connect

Amazon Polly se integra de forma nativa con Amazon Connect, la solución de centro de contacto basada en la nube de AWS que se utiliza para configurar y administrar un centro de contacto de clientes y brindar una interacción confiable con el cliente a cualquier escala. Para obtener más información sobre cómo agregar peticiones de a su sistema de respuesta de voz interactiva conversacional, consulte cómo utilizar las voces de Polly en Amazon Connect.

Genesys Cloud CX

Genesys Cloud CX es una solución de centro de contacto en la nube que unifica las experiencias de los clientes y agentes a través de múltiples canales, como teléfono, mensajes de texto y chat. Puede implementar sus bots de voz con cualquiera de las voces de Polly existentes. Consulte la documentación de Genesys Cloud para obtener más información.

SDK de Amazon Chime

El SDK de Amazon Chime es un conjunto de componentes de comunicaciones en tiempo real que los desarrolladores pueden utilizar para agregar con rapidez llamadas de audio, videollamadas y funciones de pantalla compartida a sus propias aplicaciones de telefonía, web o móviles. El SDK de Amazon Chime admite la integración nativa con Amazon Polly, de modo que facilita a los creadores la creación de aplicaciones que conviertan texto y datos numéricos en habla cotidiana y la reproducción automática del resultado para la persona que llama.

Inteligencia de centro de contacto (CCI) de AWS

Un buen número de socios de la CCI de AWS utilizan Amazon Polly, de modo que puede crear de manera integral agentes virtuales de servicio al cliente de autoservicio, bots de información o bots de aplicaciones. Entre los socios de Amazon Polly se encuentran Genesys, Vonage y Accenture. Para obtener más información sobre los socios, visite CCI de AWS y la página de socios de CCI de AWS.