API de uso sencillo
Amazon Polly proporciona una API que le permite integrar la síntesis del habla en su aplicación de manera rápida. Simplemente envía el texto que desea convertir en habla a la API de Amazon Polly, y Amazon Polly le envía al instante la transmisión de audio a su aplicación, para que pueda comenzar a transmitirla directamente o almacenarla en un formato de archivo de audio estándar, como MP3.
Frecuencia de muestreo | Código de muestra |
"Hi. My name is Joanna." | from boto3 import client polly = client("polly", region_name="us-east-1") response = polly.synthesize_speech( Text="Hi. My name is Joanna.", OutputFormat="mp3", VoiceId="Joanna") |
Amplia selección de voces e idiomas
Amazon Polly incluye decenas de voces realistas y es compatible con varios idiomas, de manera que puede seleccionar la voz ideal y distribuir sus aplicaciones con voz en numerosos países. Además de las voces de texto a voz neuronal (NTTS) y estándar, Amazon Polly ofrece ahora voces de formato largo y generativas que mejoran la calidad del habla para conseguir voces más naturales y parecidas a las humanas.
Ruth, Matthew, Amy, Joanna, Danielle, Stephen y Olivia también están disponibles en una variante generativa.
Sincronización de voz para una experiencia visual mejorada
Amazon Polly facilita la solicitud de un flujo adicional de metadatos que proporcione información sobre cuándo se pronuncian frases, palabras y sonidos concretos. Al usar este flujo de metadatos junto con el flujo de audio de voz sintetizada, ahora puede crear sus aplicaciones con una experiencia visual mejorada, como animación facial sincronizada con voz o resaltado de palabras estilo karaoke.
Consulte la documentación para obtener más información sobre cómo utilizar las marcas de voz.
Optimice su audio de streaming
Con Amazon Polly, puede transmitir cualquier tipo de información a los usuarios mediante su aplicación en casi tiempo real. Puede elegir entre varias tasas de muestreo para optimizar el ancho de banda y la calidad de audio de su aplicación. Amazon Polly soporta MP3, Vorbis y formatos de transmisión de audio PCM sin procesar.
Frecuencia de muestreo | Tamaño de MP3 | Tamaño OGG |
Tamaño PCM |
24,00 kHz Escuchar | 19,31 KB | 18,11 KB | N/D |
22,05 kHz Escuchar |
19,33 KB | 17,62 KB | N/D |
16,05 kHz Escuchar | 16,22 KB | 15,48 KB | 100,68 KB |
8,00 kHz Escuchar | 13,26 KB | 9,72 KB | 50,34 KB |
Ajuste el estilo de habla, la frecuencia, el tono y el volumen de la voz
Amazon Polly es compatible con el lenguaje de etiquetado de síntesis del habla (SSML), un lenguaje de etiquetado basado en XML estándar del W3C para aplicaciones de síntesis del habla, y admite etiquetas SSML comunes para frases, énfasis y entonación. Las etiquetas personalizadas de Amazon SSML ofrecen opciones únicas, como la capacidad de hacer que ciertas voces hablen con un estilo de habla de presentador de noticias. Esta flexibilidad le permite crear habla realista que atraerá y retendrá la atención de su público.
Para obtener más información, consulte la documentación de Amazon Polly sobre las etiquetas SSML.
Muestra | SSML |
Así hablo normalmente. | (ninguno) |
También puedo hablar en un estilo de presentador de noticias, como si estuviera leyendo un artículo de noticias o dando un resumen informativo rápido. | <speak><amazon:domain name="news">También puedo hablar en un estilo de presentador de noticias, como si estuviera leyendo un artículo de noticias o dando un informe rápido.</amazon:domain></speak> |
Puedo hablar con un tono agudo o puedo hablar con un tono grave. | <speak>Puedo hablar con un <prosody pitch="high">tono agudo</prosody>, o puedo hablar con un<prosody pitch="low">tono grave</prosody>.</speak> |
Puedo hablar muy lento o puedo hablar muy rápido. | <speak>Puedo hablar <prosody rate="x-slow">muy lento</prosody>, o puedo hablar <prosody rate="x-fast">muy rápido</prosody>.</speak> |
También puedo hablar muy alto o puedo hablar muy bajo. | <speak>También puedo hablar <prosody volume="x-loud">muy alto</prosody> o puedo hablar <prosody volume="x-soft">muy bajo</prosody>.</speak> |
Puedo susurrar. | <speak>Le voy a contar un secreto susurrando.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">No soy humano.</prosody></prosody></amazon:effect>¿A que es increíble?</speak> |
Estilo de habla presentador de notificas
Amazon Polly se puede utilizar para sintetizar el habla como si fuera hablada por un presentador de televisión o radio. Esta puede ser una excelente manera de leer artículos de noticias o de ofrecer rápidos resúmenes informativos. El estilo de presentador de noticias está disponible actualmente para las voces de Matthew y Joanna en inglés estadounidense (en-US), la de Amy en inglés británico (en-GB) y la de Lupe en español estadounidense (es-US) gracias a al text-to-speech Neural. Escuche una muestra de audio en inglés estadounidense, inglés británico o español estadounidense.
Ajuste la duración máxima del habla
Amazon Polly le permite ajustar automáticamente la velocidad del habla en función del tiempo máximo asignado que defina con una característica llamada prosodia basada en tiempo. Esta función es útil en muchos casos de uso, especialmente en la localización.
Por ejemplo, supongamos que tiene habla en inglés de EE.UU. integrada en un video de formación técnica y desea localizar este video al alemán. Imaginemos que traduce el texto con Amazon Translate y lo reproduce oralmente con Polly. Es fundamental que el habla localizada al alemán se transmita en los marcos del video correspondientes, por lo que el habla en alemán no puede ser más larga que el habla en inglés de EE.UU. Puede usar esta característica para facilitar el proceso de doblaje.
Compatibilidad con plataformas y lenguajes de programación
Amazon Polly admite todos los lenguajes de programación incluidos en el AWS SDK (Java, Node.js, .NET, PHP, Python, Ruby, Go y C++) y el SDK para móviles de AWS (iOS/Android). Polly también soporta una API de HTTP para que pueda implementar su propia capa de acceso.
Síntesis del habla mediante la API, la consola o la línea de comandos
Puede accederse a Amazon Polly a través del API de Polly (y varios SDK de lenguaje específico), la consola de administración de AWS y la interfaz de línea de comandos (CLI) de AWS. Dispone de control absoluto de todas las capacidades de Amazon Polly, tanto si utiliza el servicio a través de la consola como de la API o la CLI.
Lexicones personalizados
Con los lexicones personalizados, o vocabularios, de Amazon Polly puede modificar la pronunciación de determinadas palabras, como nombres de compañías, acrónimos, palabras extranjeras y neologismos (p. ej., “ROTFL”, “C’est la vie” en una voz no francesa). Para personalizar estas pronunciaciones, debe cargar un archivo XML con entradas léxicas. Por ejemplo, puede personalizar la pronunciación de Nguyen proporcionando un fonema con este código XML:
<lexeme>
<grapheme>Nguyen</grapheme>
<grapheme>nguyen</grapheme>
<grapheme>NGUYEN</grapheme>
<phoneme>"nu.jEn'</phoneme>
</lexeme>
Brand Voice
Brand Voice es una interacción personalizada en la que trabaja con el equipo Amazon Polly para desarrollar voces de texto a voz neuronal (NTTS) para el uso exclusivo de su empresa. Brand Voice le permite diferenciar sus productos y aplicaciones con una identidad vocal única en una amplia variedad de casos prácticos, incluidas las integraciones de Amazon Connect y Alexa Skills. Trabajamos con usted durante todo el proceso para identificar la persona, identificar un actor o actriz y grabar su voz, y por último crear y entrenar un modelo para producir la voz. A continuación, la voz se pone a disposición en el ID de su cuenta de AWS.
Escuche la voz de marca del Banco Nacional de Australia »
Escuche la voz de marca del Banco Nacional de Nueva Zelanda »
Si está interesado en crear una voz de marca mediante Polly, contacte con su administrador de cuentas de AWS o contacte con nosotros para obtener más información.
Integraciones del centro de contacto
Amazon Polly se integra de forma nativa con Amazon Connect, la solución de centro de contacto basada en la nube de AWS que se utiliza para configurar y administrar un centro de contacto de clientes y brindar una interacción confiable con el cliente a cualquier escala. Para obtener más información sobre cómo agregar mensajes de texto a voz a su sistema de respuesta de voz interactiva conversacional, consulte cómo utilizar las voces de Polly en Amazon Connect.
Genesys Cloud CX es una solución de centro de contacto en la nube que unifica las experiencias de los clientes y agentes a través de múltiples canales, como teléfono, mensajes de texto y chat. Puede implementar sus bots de voz con cualquiera de las voces de Polly existentes. Consulte la documentación de Genesys Cloud para obtener más información.
El SDK de Amazon Chime es un conjunto de componentes de comunicaciones en tiempo real que los desarrolladores pueden utilizar para agregar con rapidez llamadas de audio, videollamadas y funciones de pantalla compartida a sus propias aplicaciones de telefonía, web o móviles. El SDK de Amazon Chime admite la integración nativa con Amazon Polly, de modo que facilita a los creadores la creación de aplicaciones que conviertan texto y datos numéricos en habla cotidiana y la reproducción automática del resultado para la persona que llama.
Un buen número de socios de la CCI de AWS utilizan Amazon Polly, de modo que puede crear de manera integral agentes virtuales de servicio al cliente de autoservicio, bots de información o bots de aplicaciones. Entre los socios de Amazon Polly se encuentran Genesys, Vonage y Accenture. Para obtener más información sobre los socios, visite CCI de AWS y la página de socios de CCI de AWS.
Más información sobre los precios de Amazon Polly