Java 调用 Polly API 实现文本到语音转换

Amazon Polly 是 AWS 提供的一项强大的文本到语音（Text-to-Speech，TTS）服务，通过 API 可以轻松在应用程序中添加语音功能。本文将详细介绍如何用 Java 调用 Amazon Polly API，包括配置、使用、常见策略以及最佳实践。

什么是 Amazon Polly？

Amazon Polly 是一种将文本转化为自然语音的服务，支持多种语言和语音引擎。它可以为应用程序、网站或其他项目添加语音输出能力，从而提升用户体验和可访问性。

功能和特点

多语言支持：支持包括英语、中文、法语等在内的多种语言。
多种语音引擎：提供传统引擎、神经网络引擎、长篇神经网络引擎和生成式引擎。
实时处理：快速处理文本并生成语音。
SSML 支持：可以使用 SSML（语音合成标记语言）微调语音的语调、速度等。
多种输出格式：支持 MP3、OGG 和 PCM 等格式。

Polly 示例

Java 调用 Polly API 的基本配置

在 Java 项目中使用 Amazon Polly，需要先完成 AWS SDK 的集成和 API 的基本配置。

前提条件

AWS 账号：需要一个有效的 AWS 账号。
AWS 凭证：在 AWS 管理控制台中创建访问密钥和秘密密钥。
Java 环境：确保安装了 JDK（建议使用 Amazon Corretto 或 OpenJDK）。
Maven：用于管理依赖。

Maven 项目配置

在 pom.xml 文件中添加 AWS SDK 依赖：


    software.amazon.awssdk
    polly
    2.20.0


    software.amazon.awssdk
    auth
    2.20.0

初始化 AWS 凭证

将以下代码保存为 credentials 文件，并放置在用户目录下的 .aws 文件夹中：

[default]

aws_access_key_id=你的访问密钥

aws_secret_access_key=你的秘密密钥

Java 调用 Polly API 的代码实现

以下是一个完整的示例代码，用于将字符串转换为语音并保存为 MP3 文件。

示例代码

import software.amazon.awssdk.auth.credentials.ProfileCredentialsProvider;
import software.amazon.awssdk.regions.Region;
import software.amazon.awssdk.services.polly.PollyClient;
import software.amazon.awssdk.services.polly.model.*;
import software.amazon.awssdk.core.sync.RequestBody;
import java.io.FileOutputStream;
import java.io.IOException;

public class PollyDemo {
    public static void main(String[] args) {
        // 初始化 Polly 客户端
        PollyClient pollyClient = PollyClient.builder()
                .region(Region.US_EAST_1) // 替换为你的 AWS 区域
                .credentialsProvider(ProfileCredentialsProvider.create())
                .build();

        // 定义输入文本
        String text = "你好，欢迎使用 Amazon Polly 文本到语音服务。";

        try {
            // 调用 Polly 合成语音
            SynthesizeSpeechRequest synthesizeSpeechRequest = SynthesizeSpeechRequest.builder()
                    .text(text)
                    .voiceId("Zhiyu") // 使用中文语音
                    .outputFormat(OutputFormat.MP3)
                    .build();

            SynthesizeSpeechResponse synthesizeSpeechResponse = pollyClient.synthesizeSpeech(synthesizeSpeechRequest);

            // 保存音频文件
            FileOutputStream outputStream = new FileOutputStream("output.mp3");
            outputStream.write(synthesizeSpeechResponse.audioStream().readAllBytes());
            outputStream.close();

            System.out.println("语音合成成功，文件已保存为 output.mp3");
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            pollyClient.close();
        }
    }
}

运行结果

运行代码后，会在项目目录下生成一个 output.mp3 文件，播放该文件即可听到合成的语音。

Polly API 的高级功能

使用 SSML 微调语音效果

SSML（语音合成标记语言）可以用来控制语音的停顿、语速、语调等。

示例代码

String ssmlText = "欢迎使用 Amazon Polly 服务。";
SynthesizeSpeechRequest request = SynthesizeSpeechRequest.builder()
    .text(ssmlText)
    .textType(TextType.SSML)
    .voiceId("Zhiyu")
    .outputFormat(OutputFormat.MP3)
    .build();