Azure 的文本转语音服务

Azure 的文本转语音（Text to Speech）服务是 Microsoft Azure 认知服务（Cognitive Services）中的一部分，隶属于 Azure Speech 服务。它可以将文本内容转换为自然、接近人类的语音，适用于各种应用场景，如语音助手、视频配音、无障碍阅读等。

主要特点

高自然度的语音（Neural TTS）

基于深度神经网络的语音合成技术（Neural TTS），支持 逼真自然的语音效果。
提供了超过 400 多种语音、140 多种语言和方言。
支持 语音风格（Style） 和 情感（Emotion） 控制，例如新闻、客服、播报、欢快、悲伤等语气。

自定义语音（Custom Neural Voice）

可上传自己录制的语音素材，训练专属的 AI 声音。
适用于品牌化语音、虚拟人物等场景。
注意：必须通过 Microsoft 的审批，以防止滥用（如伪造语音）。

SSML 支持（语音合成标记语言）

支持 SSML 标准，可对语音的 语速、语调、停顿、音量、发音方式 等进行细致控制。

语音合成输出格式

输出格式包括 PCM、MP3、OGG、WAV 等，适配各种平台和设备。
可用于实时播放，也可保存为音频文件。

开发接入方式

1. REST API

发送 HTTP 请求即可实现语音合成，适合跨平台开发。

2. SDK 支持（Azure Speech SDK）

提供 C#, Java, Python, JavaScript 等多语言 SDK。
支持流式合成、语音事件监听、播放控制等功能。

3. CLI 和门户测试

可以在 Azure Portal 中在线测试语音合成。
也可以用 Azure CLI 管理语音资源。
计费方式

定价模型分为：
标准语音（Standard TTS）：按字符计费，较便宜。
神经语音（Neural TTS）：语音更自然，价格略高。
自定义神经语音（Custom Neural Voice）：需审批，训练和使用费用分开计费。

使用方法

✅ 使用场景举例

场景	描述
视频配音	把字幕或剧本转成高质量语音
虚拟客服	自动语音应答，结合语音识别
无障碍辅助阅读	为视力障碍者朗读网页或文档
教育 & 培训	合成教学内容
物联网设备语音播报	如语音闹钟、导航仪、智能音箱

安装官方sdk

Microsoft.CognitiveServices.Speech

示例代码（C#）

var config = SpeechConfig.FromSubscription("YourAzureKey", "YourRegion");
config.SpeechSynthesisVoiceName = "zh-CN-XiaoxiaoNeural";

using var synthesizer = new SpeechSynthesizer(config);
var result = await synthesizer.SpeakTextAsync("你好，欢迎使用 Azure 文本转语音服务！");

SSML

test: https://www.text-to-speech.cn/

Google 的text to speech 服务

Google 的 Text-to-Speech（文本转语音）服务是 Google Cloud Text-to-Speech API，是 Google Cloud Platform（GCP）提供的 AI 服务之一。它可以将文字内容合成成自然语音，广泛用于语音助手、IVR 系统、视频配音、教育、可访问性等场景。

核心特点

自然逼真的声音（WaveNet 模型）

使用 DeepMind 提出的 WaveNet 模型，语音自然度高于传统 TTS 技术。
支持 超过 400 多种声音，50 多种语言和变体（包括中、英、日、韩、西班牙等）。
可选择 Standard（标准）和 WaveNet（高质量）语音：
- Standard：传统的语音模型，价格低。
- WaveNet：高自然度语音，语调、节奏更接近人类。

灵活的语音控制

支持 SSML（Speech Synthesis Markup Language），控制语音速度、音量、音高、停顿、发音方式等。
可选择不同的语音角色、性别、口音。

实时与离线支持

支持将文本实时合成为音频流，或直接导出为 .mp3, .ogg, .wav 等格式音频文件。

语音调优功能

Speaking Rate（语速）
Pitch（音高）
Volume Gain（音量增益）
Audio Profile（设备优化）：如电话、扬声器、耳机、车载等设备优化播放效果。

接入方式

1. REST API

通过 HTTPS 请求调用，支持 JSON 请求体和 Base64 编码的音频响应。

2. Google Cloud Client Libraries

提供官方 SDK（支持 Node.js、Python、Java、C#、Go 等），可快速集成。

3. Cloud Console 在线测试

在 GCP 控制台可直接测试不同语言和声音的效果。
定价（2025 ）

|类型|计费单位|价格（美元）/ 百万字符| |—|—|—| |Standard TTS|每百万字符|$4.00 起| |WaveNet TTS|每百万字符|$16.00 起|

使用方法

使用场景

from google.cloud import texttospeech

client = texttospeech.TextToSpeechClient()

input_text = texttospeech.SynthesisInput(text="你好，欢迎使用 Google 文字转语音服务。")

voice = texttospeech.VoiceSelectionParams(
    language_code="zh-CN", name="zh-CN-Wavenet-A"
)

audio_config = texttospeech.AudioConfig(
    audio_encoding=texttospeech.AudioEncoding.MP3
)

response = client.synthesize_speech(
    input=input_text, voice=voice, audio_config=audio_config
)

with open("output.mp3", "wb") as out:
    out.write(response.audio_content)

FAQ

比较一下google，azure的服务

🔍 Azure vs Google Cloud 对比总表（2025 年版）

比较项 ✅	Azure	Google Cloud
是否支持 C# 调用 API	✔️ 官方提供 Azure Speech SDK for C#	✔️ 提供 REST API，可通过 gRPC + C# 调用
上手难易程度	⭐⭐ 较易，Portal 配置 + SDK 支持中文文档；免费资源需升级订阅才能继续使用	⭐⭐⭐ 更简洁，免费层无需升级订阅，API 密钥开箱即用，开发者体验好
是否支持文字转语音（TTS）	✔️ 支持 Neural/Standard/Custom Neural，多语种、多风格	✔️ 支持 Standard/WaveNet 多语种、多口音
是否支持语音转文字（STT）/字幕生成	✔️ 支持语音识别（含时间戳），可生成字幕（SRT/VTT）	✔️ 支持语音识别，返回每词时间戳，易于生成字幕
是否有长期免费额度？	✔️ 有，每月 5,000,000 字符 TTS；STT 每月 5 小时	✔️ 有，每月 1,000,000 字符 TTS（WaveNet + Standard）；STT 每月 60 分钟
免费期多久？	30 天 $200 美元试用 + 部分服务“永久免费”层，但需升级订阅才能继续用	90 天 $300 美元试用 + “长期免费层”无需升级订阅也能用
收费账号计费方式	✅ 3 类计费：Standard / Neural / Custom Neural（按字符数计费）	✅ 2 类计费：Standard / WaveNet（按字符数计费）
计费标准（2025）	- Standard：$4 / 百万字符- Neural：$16 / 百万字符- Custom Neural：更高，需申请	- Standard：$4 / 百万字符- WaveNet：$16 / 百万字符

是否支持训练个人声音

Google Cloud Text-to-Speech 不支持公众用户自定义训练个人声音

也就是说，你不能像 Azure 的 Custom Neural Voice 那样，用自己的声音训练出一个专属语音模型。

Google 的限制原因：

安全与伦理：语音克隆存在滥用风险（如假新闻、诈骗等），Google 对自定义声音保持非常严格的限制。
WaveNet 模型由 DeepMind 提供，不开放训练接口，仅允许使用其预训练的声音模型。
企业级定制服务（如通过 Google Cloud 与 Google DeepMind 合作的项目）可能支持定制声音，但这通常需要：
- 高额度的付费；
- 法律合规审核；
- 与 Google 团队签署特殊协议；
- 并非对开发者或中小企业开放。替代方案如果你确实需要训练属于你自己的语音克隆模型，以下是一些可选平台：

有没有生成字幕的功能

是的，Google Cloud 和 Azure 都提供了 语音识别（Speech to Text） 服务，可以将语音内容识别为文字，从而生成字幕（transcript）。不过要注意：

✅ “文本转语音（TTS）” 是生成配音，
✅ “语音转文本（STT）” 才是生成字幕。

你需要的是 Speech-to-Text（STT）功能 来 生成字幕。

1. Google Cloud Speech-to-Text

🎯 支持功能：

实时或离线音频转写
返回每个字词的时间戳（用于字幕）
支持多语言、多口音（如普通话、粤语、英语、美音、英音等）
支持自动断句、自动标点、分段识别

示例：生成字幕 JSON（含时间戳）

{
  "alternatives": [
    {
      "transcript": "你好，欢迎来到字幕测试。",
      "words": [
        {
          "startTime": "0.500s",
          "endTime": "1.000s",
          "word": "你好"
        },
        {
          "startTime": "1.000s",
          "endTime": "2.500s",
          "word": "欢迎"
        }
      ]
    }
  ]
}

你可以将其导出为 SRT、VTT 或 ASS 字幕文件。

Azure Speech-to-Text

🎯 支持功能：

离线音频识别或实时流识别
支持 词级别时间戳
支持 自动分段输出（适合字幕）
支持多语种、多口音
提供 Conversation Transcription（对话转录） 和 字幕格式导出

🧪 返回结果示例（可转 SRT）：

Azure STT 返回的是 JSON 结构，你可以提取以下字段来生成字幕：

{
  "DisplayText": "你好，欢迎使用 Azure。",
  "Offset": 3000000,
  "Duration": 12000000
}

Offset 是开始时间（单位 100ns）
Duration 是持续时间

可以自行转成标准 SRT 格式。

微软TTS对于免费用户的限制

微软 Azure 的文本转语音（TTS）免费用户 在使用时有长度限制和配额限制，具体取决于你使用的是 免费试用订阅（Free Tier） 还是 始终免费（Always Free） 服务。

10 分钟限制下的字数估算

考虑到语速影响，下表再砍掉25%，保守一点。

| 语音类型 | 语言 | 字数（10分钟） | 字符数（Azure计费） | | ——– | —— | ———— | —————- | | 神经语音 | 英文 | ~1,500 词 | ~30,000 字符 | | 神经语音 | 中文 | ~3,000 字 | ~30,000 字符 | | 标准语音 | 英文 | ~2,000 词 | ~20,000 字符 | | 标准语音 | 中文 | ~4,000 字 | ~20,000 字符 |

10分钟的讲话，英文，中文平均各讲多少个字符，多少个单词，多少句子？

英文（English）

平均语速：130–160 单词/分钟（一般演讲）
10分钟总词数：约 1,300 – 1,600 words
平均句长：约 15–20 个词/句
句子数：约 80 – 110 句
平均字符数：每单词约 5 个字母 + 空格，粗略计算每词 6 字符
总字符数：约 7,800 – 9,600 字符（包括空格）

中文（Chinese）

平均语速：260–300 字/分钟（含停顿）
10分钟总字数：约 2,600 – 3,000 汉字
平均句长：约 10–15 字/句
句子数：约 200 – 300 句
总字符数：与总字数基本一致：约 2,600 – 3,000 字符 10分钟的讲话，总结对比表

项目	英文估算	中文估算
单词/汉字数	1,300 – 1,600 words	2,600 – 3,000 汉字
句子数	80 – 110	200 – 300
字符数	7,800 – 9,600 chars	2,600 – 3,000 chars

怎么知道用的是标准语音，还是神经语音

如何查看剩余免费额度？

你可以在 Azure 门户 查看使用情况：

登录 Azure 门户
进入 “Cognitive Services” → 你的 Speech 资源
在 “Metrics”（指标） 或 “Quotas”（配额） 查看已用字符数
怎么本地生成字幕？

如果你是先从文本转语音（TTS）生成配音，然后想反向生成字幕（例如给配音生成时间轴）

这可以通过以下方式实现：

配音文本已经有结构（每句配音对一个字幕）
用 FFmpeg 或 TTS 的时长估算每段语音的时间（或用语音对齐工具如 Gentle、aeneas）
生成 SRT/VTT 格式字幕

实现步骤详解：

1. 你已经有配音文本结构 即：你不是从人说话中提取文字（STT），而是你一开始就有：

第1句：你好，欢迎来到我们的频道。
第2句：今天我们讲讲冷知识：猫为什么晚上很活跃？
第3句：快来猜猜正确答案是哪一个吧！

这些是你传给 TTS 的原始文本，每一段对应一段配音。你只需要为每句语音生成正确的“起止时间” → 自动生成字幕。

2. 获取每段语音的起止时间（时间轴）的方法 你需要知道每句配音在最终合成音频中的 起始时间 + 时长。

方式 A：估算（TTS 合成后估算时间）

使用 Azure 或 Google TTS 的 合成结果时长（通常可以获取总音频时长）
每句语音可以按字数或句子比例估算时间（如总 3 句，合成音频 9.6 秒）
```
每句配音所占时间 ≈ 总时长 ×（该句字符数 / 总字符数）
```
✅ 优点：实现简单
⚠️ 缺点：精度不高，特别是长句、短句混排时

方式 B：使用 自动语音对齐工具（推荐） 这些工具可以将音频与原始文本“对齐”，自动输出字幕时间戳：

| 工具 | 说明 | | ———- | ———————————- | | Gentle | 基于 Kaldi 的自动对齐工具（英文效果极佳） | | aeneas | 多语言支持的强大对齐工具，支持 SRT/VTT 导出 | | MFA | Montreal Forced Aligner，适用于多种语音学任务 | 你只需要提供：

配音音频（mp3/wav）
原始文本（utf-8纯文本）
它就会输出 .srt 字幕文件，每句话时间精准同步。

3. 生成标准字幕格式（.srt / .vtt） 工具会自动生成类似这样的内容：

1
00:00:00,000 --> 00:00:02,500
你好，欢迎来到我们的频道。

2
00:00:02,501 --> 00:00:06,000
今天我们讲讲冷知识：猫为什么晚上很活跃？

3
00:00:06,001 --> 00:00:08,000
快来猜猜正确答案是哪一个吧！

示例流程（使用 aeneas）

安装： pip install aeneas
准备音频 + 文本 your_audio.mp3 your_text.txt
执行命令（生成 SRT） ```bash python -m aeneas.tools.execute_task
your_audio.mp3
your_text.txt
“task_language=zh|is_text_type=plain|os_task_file_format=srt”
your_output.srt

```

结论：推荐方案总结

| 方法 | 精度 | 难度 | 适用场景 | | ——— | —– | — | ———– | | 字符比例估算 | 低 | ⭐ | 快速估计，无需对齐工具 | | aeneas | 高 | ⭐⭐ | 多语言视频生成 | | Gentle | 高（英文） | ⭐⭐ | 英文配音视频 | | Azure STT | 中 | ⭐⭐ | 有语音无文字的反向识别 |

Azure 常用视频配音语音清单（Neural TTS）

Microsoft TTS Demo 页面 text-to-speech.cn

| VoiceName | 性别 | 区域 | 风格支持 | 推荐用途 | | ——————— | — | — | ——————- | ————— | | en-US-GuyNeural | 男 | 美音 | newscast, assistant | 稳重专业，适合讲解、历史、逻辑 | | en-US-DavisNeural | 男 | 美音 | assistant, chat | 声音柔和但有沉稳感，适合教学类 | | en-GB-RyanNeural | 男 | 英音 | newscast | 英伦口音教授风，适合纪录片风格 | | en-US-TonyNeural | 男 | 美音 | assistant | 成熟感中带亲和，类似友好导师 | | en-US-BrandonNeural | 男 | 美音 | default | 有点年长感，适合慢节奏讲述类 |

英文少年 / 10–15 岁男孩风格

注意：Azure 没有标明“age=child”的官方分类，但某些语音接近儿童或少年角色，以下是实测相似度较高的：

VoiceName	性别	区域	风格支持	推荐用途
`en-US-AIGenerate1Neural`	男	美音	chat	微微稚嫩，像青少年，适合童声问答类
`en-US-AndrewNeural`	男	美音	assistant	偏少年感，有青春但不幼稚
en-US-BrianNeural	男	美音	newscast	少年广播风，有“好学生”感觉
`en-US-EricNeural`	男	美音	default	声线较细，适合青少年角色
tony		美音	==cheerful==, excited, hopeful
jason		美音	cheerful, excited, hopeful

🎯 适合做“童声解说”、“青少年答题”、“趣味讲堂”、“迷你剧场”等内容。

适合讲历史故事的微软 TTS 声音推荐

中文（普通话）

云健（中）↔ Davis（英）（权威感配对）
晓悠（中）↔ Jenny（英）（学者型配对）

英文（美式英语）

名称	样式支持	特点分析	适合风格
en-US-GuyNeural	支持“narration-professional”叙述样式	男声，沉稳低音，有历史纪录片旁白感	史诗/战争类历史故事
en-US-JennyNeural	支持“narration-relaxed”样式女/中年	女声，自然、亲切，语音细腻，适合轻柔的历史叙述。中性知性声线，语速适中，专业名词发音清晰	女性视角、温情历史。文化比较、艺术史
en-US-AriaNeural	多种情感样式（含narration）女/青年	女声，中性偏亲切，语速适中，表达清晰。优雅的BBC播音腔，元音饱满，适合英式历史叙事\|\|	通用历史解说。欧洲史、古典文学
en-US-DavisNeural	男/中年标准男声，音色厚实，清晰有力	虽然无专属narration样式，但基础素质优秀。美式新闻主播声线，权威感强，重音处理突出	正史讲解、课堂内容。战争史、政治史
Amber (Female)	女/青年	柔和亲切，带故事讲述的呼吸感	民间传说、人物传记
Andrew (Male)	男/老年	沙哑低沉的”老教授”音色，适合怀旧叙事	口述史、回忆录

🔍 建议搭配使用的样式标签（Style）

微软 TTS 支持 Style + Role 标签（SSML语法），建议为历史故事配音时使用：

style="narration" （叙述类）
style="documentary-narration" （纪录片叙述，英文可用）
style="newscast" （官方播报感，适合正式历史事件）
style="affectionate" / style="calm"（柔情版本，适合回忆体）
我的选择

英文男

语音名称	历史故事	脑洞故事	儿童故事	爱情故事	声音特点 & 适用理由
GuyNeural	friendly	friendly	chat, cheerful, polite	hopeful, friendly speed 0.9 pitch -5	语音自然亲切，情感丰富，故事感强，适合多种故事类型。温暖细腻型（适合温馨浪漫）
DavisNeural	Default	chat,	chat, cheerful, ==friendly==		稳重温和，细腻感情，适合悬疑、细节丰富的历史及脑洞故事。深情成熟型（适合催泪或深刻情感）
Davis Multi	Default, ==Funny==, ==Empathetic king==	==empathetic==		Empathetic
Lewis multi	default				知识性，专业权威
Christopher	default				知识性，专业权威
JasonNeural		friendly	chat, cheerful, excited	friendly,	年轻活泼，适合轻松幽默的脑洞故事和儿童故事，历史故事较轻松。轻松甜蜜型（适合青春喜剧爱情）
Tony	friendly, ==hopeful读中文名字==	Default, friendly	chat, polite, cheerful, excited	hopeful,	成熟沉稳，有磁性，适合悬疑、权威感强的历史和脑洞故事。戏剧浓烈型（适合跌宕爱情）
Andrew	Default读中文名字	==Default==		default	有磁性，心灵鸡汤
Andrew Multi	Default	Empathetic		Empathetic speed 0.9
Derek mullti	default	Default, Empathetic		empathetic	偏正统, 自信，知识性
brandon				default
steffan multi				defaut, speed 1.1	家常
brian				default, speed 1.1	年轻有感情，适合心灵鸡汤
kai		conversation speed 1.1		default conversation	家常
samuel multi	default	default			微磁性
ai man	speed 1.15 1.5

GuyNeural 是最“全能”的声音，适合故事感强、情感丰富的讲述。
DavisNeural 偏温情悬疑和细腻叙事。
JasonNeural 活力轻松，适合幽默风格。
TonyNeural 稳重成熟，适合庄重权威类内容。
英文女

语音名称	爱情故事	纯情温柔	儿童故事	历史故事	技术	备注
AriaNeural	empathetic, polite, hopeful	Whisper speed -15	chat, cheerful, polite, narration - professional, newcast casual, friendly speed 0.9 pitch -5 emotion 1.5	empathetic		明亮富有感情，适合情感丰富的故事。声音略尖
JessaNeural	empathetic, polite, sad		chat, cheerful			温柔细腻，适合浪漫和温馨故事
JennyNeural		Whisper speed -15	chat, ==cheerful== speed 0.9 pitch -5 emotion 1.5	chat, pitch -5	chat pitch +5	亲切自然，情感均衡，适合大众化故事
CoraNeural	default 2 strong		chat, cheerful			柔和亲和，适合儿童故事和温情爱情故事
Cora Multi				default, pitch -5
JaneNeural	empathetic, polite, hopeful		chat, cheerful, ==friendly==			语音清晰明亮，适合温情和积极向上的故事
SaraNeural	==friendly==		==friendly, cheerful==, chat, speed 1.15			温暖柔和，情感细腻，适合细腻爱情故事和儿童故事
phoebe multi	==Empathetic== ==1.5 strong==
Serena Multi中性	Empathetic 1.5 strong
Nancy Mullti			Funny
Sonia英文（英音）	chat			speed1.1		高级感、纪录片风格
serena						更自然，自信

中文男

语音名称	历史故事	脑洞故事	儿童故事	爱情故事	声音特点与适用理由
YunfengNeural	Default, ==Serious==	Default, cheerful,	chat, cheerful		沉稳亲和，情感丰富，适合多场景多风格。
YunjianNeural	newscast, polite, empathetic, ==speed 1.25 narration== ==帝王第一人称，感情强度最大, documentary narrator, speed 1.15==	Default, ==Narration - relaxed==	chat, cheerful	sad	音质自然清晰，适合多场景情感表达。成熟浪漫型（适合深情旁白）
YunzeNeural	newscast, polite, empathetic ==old senior, 感情强度最大, narrator/calm, speed -5 关羽==	Default ==Calm==	chat, cheerful	sad	声音温暖，富感染力，适合多种故事风格。沉静感伤型（适合遗憾/回忆类）
YunyangNeural	newscast, polite ==narrator==		chat, cheerful		语调自然流畅，适合轻松和正式场景。阳光温暖型（适合甜蜜浪漫），正式，播音腔，有磁性，不够生活化
YunyeNeural	newscast, polite ==calm/serious==	==cheerful==,	cheerful	sad	音质柔和亲切，适合温情和儿童故事。轻松治愈型（适合温馨日常）.更适合解说
YunxiNeural	newscast, Narration - relaxed	==Narration - relaxed,==	cheerful	Narration-relax,speed 1.1	声音富有表现力，适合多样情感需求。青春纯爱型（适合校园/初恋）。过于大陆货

简要说明：

YunfengNeural：全能型，声音沉稳自然，情感丰富，适合所有三类故事。
KangkangNeural：声音更年轻活泼，脑洞和儿童故事表现佳，历史故事适合轻松叙述。
HuihuiNeural：声音温和，适合细腻和情感丰富的历史与儿童故事。
HaoranNeural：较沉稳有权威感，适合严肃历史和悬疑脑洞，儿童故事使用较活泼styles。

推荐Styles简介：

chat：口语化，亲切自然，适合讲故事。
cheerful：欢快明朗，适合儿童和轻松故事。
newscast：正式、权威，适合历史故事。
empathetic：富有情感，适合情感细腻的故事。
polite：礼貌温和，适合温馨故事和儿童故事。

中文女

语音名称	讲爱情故事	纯情温柔	儿童故事	历史故事	声音特点与适用理由
XiaoxiaoNeural	polite, hopeful	==Whisper, speed 0.8 (-20)==	==default==,chat, cheerful, polite		甜美亲切，声音年轻，适合甜美温馨的爱情及儿童故事。
xiaoxiao multi	==empathetic 1.5 speed 1.2==
XiaomoNeural	empathetic, polite, hopeful		default, cheerful, polite	newscast, calm,	声音柔和细腻，情感丰富，适合温馨浪漫和儿童故事。
XiaoyouNeural	empathetic, polite		chat, cheerful		童声，亲切自然，适合大众化爱情和儿童故事。
xiaoshuang			chat		童声
xiaoyan			default		生活化
xiaoqiu				default	中年女性，略严肃
xiaozhen				皇家 default ==serious==, pitch -8 无奈 ==sad== pitch -5
xiaoyi			==cheerful==

References

Google Speech-to-Text Azure Speech to text

Azure 的文本转语音服务

主要特点

开发接入方式

1. REST API

2. SDK 支持（Azure Speech SDK）

3. CLI 和门户测试

计费方式

使用方法

SSML

Google 的text to speech 服务

核心特点

接入方式

1. REST API

2. Google Cloud Client Libraries

3. Cloud Console 在线测试

定价（2025 ）

使用方法

FAQ

比较一下google，azure的服务

是否支持训练个人声音

Google Cloud Text-to-Speech 不支持公众用户自定义训练个人声音

推荐方案

是否有免费额度

免费额度一览

有没有生成字幕的功能

1. Google Cloud Speech-to-Text

Azure Speech-to-Text

微软TTS对于免费用户的限制

10 分钟限制下的字数估算

10分钟的讲话，英文，中文平均各讲多少个字符，多少个单词，多少句子？

如何查看剩余免费额度？

怎么本地生成字幕？

实现步骤详解：

示例流程（使用 aeneas）

结论：推荐方案总结

Azure 常用视频配音语音清单（Neural TTS）

英文少年 / 10–15 岁男孩风格

适合讲历史故事的微软 TTS 声音推荐

中文（普通话）

英文（美式英语）

🔍 建议搭配使用的样式标签（Style）

我的选择

英文男

英文女

中文男

中文女

References

FEATURED TAGS