语音系统链路说明
在 AI 电话系统中,音频通常会经过多个模块处理。 一个典型的语音处理链路如下:
8k (SIP / RTP)
↓
16k (模型输入)
↓
LLM
↓
24k (模型输出)
↓
8k (SIP / RTP)
该链路表示:电话网络使用 8k 语音,而 AI 模型通常使用 更高采样率 的音频进行处理,因此系统需要在不同阶段进行 采样率转换(Resample)。
整个流程可以分为三个主要阶段:
- 电话网络接入阶段
- AI 模型处理阶段
- 语音回传阶段
下面对每个阶段进行详细说明。
一、电话网络接入阶段
电话终端(手机、座机或软电话)通过 SIP + RTP 传输语音。
传统电话网络使用的 codec 通常是:
| Codec | 采样率 | 说明 |
|---|---|---|
| G711 μ-law (PCMU) | 8k | 北美常用 |
| G711 A-law (PCMA) | 8k | 欧洲常用 |
| G729 | 8k | 低带宽 |
| GSM | 8k | 老系统 |
因此 RTP 传输的音频通常是:
8k PCM
系统在接收到 RTP 数据后,需要先进行 解码,得到线性 PCM 音频。
二、模型输入阶段
AI 语音模型通常不是基于电话音频训练的,而是基于 宽带语音。
常见的模型输入采样率为:
16kHz
因此系统需要进行一次采样率转换:
8k → 16k
这样可以:
- 提高语音识别准确率
- 提供更多语音频谱信息
- 与模型训练数据保持一致
此阶段的音频会被送入 Realtime LLM / ASR 模型 进行理解与对话处理。
三、模型输出阶段
AI 模型生成回复后,需要通过 TTS(Text To Speech) 合成语音。or 大模型直接输出语音
现代 TTS 系统通常输出:
24kHz PCM
因为更高采样率可以提供:
- 更自然的语音
- 更丰富的高频信息
- 更接近真实人声
因此模型输出通常是:
24k PCM
四、语音回传阶段
由于电话网络仍然是 8k 音频,系统在发送语音回电话端之前,需要进行两步处理:
- 重采样
24k → 8k
- 编码为电话 codec
例如:
PCM → G711
然后通过 RTP 发送回 SIP 终端。
五、完整语音处理流程
将所有步骤展开,完整流程如下:
电话终端
↓
G711 RTP
↓
8k PCM
↓
Media Processor
↓
Resample
↓
16k PCM
↓
Realtime LLM / (ASR nlp TTS)
↓
24k PCM
↓
Resample
↓
8k PCM
↓
G711 Encode
↓
RTP
↓
电话终端
这是目前 AI 电话系统最常见的架构。
六、为什么必须做采样率转换
不同系统使用不同采样率:
| 系统 | 采样率 |
|---|---|
| 电话网络 | 8k |
| ASR / 语音模型 | 16k |
| TTS | 24k |
因此必须进行:
8k → 16k
24k → 8k
这种转换在语音系统中是非常常见的处理流程。
七、是否可以避免多次重采样
理论上可以。
如果 SIP 设备支持 宽带 codec,例如:
G722 (16k)
链路可以变为:
16k SIP
↓
16k LLM
↓
24k TTS
↓
16k SIP
这样只需要一次转换:
24k → 16k
但由于大量电话设备仍然使用 G711 (8k),因此目前大多数 AI 电话系统仍然采用 8k → 16k → 24k → 8k 的架构。
