语音系统链路说明

在 AI 电话系统中，音频通常会经过多个模块处理。一个典型的语音处理链路如下：

8k (SIP / RTP)
↓
16k (模型输入)
↓
LLM
↓
24k (模型输出)
↓
8k (SIP / RTP)

该链路表示：电话网络使用 8k 语音，而 AI 模型通常使用 更高采样率 的音频进行处理，因此系统需要在不同阶段进行 采样率转换（Resample）。

整个流程可以分为三个主要阶段：

电话网络接入阶段
AI 模型处理阶段
语音回传阶段

下面对每个阶段进行详细说明。

一、电话网络接入阶段

电话终端（手机、座机或软电话）通过 SIP + RTP 传输语音。

传统电话网络使用的 codec 通常是：

Codec	采样率	说明
G711 μ-law (PCMU)	8k	北美常用
G711 A-law (PCMA)	8k	欧洲常用
G729	8k	低带宽
GSM	8k	老系统

因此 RTP 传输的音频通常是：

8k PCM

系统在接收到 RTP 数据后，需要先进行解码，得到线性 PCM 音频。

二、模型输入阶段

AI 语音模型通常不是基于电话音频训练的，而是基于 宽带语音。

常见的模型输入采样率为：

16kHz

因此系统需要进行一次采样率转换：

8k → 16k

这样可以：

提高语音识别准确率
提供更多语音频谱信息
与模型训练数据保持一致

此阶段的音频会被送入 Realtime LLM / ASR 模型 进行理解与对话处理。

三、模型输出阶段

AI 模型生成回复后，需要通过 TTS（Text To Speech） 合成语音。or 大模型直接输出语音

现代 TTS 系统通常输出：

24kHz PCM

因为更高采样率可以提供：

更自然的语音
更丰富的高频信息
更接近真实人声

因此模型输出通常是：

24k PCM

四、语音回传阶段

由于电话网络仍然是 8k 音频，系统在发送语音回电话端之前，需要进行两步处理：

重采样

24k → 8k

编码为电话 codec

例如：

PCM → G711

然后通过 RTP 发送回 SIP 终端。

五、完整语音处理流程

将所有步骤展开，完整流程如下：

电话终端
↓
G711 RTP
↓
8k PCM
↓
Media Processor
↓
Resample
↓
16k PCM
↓
Realtime LLM / (ASR nlp TTS)
↓
24k PCM
↓
Resample
↓
8k PCM
↓
G711 Encode
↓
RTP
↓
电话终端

这是目前 AI 电话系统最常见的架构。

六、为什么必须做采样率转换

不同系统使用不同采样率：

系统	采样率
电话网络	8k
ASR / 语音模型	16k
TTS	24k

因此必须进行：

8k → 16k
24k → 8k

这种转换在语音系统中是非常常见的处理流程。

七、是否可以避免多次重采样

理论上可以。

如果 SIP 设备支持 宽带 codec，例如：

G722 (16k)

链路可以变为：

16k SIP
↓
16k LLM
↓
24k TTS
↓
16k SIP

这样只需要一次转换：

24k → 16k

但由于大量电话设备仍然使用 G711 (8k)，因此目前大多数 AI 电话系统仍然采用 8k → 16k → 24k → 8k 的架构。