离线语音ASR/TTS模型密集开源

实时与端侧语音模型集中开源发布：豆包实时语音3.0、有道子曰4语音合成、Higgs Audio v3与StepAudio 2.5 TTS，以及8B、110ms低延迟的开源方案。低延迟、可离线部署的语音识别/合成模型持续涌现，为语音遥控与端侧语音入口提供可选的算法侧现货

7月3日

Interfaze 开源 diffusion-gemma-asr-small，基于 DiffusionGemma 并行去噪解码器的多语言扩散 ASR 模型

Interfaze 开源了 diffusion-gemma-asr-small，据称是首个开源多语言扩散 ASR 模型。

7月1日

VoxCPM2：2B开源语音编辑模型，声音可像滤镜一样调整

面壁智能发布VoxCPM2，一个2B参数的开源语音模型，支持30种语言及9种方言。

7月1日

Gradium 发布实时语音翻译模型 stt-translate 和 s2s-translate

Gradium 发布两款实时语音翻译模型：stt-translate（语音转文本）和 s2s-translate（语音转语音）。

6月30日

Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型

Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型，作为单一实时语音栈，分别负责文本转语音和语音转文本。

6月29日

xAI语音API登陆Vercel AI Gateway

来自xAI的最先进语音API，现已加入Vercel AI Gateway

6月27日

阿里千问输入法上线 macOS 版：最快 300 字/分，AI 自动润色

阿里千问输入法 macOS 版今日上线官网，支持最快 300 字/分的 AI 语音输入，可自动润色、将口语转为工整文字，并支持 9 种方言，纯净无广告。

6月27日

Wan Streamer v0.1：首个端到端Transformer实时音视频对话模型

阿里通义实验室Wan团队发布Wan Streamer v0.1，首个端到端Transformer实现实时音视频对话。

6月23日

OpenAI Bidi 1 语音模型：可唱歌、生成声音

OpenAI 即将推出双向语音模型 Bidi 1，支持唱歌和生成不同声音。

6月18日

火山引擎上线豆包实时语音模型3.0 API 服务，开启邀测

火山引擎上线豆包实时语音模型3.0（Seeduplex）API 服务并开启邀测。

6月18日

MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上：原生流式 48 kHz 语音服务

MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型，

6月4日

Nemotron Parakeet ASR 印尼语准确率达 97.7%

当法律和监督依赖于转录内容时，70-80% 是不够的。

6月4日

Nemotron 3.5 ASR：为你的语言、领域或口音进行微调

Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型，

6月3日

Miso One 开源语音模型：8B 参数、110ms 延迟、一次语音克隆

Miso One 正式发布，一个 8B 参数的开源权重语音模型（TTS），旨在模拟真实人类朗读的温暖与节奏。

5月27日

Reachy Mini 实现完全本地化语音交互

Reachy Mini 机器人现可通过 `speech-to-speech` 库实现完全本地化的语音交互，无需依赖云端。

5月23日

StepAudio 2.5实时语音发布：副语言感知与人格化交互

StepAudio 2.5 Realtime是一款实时语音模型，能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。

5月22日

网易有道“子曰4”多模态模型、语音合成模型全量开源

网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。