← 端侧AI、本地推理与云端成本

离线语音ASR/TTS模型密集开源

实时与端侧语音模型集中开源发布:豆包实时语音3.0、有道子曰4语音合成、Higgs Audio v3与StepAudio 2.5 TTS,以及8B、110ms低延迟的开源方案。低延迟、可离线部署的语音识别/合成模型持续涌现,为语音遥控与端侧语音入口提供可选的算法侧现货
7月3日
Interfaze 开源 diffusion-gemma-asr-small,基于 DiffusionGemma 并行去噪解码器的多语言扩散 ASR 模型
Interfaze 开源了 diffusion-gemma-asr-small,据称是首个开源多语言扩散 ASR 模型。
7月1日
VoxCPM2:2B开源语音编辑模型,声音可像滤镜一样调整
面壁智能发布VoxCPM2,一个2B参数的开源语音模型,支持30种语言及9种方言。
7月1日
Gradium 发布实时语音翻译模型 stt-translate 和 s2s-translate
Gradium 发布两款实时语音翻译模型:stt-translate(语音转文本)和 s2s-translate(语音转语音)。
6月30日
Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型
Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型,作为单一实时语音栈,分别负责文本转语音和语音转文本。
6月29日
xAI语音API登陆Vercel AI Gateway
来自xAI的最先进语音API,现已加入Vercel AI Gateway
6月27日
阿里千问输入法上线 macOS 版:最快 300 字/分,AI 自动润色
阿里千问输入法 macOS 版今日上线官网,支持最快 300 字/分的 AI 语音输入,可自动润色、将口语转为工整文字,并支持 9 种方言,纯净无广告。
6月27日
Wan Streamer v0.1:首个端到端Transformer实时音视频对话模型
阿里通义实验室Wan团队发布Wan Streamer v0.1,首个端到端Transformer实现实时音视频对话。
6月23日
OpenAI Bidi 1 语音模型:可唱歌、生成声音
OpenAI 即将推出双向语音模型 Bidi 1,支持唱歌和生成不同声音。
6月18日
火山引擎上线豆包实时语音模型3.0 API 服务,开启邀测
火山引擎上线豆包实时语音模型3.0(Seeduplex)API 服务并开启邀测。
6月18日
MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上:原生流式 48 kHz 语音服务
MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型,
6月4日
Nemotron Parakeet ASR 印尼语准确率达 97.7%
当法律和监督依赖于转录内容时,70-80% 是不够的。
6月4日
Nemotron 3.5 ASR:为你的语言、领域或口音进行微调
Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型,
6月3日
Miso One 开源语音模型:8B 参数、110ms 延迟、一次语音克隆
Miso One 正式发布,一个 8B 参数的开源权重语音模型(TTS),旨在模拟真实人类朗读的温暖与节奏。
5月27日
Reachy Mini 实现完全本地化语音交互
Reachy Mini 机器人现可通过 `speech-to-speech` 库实现完全本地化的语音交互,无需依赖云端。
5月23日
StepAudio 2.5实时语音发布:副语言感知与人格化交互
StepAudio 2.5 Realtime是一款实时语音模型,能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。
5月22日
网易有道“子曰4”多模态模型、语音合成模型全量开源
网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。