AI推理提速降本的底层技术

← 端侧AI、本地推理与云端成本

这条讲一堆让大模型跑得更快、更省的工程技术：投机解码、KV缓存优化、稀疏注意力让首字延迟大降、各类推理框架适配不同芯片。都是数据中心里给模型加速降本的内部技术活儿，离设备端硬件较远，属于纯AI基础设施背景

7月4日

pxpipe 将代码转图像，大幅降低 Claude Code 成本

一款名为 pxpipe 的基础设施 hack 工具，通过将代码透明地转为图像、利用前沿模型 OCR 能力，实现约 60% 的 Fable 成本削减。

7月4日

SGLang 团队与 AMD 合作，使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

SGLang 与 AMD 团队合作，通过一系列全栈优化，

7月3日

Nemotron-Labs 扩散语言模型实现光速级文本生成

NVIDIA 在 Hugging Face 发布了关于 Nemotron-Labs 扩散语言模型的技术博客。

7月3日

HOLA：为线性注意力引入海马体式补充记忆

新论文提出 HOLA，通过将压缩递归状态与小精确记忆配对，提升线性注意力的长程召回能力。

7月2日

DSpark 与 JetSpec 对比：两种面向因果一致性的推测解码技术

DSpark 与 JetSpec 几乎同时出现，都解决轻量级草稿模型并行提案时的因果一致性问题。

7月1日

OpenAI分拆团队内存效率架构突破即将公布

@AndrewCurran_ 预测一项重大架构突破即将公布，重点提升内存效率，来自从OpenAI分拆的团队（非SSI）。

7月1日

MiniMax 研究员谈稀疏注意力与原生多模态训练

MiniMax 强化学习研究负责人姜松岩在 AI Engineer 大会第二天参加炉边谈话，

7月1日

DeepSeek V4 在 InferenceX 部署与性能探讨

本周 InferenceX 团队讨论了将 DeepSeek V4 部署到 InferenceX 所需的工作、模型架构的变化、什么是 MegaKernel…

6月30日

腾讯开源ARGUS：万卡GPU集群监控方案

腾讯团队开源ARGUS方案，用于管理和监控超10，000块GPU的集群。大模型训练成本极高，万卡集群每天电费和折旧达数十万元。

6月30日

消息称 OpenAI 通过系统底层优化，将 AI 模型推理成本减半

OpenAI 工程师在内部透露，公司通过一系列系统底层优化，将 AI 模型的推理（运行）成本降低了 50% 以上。

6月30日

Perplexity开源Unigram分词器降低CPU占用

我们开源了重新构建的Unigram分词器，可将CPU占用降低5-6倍。

6月30日

OpenAI数据基础设施发现硬件与18年开源bug

⚙️ 我们在数据基础设施中调试了一整年的崩溃，发现了一个硬件问题，以及另一个在开源代码中隐藏了18年未被注意的问题。

6月30日

OpenAI 推理成本减半 + 自研芯片，Sonnet 5 发布平淡

作者认为 OpenAI 今天取得更重大突破：通过新推理优化方法将推理成本降低一半以上，并与 Broadcom 合作推出更快更高效的推理芯片，

6月30日

JetSpec：通过因果并行树草稿推测解码将LLM生成延迟推向极致

Sky Computing Lab推出JetSpec，

6月30日

DeepSeek 联合北大发布 DSpark 推理加速框架，速度提升 60% 至 85%

DeepSeek 联合北京大学发布 DSpark 推理加速框架，

6月29日

黑盒大语言模型的知识蒸馏

GPT-4 等闭源大语言模型性能优异，但因其作为黑盒教师无法提供内部状态，限制了知识蒸馏的效果。

6月29日

运行 CUDA 内核时会发生什么？

一个简单的CUDA向量加法程序在RTX 4090上运行，

6月29日

小红书 RedKnot 推理引擎：将 KV Cache 按注意力头拆解实现长文本加速

RedKnot 将 KV Cache 沿注意力头维度拆解，

6月29日

如何优雅地给 MLA 加上 QK-Norm？

DeepSeek 的 MLA 通过只缓存低维潜向量压缩 KV Cache，但 QK-Norm 需归一化高维 Key，若缓存归一化结果则打破低维优势。

6月28日

两节点 AMD Strix Halo RDMA 集群设置指南

本文介绍如何配置两节点 AMD Strix Halo 集群，通过 Intel E810 （RoCE v2）网卡实现 RDMA 互联，

6月27日

华为与湖北移动完成全国运营商首个AI推理加速方案现网测试

华为与湖北移动基于OceanStor A800存储与昇腾A3超节点架构，搭载UCM（推理记忆数据管理）技术，完成全国运营商首个AI推理加速方案现网测试。

6月27日

Grouped Query Experts：在GQA自注意力上的混合专家模型

论文提出Grouped Query Experts，在分组查询注意力（GQA）基础上让每个token仅路由到少数query头专家。

6月26日

小米 MiMo-V2.5-Pro-UltraSpeed 突破 1，000 tokens/s，单台 8-GPGPU 节点运行 1T MoE 模型

小米 MiMo 联合 TileRT_AI 发布 MiMo-V2.5-Pro-UltraSpeed，首次在 1 万亿参数 MoE 模型上实现超过 1，

6月26日

NVIDIA与阿里云合作加速Flink多模态数据流处理

在Flink Forward Asia Shenzhen 2026大会上，

6月25日

蚂蚁百灵UFP4：FP4训练关键在网格几何

我们最近发布了一篇论文，表明UFP4，我们的均匀网格FP4训练方案，在密集1.5B、MoE 7.9B和MoE 124B长程预训练中，

6月25日

百度发布Unlimited OCR：3B参数MoE模型，KV缓存恒定实现长文档高效解析

百度推出Unlimited OCR，一个3B参数的MoE模型，推理时仅激活500M参数。

6月25日

富士通介绍PHOTON架构：多查询性能最高达Transformer的475倍

富士通昨日介绍PHOTON（自上而下网络并行分层计算）架构，宣称多查询场景下性能至高可达Transformer的475倍。

6月25日

前 Databricks AI 负责人 Naveen Rao 的 Unconventional AI 发布首个模型 Un0，主打降低推理功耗 1000 倍

由前 Databricks AI 负责人 Naveen Rao 创立的 Unconventional AI 发布了首个模型 Un0，一个图像生成系统，

6月24日

用SGLang-JAX在TPU上优化Ling-2.6-1T：一个Pallas核将MoE数据移动隐藏在计算中

SGLang-JAX现已支持inclusionAI的Ling-2.6-1T（1T稀疏MoE，63B激活参数，256路由专家，

6月24日

DFlash：块扩散草稿模型实现最高15倍吞吐量提升

DFlash 由 UC San Diego 团队提出，是一种用于投机解码的轻量块扩散草稿模型。

6月17日

不加一块GPU，多榨出15%算力：大模型圈开始对网络“动刀”

过去两年，整个行业在算力军备竞赛中的标准动作只有一个：买更多GPU，建更大集群，堆更高算力。但现在，这条路径正在被重新审视。

6月15日

下一代投机解码：DFlash 与 Spec V2

Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。

6月11日

腾讯混元 AI Infra 新开源：HPC-Ops 推理核心算子全面升级

腾讯混元 AI Infra 团队开源升级 HPC-Ops 推理算子库，推出五大核心算子。

6月11日

MiniMax Sparse Attention（MSA）块状稀疏注意力

MiniMax 提出块状稀疏注意力 MSA，基于 GQA 构建。

6月10日

百度百舸联合复旦提出LU-KV框架，被ICML 2026录用

百度百舸团队与复旦大学合作提出Long-horizon Utility KV（LU-KV）框架，

6月10日

Bebop：通过带拒绝采样的多token预测加速RL训练

Bebop系统研究多token预测（MTP）在大语言模型RL后训练中的加速瓶颈。

6月5日

腾讯混元提出Stem稀疏注意力算法首字延迟降低3.6倍

腾讯混元宣布提出Stem稀疏注意力算法，已被机器学习顶会ICML-26收录。

6月1日

华为推出星河AI数据中心网络方案 Token生产效率提升2~5倍

华为推出星河AI数据中心网络方案，依托网算存协同能力，NPU与存储直通使传输带宽提升8倍，Token生产效率提升2~5倍。

5月30日

Show HN： Tiny-vLLM--基于 C 和 CUDA 的高性能大型语言模型推理引擎

Tiny-vLLM 是一个用 C 和 CUDA 编写的高性能大语言模型推理引擎，项目代码已开源至 GitHub

5月30日

DynoSim：模拟驱动推理堆栈优化

NVIDIA 发布 DynoSim，这是一个针对其 Dynamo 推理服务栈的工作负载驱动仿真工具。

5月29日

PyTorch 中的性能分析（第一部分）：torch.profiler 初学者指南

该指南旨在介绍如何在 PyTorch 中使用 torch.profiler 进行性能分析。

5月29日

DynoSim：模拟帕累托前沿

现代大语言模型服务难以调优，因为每个部署都涉及模型后端、张量并行形状、预填充/解码分割、Worker数量、调度器设置、路由策略、KV缓存行为、自动扩展阈…

5月27日

知情人士：Fireworks AI正以150亿美元估值洽谈新一轮融资

据知情人士透露，帮助企业运行人工智能模型的初创公司Fireworks AI正在洽谈新一轮融资，预计公司估值将达到150亿美元。

5月27日

Fast， faster， Qwen. 🚀

Qwen3.5在TokenSpeed推理引擎上，针对智能体工作负载达到了创纪录的580 tokens per second （tps）速度。

5月26日

SilverTorch：索引即模型--推荐系统的新检索范式

Meta 推出SilverTorch推荐系统架构，统一了用户生成内容的所有检索组件。

5月25日

通过奖励倾斜分布匹配强化少步生成器

本文提出奖励倾斜分布匹配蒸馏（RTDMD），这是一个将分布匹配蒸馏与奖励引导强化学习统一应用于少步流生成器的两阶段框架。

5月20日

上下文压缩技术提升搜索效率与准确性

我们已将查询感知压缩技术投入生产，以实现更快、更清晰、更准确的搜索。更好的上下文优于更多的上下文。

5月20日

ZCube：超大规模大模型推理的网络优化

针对超大规模大模型推理，ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计，有效解决了推理网络的拥塞问题。

5月18日

Claude控制台新增提示缓存诊断功能

提示缓存诊断现已在Claude控制台上线。当请求未命中缓存时，您现在可以准确查看提示的哪一部分发生了变化，以及这消耗了多少令牌