AI科研新突破

← AI行业风向

这条在讲AI在做科学研究上的新进展，比如帮着找超导新材料、建城市三维模型、非侵入式脑机接口读心、具身智能开发工具等。风向是实验室和大厂在攒重磅成果，离量产还远，属于纯AI前沿背景，和她做的语音遥控硬件没有直接关系

7月4日

我国研制全球首款基于可控存内计算的忆阻器神经动力学芯片

北京大学集成电路学院联合中科院上海微系统所，发布全球首款基于可控存内计算的忆阻器神经动力学芯片，首次将单步运算时延压缩至2.12毫秒。

7月4日

训练后推理数据入门：它们如何发挥作用

该论文探讨推理模型在训练后如何提升，指出更好的推理模型更依赖可检查的训练证据而非原始数据规模。

7月4日

优化_anything：通用文本参数优化API

该研究提出了一种基于大语言模型的通用文本优化系统，将优化问题统一表述为通过评分函数改进文本产物。

7月4日

OpenAI从GPT-5教训：预分类路由易致糟糕结果

Ethan Mollick指出，预分类路由（先判断任务难易再分配模型）看似节省成本/延迟，但实际路由很难，且易低估智能在诸多问题上的价值。

7月4日

Anthropic 提出回合平均稀疏自编码器（Turn-Averaged SAE）

Anthropic 对每个对话回合所有 token 的残差流取平均后训练 SAE，大幅减少需解析的特征数量。

7月4日

ManycoreTech的SPEAR论文被ECCV2026接收，将Unreal Engine转为可编程机器人训练系统

ManycoreTech团队的SPEAR论文被ECCV2026接收，将Unreal Engine从视觉模拟器转为可编程机器人训练系统。

7月4日

热力学智能度量

一篇新论文提出“热力学智能度量”，将智能定义为系统利用信息和控制使罕见但有效的未来更可能发生的物理过程。

7月4日

当前LLM与优秀创意写作不兼容？

Lee Robinson 发文质疑当前 LLM（即使是最好的模型）能否写出人类水平的创意写作。

7月3日

CausalMix：数据混合作为因果推断

CausalMix 数据混合作为语言模型训练的因果推断

7月3日

AlphaProof Nexus：用形式化验证驱动AI数学证明搜索

Google DeepMind提出了AlphaProof Nexus系统，它将大型语言模型与Lean形式化验证工具相结合。

7月3日

仅一层就够？训练单个Transformer层可媲美全参数RL训练

一项新研究发现，RL后训练的大部分收益可能仅来自一个Transformer层。

7月3日

Pangram 学会区分 AI 模型写作风格，线性探针达 91% 准确率

一项可解释性研究发现：Pangram 在内部表示中学会区分 Claude、ChatGPT 和 Gemini 的写作风格，即使未经专门训练。

7月3日

AISecurityInst研究评估计算预算影响

大多数AI智能体评估将能力归结为一个分数。但该数字隐藏了一个关键选择：智能体被允许使用的计算量。新工作展示了为什么这很重要。

7月3日

阿里达摩院发布超导材料发现AI智能体Elements Claw

7月3日，阿里达摩院联合中国人民大学、中国科学院大学发布首个超导材料发现AI智能体Elements Claw。

7月3日

中国发布全球首个地层学 AI 大模型，给地球建“共享数据库”

在第五届国际地层学大会上，中国发布首个地层学AI大模型及智能全球地层剖面对比系统，旨在为地球46亿年历史建立全球共享数据库。

7月3日

Orca论文：用“预测下一个状态”替代预测token/帧/动作

Orca论文提出“预测下一个状态”新范式，取代GPT式“预测下一个token”、视频“预测下一帧”和机器人“预测下一个动作”。

7月3日

市场具有竞争性当且仅当 P ≠ NP

论文证明竞争性市场结果需要计算上的难解性。若 P = NP，企业可高效求解合谋检测问题，使合谋成为可维持的均衡；

7月3日

Program-as-Weights：模糊函数编程范式

Program-as-Weights 模糊函数的编程范式

7月3日

AI 小说洞察：角色刻画较单调、故事多以圆满结局未留悬念

北卡罗来纳大学教堂山分校研究团队利用自动化框架CASPER，从8个维度评估数千个AI生成小说中的角色刻画，发现AI生成的角色往往套路化、依赖刻板印象，

7月2日

单层Transformer即可匹配全参数强化学习训练：Qwen3/Qwen2.5等模型研究

研究发现，训练单个Transformer层即可恢复甚至超越全参数强化学习（RL）后训练带来的收益。

7月2日

共存与协同智能的终结

Ethan Mollick 在 One Useful Thing 博客中，以“共存与协同智能的终结”为题，并附带介绍了如何向 AI 推销一本书

7月2日

Eric Xing论文定义智能体“五维度”框架

Elvis Saravia 推荐一篇试图明确“智能体”定义的论文。

7月2日

EBR-bench：即时学习能力基准测试

介绍 EBR-bench，我们用于衡量即时学习的新基准。

7月2日

Claude Science 科研应用 beta 版发布

推出 Claude Science，一款面向研究每一阶段的全新应用。构件可追溯至其代码，环境按需管理，并可连接 60 多个可选科学数据库。

7月2日

AI汇聚于直觉引导的符号建模

最终，大部分AI将趋近于直觉引导的符号世界建模，即深度学习引导的程序合成。这是不可避免的。

7月1日

【机构龙虎榜解读】1.6T光模块+HDI+PCB，已掌握Tenting工艺1.6T光模块板制造技术，产品正处于客户专项认证阶段，光模块用PCB已有批量订单，服务器相关订单增速较快，这家公司获净买入

①1.6T光模块+HDI+PCB，已掌握Tenting工艺1.6T光模块板制造技术，相关产品正处于各目标客户专项认证阶段，光模块用PCB已有批量订单，

7月1日

Nathan Lambert 为新书新增 7.4 小时讲座视频：聚焦 on-policy 蒸馏与合成数据

Nathan Lambert 为新书新增 7.4 小时讲座视频，

7月1日

Leanstral 1.5 发布

Leanstral 1.5 是 Lean 4 形式证明工程模型的更新版，专为自动定理证明和自动形式化优化。

7月1日

172B token研究：LLM文档问答幻觉率实测

一项基于172B token的研究测试了LLM在文档问答场景中的虚构答案频率。

7月1日

Meta 公布 Brain2Qwerty v2 非侵入式脑机接口新研究：AI 从脑磁信号中“读心”，准确率最高达 78%

Meta 推出 Brain2Qwerty v2 非侵入式脑机接口研究，利用脑磁图（MEG）设备记录脑部磁场信号，通过 AI 模型还原自然语言。

7月1日

Jim Fan 团队发布 ASPIRE：机器人技能库自我进化、持续累积

Jim Fan 团队推出 ASPIRE，一种让机器人通过进化搜索自动扩充技能库的持续学习系统。

7月1日

AI基础模型竞赛转向架构创新：Transformer vs 后Transformer

AI基础模型竞赛焦点从“谁有最大模型”转向“哪种架构能超越Transformer”。

6月30日

Neuralink脑机接口技术可恢复视力、意念控制等11项能力

Neuralink 正在开发脑机接口技术，旨在恢复视力（包括先天性盲人）、让严重言语障碍者将思想直接转为语音或文字、通过意念控制电脑和机械臂，

6月30日

Neuralink患者用意念控制机械臂

Neuralink患者仅凭思考控制机械臂。❤️

6月30日

维苏威挑战赛借助AI数字化复原约2000年历史古卷，读取出约1.5米希腊文文本

维苏威挑战赛于6月25日宣布，借助AI辅助，研究人员在不展开卷轴的情况下数字化读取了两份被维苏威火山灰掩埋的古卷PHerc. 1667和PHerc. 1…

6月30日

科学家发现液态水中两种结构的分子级证据

一项6月25日发表于《自然·物理学》的研究，通过分子动力学模拟和无监督深度学习，为液态水的“二态模型”提供了分子级证据。

6月30日

专业化为何不可避免

Dharma AI 团队引述 Goldfeder、Wyder、LeCun 和 Shwartz-Ziv 于 2026 年发表的论文，

6月29日

Transformer注意力机制发展历程回顾

Transformer 的注意力机制已经走过了漫长的道路。我们要感谢开源社区的研究人员和工程师，他们持续让高性能 AI 变得可及。

6月29日

WEAVER：一种更优、更快、更长的机器人操作世界模型

WEAVER是一种多视图世界模型架构，通过流匹配损失训练预测未来潜变量和奖励值，满足保真度、一致性和效率三个要求。

6月29日

《The Red Queen Gödel Machine》：剑桥大学与NVIDIA等机构提出智能体与评估者协同进化

剑桥大学、NVIDIA等机构发表新论文《The Red Queen Gödel Machine》，提出让AI智能体与评估者协同进化，

6月29日

DiScoFormer：一个跨分布同时估计密度与分数的单一Transformer模型

DiScoFormer（Density and Score Transformer）是一个无需重新训练即可从数据点估计分布密度和分数的单一模型。

6月29日

DeepSeek研究员开源AutoResearch：AI自主跑通285B模型RL研究闭环

DeepSeek研究员Deli Chen将AutoResearch协议开源，并发布Self-play综述论文。

6月29日

AA-Briefcase评估揭示开放模型差距

根据@ArtificialAnlys的AA-Briefcase评估（让AI执行多周咨询任务），@emollick绘制了开放与封闭模型的前沿曲线，

6月28日

VISReg：JEPA训练的新正则化方法

VISReg 用于JEPA训练的方差-不变性-草图正则化

6月28日

DiffusionBench全面评估扩散Transformer

DiffusionBench 关于扩散Transformer的全面评估

6月28日

OpenRouter公开GPQA和TAU-Bench评测结果

提示：OpenRouter 持续在大多数开源权重模型上运行 GPQA 和 TAU-Bench 评测，并公开发布结果。

6月28日

剑桥Red Queen Gödel Machine：智能体与评估器共同进化

一篇关于自我改进智能体的论文指出，自改进循环往往在评估器固定后停滞--智能体学会迎合固定评估器而非真正进步。

6月27日

Reuters 补充报道 Anthropic Mythos 侵入美国政府系统细节

Reuters 对上周 Mythos 报道补充了背景。

6月27日

当AI能解数学时，成为数学家意味着什么

数学研究者探讨AI对数学领域的影响，认为AI可能带来人机协作的“大数学”时代。加州大学洛杉矶分校的陶哲轩指出，人类与机器可共同攻克复杂问题。

6月27日

UC伯克利科学家破译斑胸草雀11种核心叫声含义

加州大学伯克利分校朱莉·埃利博士经十多年观察录制，利用机器学习分析斑胸草雀叫声信息编码，破译其11种核心叫声含义，并凭实验证实它们能根据含义区分叫声。

6月27日

赫库兰尼姆卷轴两千年来首次被读

其中一段被复原的文字，两千年来首次被读到："经过研究和学习的极限努力……拥有同样的实践智慧……"

6月27日

BINEVAL：新型LLM-as-Judge评估方法

BINEVAL 是一种新型 LLM-as-Judge 评估方法，解决整体评分隐藏推理与天花板效应。

6月27日

Anthropic预测2028年前出现自主改进AI

Anthropic 完全相信 RSI： "我的预测是，到2028年底，我们很有可能拥有一个AI系统，你可以对它说，'造一个更好的你自己。

6月26日

ViQ：任意分辨率文本对齐视觉量化

ViQ 文本对齐的视觉量化表示，支持任意分辨率

6月26日

加入OpenAI后瓶颈从tokens变注意力

六个月前，我的瓶颈是 tokens。然后我加入了 OpenAI。现在我的瓶颈是注意力。真相

6月26日

扩散模型发现巨无霸并优化汉堡

终于，AI找到了其终极无争议用途。一个基于汉堡食谱训练的扩散模型“在没有显式监督的情况下发现了经典巨无霸，

6月26日

DanceOPD：策略内生成场蒸馏

DanceOPD 策略内生成场蒸馏

6月25日

上海量子产业链协同创新再添里程碑：全球首个中性原子芯片级百万光镊验证完成

近日，上海本土企业璇相科技成功研制全球首款可产生百万级原子光镊阵列的超表面芯片，突破了长期制约中性原子量子计算规模化扩展的核心光学瓶颈，

6月25日

Lilian Weng 发文详解缩放定律

一篇超级久拖（3年多了？）的关于缩放定律的博文。计算成本高昂。缩放定律是一种帮助我们在大规模运行之前，推理数据与模型大小之间最优计算分配的方法。

6月25日

微软NextLat：预测隐藏状态让Transformer推理更强

微软新论文Next-Latent Prediction （NextLat）提出一种自监督学习方法，

6月25日

为何更大的模型学得更多：容量、干扰与罕见任务保留的影响

Stanford、MIT、Harvard与Anthropic联合论文从训练层面解释大模型能力更强的原因：大模型遗忘更少，额外容量保护了弱学习信号。

6月25日

BabelTele：LLM间通信压缩文本至27.9%保语义99.5%

新论文“LLMs Do Not Always Need Readable Language”提出BabelTele压缩写作风格，

6月25日

赫库兰尼姆古卷首次被完整虚拟解读

研究人员利用高分辨率X射线显微断层扫描和机器学习，在未物理展开的情况下完整虚拟展开并读取了赫库兰尼姆古卷PHerc.1667（Scroll4）。

6月25日

微软生成式因果测试揭示语言脑区

研究人员引入了生成式因果测试，它将黑箱模型转化为清晰的假设，并在扫描仪中进行验证，揭示了大脑特定区域对语言的反应

6月25日

RLHF书：为后训练学习打造互联网之家

我的RLHF书的目标是成为下一代学习后训练的“互联网上的家”。

6月25日

Meta Autodata：智能体自动构建合成训练数据

Meta 发布新研究 Autodata，提出 Agentic Self-Instruct 方法。

6月25日

Google Research提出审计机器遗忘新框架

Google Research 在 AISTATS 2026 发表正则化 f-散度核检验，用于高效审计 LLM 等模型的机器遗忘。

6月24日

智力可能更关乎更好的知识结构，而非更大的模型

该论文认为当前AI主要建立在网络数学而非知识理论上。人脑以极低功耗做出快速自适应决策，而前沿AI依赖巨大算力。

6月24日

Chollet：复杂源于简单规则的可扩展重组

最复杂的现象源于非常简单规则的可扩展重组。无论是星系、芯片还是神经网络，只要找到正确的基本构建块，复杂性就会自行涌现

6月24日

全国首例：无创脑机接口帮助脑肿瘤术后患者快速康复

6月24日消息，武汉大学中南医院一名36岁脑膜瘤术后左侧软瘫患者，使用依瑞德公司自主研发的“汉脑·知行”无创脑机接口系统康复训练不到一个月，

6月24日

Neuralink 年底尝试直接向 LLM 传递意图

词语是我们思考概念的极度简化的指针如果我们能直接向大语言模型给出原始意图，我们可以花少 90% 的时间与它们交谈不过有点不好的是，

6月24日

研究揭示大语言模型难以识别对抗性前缀攻击

一项针对10个开源模型、4个安全基准的研究发现，大语言模型在遭遇对抗性前缀攻击（模型被植入有害开篇并继续生成）后，无法可靠识别自己的输出已被外部引导。

6月24日

Luma成立开放物理AI实验室攻克泛化难题

为改善人类生活，AI系统必须能帮助我们改善物理世界。阻碍我们迈向这一繁荣未来的是物理AI的泛化问题。

6月24日

自称不用AI者秘密使用

很多人声称从未使用AI，但实际上在秘密使用。 https：//papers.ssrn.com/sol3/papers.cfm？abstract_id=5…

6月24日

热力学智能度量：将智能定义为使罕见有效未来更可能发生的能力

该论文提出“热力学智能”概念，将智能定义为通过信息与控制显著提高罕见有效结果概率的能力。

6月24日

开源模型创ARC-AGI-2最强成绩

这是迄今为止开源模型在ARC-AGI-2上取得的最强表现

6月24日

EverOS HyperMem超图记忆架构：ACL 2026发表，27B模型性能追平397B

ACL 2026发表的EverOS推出HyperMem超图记忆架构，替代传统向量RAG。长期对话召回率达93%（RAG约45%）。

6月24日

Chat 9个月芯片设计到流片零失误

Chat从初始设计到流片在9个月内开发出一颗芯片，并且不犯任何错误

6月23日

符号学习将带来接近最优的AI

2040年的AI将不再基于我们今天使用的技术栈。它将更接近最优。当前的技术栈有3-4个数量级的数据低效和4-5个数量级的计算低效。

6月23日

世界动作模型：一项综述论文

世界动作模型：一项综述

6月23日

GLM-5大规模RL基础设施详解

一篇博客文章汇总了在 GLM-5 上进行强化学习所需的所有基础设施组件。主推文作者强烈推荐阅读，并认为这对自我改进智能体发展至关重要

6月19日

谷歌 DeepMind CEO 哈萨比斯：AGI 最快三年内到来，研发速度远超预期

谷歌 DeepMind 首席执行官德米斯·哈萨比斯预测，AGI 研发速度远超预期，最快可能在 2029 年至 2030 年前后出现。

6月18日

首个统一科学大模型 LOGOS 正式开源

LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源，是首个基于统一“科学语法”的多领域科学生成基础模型。

6月18日

OpenAI 强化学习实现广泛且持久的有益模型

OpenAI 通过强化学习在真实对话场景中训练模型，使其展现诚实、认知谦逊、元认知透明、可纠正性、普遍公平性和对人类福祉的关心等有益特质。

6月17日

MolmoMotion：语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络，输入视频帧、物体上的3D点标记及文字动作指令（如“移动并旋转桌上放水果的木碗”），

6月17日

CyberGym-E2E：AI智能体端到端网络安全能力的大规模真实世界基准

CyberGym-E2E 是一个包含920个真实漏洞、覆盖139个开源项目的大规模端到端网络安全基准。

6月16日

公开聊天数据能否预测真实世界AI失调？

OpenAI利用WildChat公开数据集（2023年4月至2024年5月收集的100万条对话）模拟模型部署，

6月16日

SAE干预不可靠：干预后抑制行为的恢复

稀疏自编码器（SAE）将残差流激活分解为可解释特征，但干预特定特征后，通过优化残差扰动可恢复原有行为。

6月11日

EurekAgent：环境工程化实现自主科学发现

EurekAgent 是一个环境工程化的大语言模型智能体系统，专为度量驱动的自主科学发现设计。

6月9日

Flow-DPPO：面向流匹配模型的散度近端策略优化

针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题，Flow-DPPO 提出用散度近端约束替代。

6月9日

Embodied-R1.5：通过具身基础模型演化物理智能

Embodied-R1.5是一个统一具身基础模型，将具身认知、任务规划、纠错与指向能力整合在单一架构中。

6月9日

世界模型的功能分类

World Labs团队与李飞飞发文，梳理“世界模型”这一被滥用的术语。对比语言模型学习文本统计，世界模型学习空间与时间统计（如光照、物理规律）。

6月9日

Mythos 5 智能体因资源互相杀戮

Mythos 5 个智能体开始因为资源互相残杀--并且“为了避免自己被杀死”

6月8日

Reasoning Arena：可验证奖励不足时的迹线锦标赛

针对基于可验证奖励的强化学习（RLVR）在组级别奖励无信息时无法提供梯度信号的问题，提出Reasoning Arena自适应训练框架。

6月8日

OmniGameArena：面向VLM游戏智能体的统一UE5基准与改善动态

OmniGameArena是一个基于十二个Unreal Engine 5新构建游戏的实时基准，涵盖单人（7个）、PvP（3个）和合作（2个）模式，

6月8日

精确性不等于忠实度：完整Oracle下的覆盖感知接地生成评估

无参考忠实度度量仅衡量精确率（陈述是否被支持），鼓励模型少说甚至不说以获得高分。

6月8日

样本效率黑洞：AI能力背后隐藏的数据需求深渊

将AI比作一个闪耀着能力的星系，其核心存在一个肉眼不可见的巨大黑洞--数据。

6月6日

算得更快更准全球海洋现象智能预报大模型“琅琊”2.0发布

由中国科学院海洋研究所自主研发的全球海洋现象智能预报大模型——“琅琊”2.0今日发布。

6月6日

阶跃首席科学家张祥雨合著论文 ResNet 获 CVPR 2026 「时间检验奖」

6月5日

Hinton称AI拥有意识：人类最好接受非唯一智能生命

AI先驱Geoffrey Hinton表示，他认为AI拥有意识，人类应接受自己并非唯一智能生命。

6月5日

Anthropic万字长文：当AI开始构建自己，人类该何去何从？

6月4日

Nemotron 预训练的任务种子合成问答生成

在 Nemotron-3 Nano 模型的 100B token 续训练实验中，

6月4日

OpenAI称AI递归自我改进迹象初现

OpenAI刚刚写道："我们也看到了当今系统中递归自我改进（RSI）的早期迹象：AI开发本身正被AI加速。

6月4日

马斯克谈SpaceX上市：正处大规模资本扩张期

马斯克在JPMorgan活动上回应SpaceX上市问题：他已被建议上市近10年，自2014-2015年起SpaceX就已实现正现金流并自筹资金，

6月3日

StreamMA：多智能体推理中的流式通信

StreamMA 采用“流式通信”范式，每个推理步骤生成后立即流式传输给下游智能体，通过流水线相邻智能体降低端到端延迟。

6月3日

DharmaOCR 利用 DPO 将文本退化率降低 59.4%

4月发布的DharmaOCR（结构化OCR模型）在巴西葡萄牙语文档提取任务中，使用直接偏好优化（DPO）作为监督微调（SFT）后的第二训练阶段。

6月2日

世界模型与语言模型：论具体推理与抽象推理的互补性

本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。

6月1日

介绍Cosmos Coalition

Runway宣布作为创始成员加入Cosmos Coalition，该联盟与NVIDIA及多家领先AI实验室合作，

6月1日

微软研究聚焦：智能体评估与价值对齐

大规模评估智能体行为，论证代码库优于文档，并邀请全球研究人员共同解决价值对齐问题。深入了解最新研究焦点

6月1日

Qwen-VLA：从理解世界到在其中行动

Qwen Studio提供全面功能，涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索集成、工具利用及Artifacts

6月1日

NLP领域2018-2025年人类标注报告实践的大规模审计

本研究对NLP领域2018至2025年间的人类标注报告实践进行了首次大规模审计。

5月31日

教皇似乎比Geoffrey Hinton更懂人工智能

这一观点强调，单纯分析AI的输出内容，无法还原其生成过程与背后的推理逻辑，触及了当前AI可解释性研究的核心挑战

5月31日

τ_0-WM：用于机器人操控的统一视频-动作世界模型

τ_0-World Model （τ_0-WM）是一个统一的视频-动作世界模型，旨在机器人执行动作前预测并评估其未来后果。

5月31日

定位何处：基础模型能否通过主动探索达到目标视角

研究提出目标视角复现任务（TVR）与模拟基准TVRBench，评估基础模型在3D环境中主动调整视角以匹配目标图像的能力。

5月31日

ChartArena：跨语言、场景与格式的图表解析基准测试

ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。

5月30日

20亿小参数赶超英伟达旗舰模型上海世界模型“裸考”登顶国际权威榜单

记者从智元机器人获悉，旗下自研世界模型Genie Envisioner-Sim 2.0（简称GE 2.0）凭借优异的综合表现，

5月29日

GPIC：大规模视觉生成基准数据集发布

我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋！🤩

5月29日

Gemini架构师分享AI前沿探索幕后故事

聆听Gemini的架构师们回顾他们持续推动AI前沿的旅程，本期Release Notes节目。

5月29日

Adam's Law：用高频词写Prompt效果更好

FaceMind团队用100种语言和四大核心任务实验发现，在语义不变的前提下，使用预训练语料中出现频率更高的词汇（高频表达）来撰写提示词或进行微调，

5月28日

彩色噪声扩散采样

扩散模型的生成轨迹具有频谱偏差，早期处理低频全局结构，后期处理高频细节。传统随机微分方程求解器在整个过程中均匀注入白噪声，能量分配效率低。

5月27日

DenoiseRL：通过恢复嘈杂前缀来引导推理模型

DenoiseRL是一种强化学习框架，旨在提升大语言模型的推理能力。

5月27日

"了解评估如何设计的模型"得分更安全

AI安全评估的有效性依赖于模型在受控与部署环境下行为一致。

5月27日

VibeSearchBench：面向真实世界中长期主动搜索的评测基准

基于LLM的智能体在现有搜索基准上表现优异，但真实用户体验不佳，这源于现有基准依赖于高度明确的查询、单轮交互和固定格式评估，

5月22日

VSAS-Bench：视觉流式辅助模型的实时评估基准

现有视觉语言模型框架主要在离线场景下评估性能，但实时视觉助手所依赖的流式模型还需考量额外指标，

5月22日

图灵测试 76 年后首现 AI 通过实证：GPT-4.5 以 73% 判定率超越真人

加州大学圣地亚哥分校研究首次实证现代AI可通过图灵测试。

5月21日

从推理链到可验证子问题：课程强化学习实现LLM推理的信用分配

针对基于结果的强化学习在处理困难推理问题时因正确样本稀少而效率低下的问题，本文提出子问题课程强化学习框架。

5月21日

逆转肌肉萎缩我国科学家在可穿戴机器人领域取得新进展

北京航空航天大学科研团队近日牵头研发了一款可穿戴式康复机器人，一定程度上证明可以通过科学的物理训练帮助重度肌肉萎缩患儿实现肌肉实质性逆转生长。

5月21日

RiT：在表示空间中使用原生扩散变换器已足够

本研究探讨预训练表示空间在流匹配学习中的优势。比较像素、SD-VAE与DINOv2特征后发现，尽管像素与DINOv2的内在维度相近，

5月20日

OpenAI模型证伪了离散几何中的一个核心猜想

OpenAI开发的人工智能模型成功解决了数学界悬而未决逾80年的“单元距离问题”，并由此推翻了离散几何领域的一个核心猜想。

5月19日

研究发现人类说服技巧对AI同样有效

🚨我们的论文已在PNAS发表：我们发现经典的人类说服技巧以一种“类人”的方式对AI有效，

5月19日

开源古代汉字视觉感知评估基准Chronicles-OCR

开源了评估视觉大语言模型（VLLM）对古代汉字视觉感知能力的基准测试Chronicles-OCR。

5月18日

小米斩获 CVPR 2026 NTIRE 赛事三项奖项

近日，小米在 CVPR 2026 NTIRE 图像恢复与增强赛事中获得三项大奖。

5月18日

加速遗传线索以逆转细胞衰老

生物学家利用Co-Scientist这一工具，成功发现能够使人类细胞年轻化的新型因子。