模型与Agent能力评测与排行榜之争

模型与智能体的能力评测、基准和排行榜密集更新：Fable-5在Remote Labor Index领跑、OpenAI发布权威基准、Epoch新增基准纳入ECI，伯克利Agents' Last Exam、字节EdgeBench长任务、PlanBench-XL工具长程规划等面向智能体真实工作能力的基准集中涌现，并伴随基准是否衡量真智能、静态数据集只测记忆、算力受限时系统性低估智能体能力的争论。

7月4日

PlanBench-XL：评估LLM智能体在大规模工具生态中的长程规划能力

论文提出PlanBench-XL基准，包含327个任务和1，665个工具，测试LLM智能体在工具难以发现时完成长程工具使用任务的能力。

7月3日

英国 AI 安全研究所：标准基准测试系统性低估 AI 智能体能力

英国 AI 安全研究所（AISI）研究显示，标准基准测试在计算预算有限时会低估 AI 智能体真实能力。

7月3日

字节跳动Seed发布EdgeBench基准

字节跳动Seed推出EdgeBench基准，专门测试AI智能体在12-72小时长时间任务中的学习能力。

7月3日

PerceptionRubrics 校准多模态评估至人类感知

7月1日

OpenAI 发布最权威基准测试

我的 OpenAI 哥们刚刚发布了最权威的基准测试

7月1日

Fable恢复后早先安全护栏待观察

Fable非常棒，在获得早期访问后又被拿走，导致我手头的一些工作延迟，并让我推迟了其他工作直到它恢复。

7月1日

Fable-5 RLI得分16.10%，GPT-5.6下周发布传闻

Fable-5在Remote Labor Index（RLI）取得16.10%分数，领跑公开排行榜。

7月1日

Epoch AI新增13项评测基准，7项纳入ECI

我们最近开始在评测中枢跟踪13项新基准。其中7项已被纳入Epoch能力指数（ECI）

6月30日

文本退化：多数基准测试未追踪的生产故障模式

Dharma-AI在Hugging Face发布博文指出，当前大语言模型在生产环境中普遍存在“文本退化”现象，表现为输出内容重复、不连贯或逻辑混乱。

6月27日

OpenRouter 基准探索器：10项帕累托曲线

使用我们的基准探索器，为10个不同基准绘制帕累托曲线。

6月26日

静态基准测记忆而非智能

如果你的基准测试依赖于静态数据集或从训练时已知的静态分布中采样，那么它本质上衡量的是记忆/检索。

6月16日

伯克利RDI发布Agents' Last Exam基准

2026年6月，伯克利RDI发布Agents' Last Exam（ALE）基准，包含1，500余项源于真实工作的任务，覆盖55个非体力职业。

6月1日

DAA：智能体时代的核心指标

这里快速补充一个指标新词：DAA。全称 Daily Active Agents（每日活跃智能体），相当于智能体时代的 DAU。