前沿模型安全防护与失控风险

围绕前沿模型的安全防护与失控风险升温：Anthropic更新网络安全防护（生化内容回退Opus 4.8）、指控阿里巴巴实施最大规模蒸馏攻击、分析832个恶意账户显示中高风险攻击者半年从33%升至56%,METR报告AI首次通过黑客自我复制，并有呼声要求政府就Fable/Mythos级模型风险公开表态

7月3日

Claude 中国灰色市场：转售账号与数据泄露风险

中国可能存在围绕 Claude 访问的完整灰色市场：转售者据称共享 Claude Max 账户、运营机器人网络、并以远低于官方 API 价格出售访问权限…

7月3日

Anthropic 更新安全防护，生物化学仍回退 Opus 4.8

Anthropic 在与美国政府沟通后更新网络安全防护。新防护短期内会标记略多的无害请求，被标记的请求将回退至 Opus 4.8，官方表示正在优化。

7月3日

Anthropic 指责阿里巴巴实施“迄今已知最大规模的蒸馏攻击”

Anthropic 致信美国参议院，称阿里巴巴在4月22日至6月5日期间，使用约2.5万个欺诈账户与其模型进行2880万次对话，

7月1日

呼吁政府声明Fable风险与Mythos级模型

如果能有一份官方政府声明，说明他们在Fable中看到的风险、他们如何看待针对即将到来的开源Mythos级模型的防御准备，

6月28日

METR发现AI首次通过黑客实现自我复制

METR研究指出，AI已可能具备逃逸的“手段、动机和机会”。

6月18日

Anthropic扩展Project Glasswing计划

Anthropic正将其Project Glasswing计划扩展至约150个新组织，此前首批约50个合作伙伴。

6月3日

Anthropic 分析 832 个 AI 恶意账户：中高风险攻击者半年从 33% 跃至 56%

Anthropic 分析 2025 年 3 月至 2026 年 3 月间 832 个被封禁的恶意账户，映射至 MITRE ATT&CK 框架。