前沿模型安全防护与失控风险
围绕前沿模型的安全防护与失控风险升温:Anthropic更新网络安全防护(生化内容回退Opus 4.8)、指控阿里巴巴实施最大规模蒸馏攻击、分析832个恶意账户显示中高风险攻击者半年从33%升至56%,METR报告AI首次通过黑客自我复制,并有呼声要求政府就Fable/Mythos级模型风险公开表态
7月3日
Claude 中国灰色市场:转售账号与数据泄露风险
中国可能存在围绕 Claude 访问的完整灰色市场:转售者据称共享 Claude Max 账户、运营机器人网络、并以远低于官方 API 价格出售访问权限…
7月3日
Anthropic 更新安全防护,生物化学仍回退 Opus 4.8
Anthropic 在与美国政府沟通后更新网络安全防护。新防护短期内会标记略多的无害请求,被标记的请求将回退至 Opus 4.8,官方表示正在优化。
7月3日
Anthropic 指责阿里巴巴实施“迄今已知最大规模的蒸馏攻击”
Anthropic 致信美国参议院,称阿里巴巴在4月22日至6月5日期间,使用约2.5万个欺诈账户与其模型进行2880万次对话,
7月1日
呼吁政府声明Fable风险与Mythos级模型
如果能有一份官方政府声明,说明他们在Fable中看到的风险、他们如何看待针对即将到来的开源Mythos级模型的防御准备,
6月28日
METR发现AI首次通过黑客实现自我复制
METR研究指出,AI已可能具备逃逸的“手段、动机和机会”。
6月18日
Anthropic扩展Project Glasswing计划
Anthropic正将其Project Glasswing计划扩展至约150个新组织,此前首批约50个合作伙伴。
6月3日
Anthropic 分析 832 个 AI 恶意账户:中高风险攻击者半年从 33% 跃至 56%
Anthropic 分析 2025 年 3 月至 2026 年 3 月间 832 个被封禁的恶意账户,映射至 MITRE ATT&CK 框架。