← Agent、企业流程与业务入口

开发者用的开源AI工具与框架

这条讲程序员社区冒出的一堆开源AI工具:视觉工具包、PDF处理、数据库、模型评估台、各类技能包。风向是给开发者用的AI零件越来越多、越来越免费,属技术圈基建,离硬件产品较远
7月4日
Taste Skill开源规则集:根治AI界面模板感
Fable 5虽能快速生成高水准UI,但默认输出千篇一律、缺乏设计品味。
7月3日
基于 lift-pdf 的 Schema 引导发票智能流水线:应付账款提取、验证与账目生成
本教程使用 lift-pdf 构建端到端应付账款提取流水线,将发票解析视为 Schema 引导的文档理解,而非简单 OCR。
7月3日
claude-real-video ─ 让任何大语言模型(LLM)都能观看视频
claude-real-video 是一个开源工具,让大语言模型基于视频画面而非字幕进行理解。
7月3日
Datasette Agent
Datasette Agent是Datasette推出的首个可扩展AI助手,为用户提供对话式界面以查询数据,并支持通过插件生成图表。
7月3日
Current AI 发布 Open Source AI Gap Map v0.1
Current AI(2025年2月巴黎AI行动峰会成立的非营利组织,
7月2日
如何设计OpenHarness风格Agent运行时:工具、记忆、权限、技能与多智能体协调
本教程从零构建OpenHarness,一个可运行的Agent运行时,
7月2日
browser-compat-db:将 MDN 浏览器兼容性数据转为 SQLite 数据库
Simon Willison 受 Mozilla 新 MDN MCP 服务启发,
7月2日
RAG-Anything 教程:在 Colab 中构建文本、表格、公式和图像的多模态检索管道
本教程使用 RAG-Anything 搭建多模态检索工作流,可检索文本、表格、公式和图像。
7月2日
OpenClaw iOS UI维护者回应批评邀参与
主推文只是说“把这段留给喷子”。引用推文中,Colin自我介绍:他是OpenClaw iOS UI的主要贡献者之一,作为志愿者维护者,他接受公开批评。
7月2日
OpenClaw 2026.5.19版本发布
OpenClaw 2026.5.19 🦞 📱 Android Talk Mode 实现实时化 🍎 Mac 设置界面更清爽 🔐 xAI 登录支持无头模式…
7月2日
LLM-as-a-Judge 10分钟快速入门
LLM-as-a-Judge 在约10分钟内解释完毕。 学会构建AI验证器和裁判是当今最重要的新兴AI技能之一。
7月2日
Google Health API 推出 CLI:ghealth 是一款针对 Fitbit 数据的开源工具
ghealth 是一款封装 Google Health API v4 的开源命令行工具,以单个 Go 二进制文件发布(Apache 2.0 协议)。
7月2日
DAIR.AI 新技能/learn:智能体定制学习计划
沉迷于我们新的 /learn 技能。 这是我最喜欢的学习和研究主题的方式。
7月1日
社区如何利用Tunix和TPU训练Gemma学会“思考”
Google在Kaggle举办的Tunix黑客马拉松,挑战开发者利用TPU和有限算力,将小型基础模型转变为通用推理引擎。
7月1日
前端动效查词、打磨与审查AI Skill
Vista 分享一个前端开发 Skill,可当作专业动效字典使用:通过 `animation-vocabulary` 查询“列表一个个冒出来”等动效的标…
7月1日
使用 Lift 将研究 PDF 转换为结构化 JSON:受控的、模式引导的字段级评估
Lift 是一个 PDF 到结构化数据的提取工具,本教程构建了完整的受控评估工作流。
7月1日
tufalabs开源第一名notebook 有望解锁新浪潮
tufalabs 刚刚开源了他们获得第一名的 notebook。主推文表示,这有望解锁新一波更好的参赛作品
7月1日
mattpocockuk 的 /writing-great-skills:编写可预测 AI Skill 的指南
mattpocockuk 的 /writing-great-skills 成为其最常调用的 Skill,指导如何编写稳定可预测的 AI Skill。
7月1日
Google TimesFM 2.5:轻量化时序预测模型支持零样本与LoRA微调
Google Research 于2024年开源时序预测基础模型TimesFM(ICML 2024),采用预训练+零样本预测范式。
6月30日
用 shot-scraper video 让 AI 智能体录制工作演示视频
shot-scraper 1.10 新增 shot-scraper video 命令,支持通过 storyboard.yml 文件定义操作步骤,
6月30日
开放模型扩展的推荐阅读
推荐阅读,如果你正在使用开放模型进行扩展。 顺便说一句,你应该思考如何使用开放权重模型进行扩展
6月30日
RLHF Book代码库新增on-policy自蒸馏示例
很高兴宣布 @zafstojano -- 一位新增的维护者,他帮助我维护 RLHF Book 代码 -- 向代码库添加了一个简单的在线策略自蒸馏示例,
6月30日
Google DeepMind 开源科学智能体工具包
构建用于科学发现的自主智能体?🧬🤖 @GoogleDeepMind Science Skills 现已在 GitHub 上发布。
6月30日
Gemini 3.1 Flash Lite 驱动 Chrome 扩展自动转 Skills
这个 Chrome 扩展让你在浏览器中录制操作,再由 Gemini 3.1 Flash Lite 自动将这些任务转换为 Skills。
6月30日
Claude托管代理新增两项安全功能
我们为Claude Managed Agents增加了两项安全改进。 自托管沙箱将代理的执行环境保留在您的基础设施或托管沙箱提供商处。
6月30日
Bristol项目:将报告变成可交互可视化HTML
由 LayerProof 推出的 Bristol 项目,旨在用可交互 HTML 报告替代传统静态 PDF。
6月30日
Apache Burr:构建可靠的人工智能代理和应用程序
Apache Burr 是一个用于构建可靠 AI 智能体和应用程序的框架,已在 Apache 基金会下发布。
6月29日
技能制作流程:子智能体研究与蒸馏
我非常喜欢这个技能制作流程: - 设置能进行深度研究的子智能体 - 针对某事物不同角度要求进行X次研究运行 - 将研究报告蒸馏成一份SKILL.md文件…
6月29日
我国开源生态版图扩容,新增人工智能与具身智能等7项目
央视财经报道,我国开源生态版图进一步扩容,新增人工智能、具身智能等7个项目。
6月29日
开源Bugu - 防止合盖休眠的macOS菜单栏应用
Bugu(布谷)是一款macOS菜单栏应用,防止合盖后电脑休眠,
6月29日
创新一周年:庆祝Google Cloud x NVIDIA开发者社区达到10万会员
Google Cloud与NVIDIA开发者社区迎来成立一周年,会员规模突破10万。
6月29日
qiaomu-lucky 开源抽奖工具发布
开发者@vista8 针对微信群福利场景,Vibe Coding 了一个轻量抽奖工具 qiaomu-lucky。
6月29日
Supervision:Roboflow计算机视觉开源工具包,45K Stars
Roboflow出品的Supervision工具包已获45K GitHub Stars,三周增长5K。
6月29日
Moxt 更新多Agent编排工作流
Moxt 更新了多agent编排的工作流。 支持自动一群 Agent 帮你协作完成任务,而且还能重复驱动完成更长的任务
6月29日
Models.dev:一个关于人工智能模型规格、定价和功能的开源数据库
近期发布了开源数据库Models.dev,专门收录人工智能模型的各项规格、定价及功能信息。该项目在GitHub公开,便于开发者查询和比较不同AI模型。
6月29日
Memora可扩展记忆系统解决AI记忆问题
AI智能体无法记住过去的对话。它们必须不断加载或检索上下文,随着任务变得更长更复杂,效率越来越低。
6月29日
Grok模型登陆Cloudflare AI Gateway
在 @Cloudflare 的 AI Gateway 上尝试 Grok 模型!
6月29日
EverOS:开源Markdown优先智能体记忆运行时,支持混合检索与自进化技能
EverMind 推出开源智能体记忆运行时 EverOS(Apache 2.0 许可)。
6月28日
百度Unlimited-OCR登顶HuggingFace模型榜
baidu/Unlimited-OCR 现在在 HuggingFace 上排名第一
6月28日
开放互联网孕育AI,开源保障AI不被封闭
强调开放互联网是现代AI的训练基础--数十亿文本、论坛帖子、代码仓库、百科、论文、博客等共同构建了全球知识空间,这一自由知识已被转移进AI。
6月28日
pgvector驱动的语义、混合、稀疏与量化向量搜索系统构建编码指南
本教程在Google Colab中构建一个完整的pgvector实验环境,展示PostgreSQL如何作为向量数据库服务于现代AI应用。
6月28日
instructor 1.15.4 发布
instructor 1.15.4 发布 主要是维护性扫除: - 修复了 v2 列表/标量响应模型 - 保留了流式 JSON 字符串中的反引号 - Im…
6月28日
OpenClaw 2026.6.1发布:新增Windows节点与技能工坊
OpenClaw 2026.6.1 已上线 🦞 🪟 原生 Windows 节点主机 🛠️ 用于自主学习型智能体的技能工坊(Skill Workshop)…
6月28日
Anthropic 开源 AI 驱动漏洞发现框架
Anthropic 将其用于 AI 驱动漏洞发现的开源框架代码托管在 GitHub 上。该框架借助 AI 技术进行漏洞发现,旨在帮助识别软件中的安全缺陷
6月27日
安装知识记忆MCP,体验AI对话与个人知识库
装上了 @wey_gu 的knowledge mem,配置了MCP AI对话记忆,还有个人知识库还是挺关键的,等我试试体验下。 下载地址见评论区
6月27日
Vercel 发布开源 AI 智能体框架 Eve:每个智能体就是一个文件目录
Vercel 发布开源 AI 智能体框架 Eve(npm 包,Apache-2.0 许可)。
6月27日
Meta 开源 Astryx(Beta):基于 React 和 StyleX 的 AI 就绪设计系统
Meta 本周发布 Astryx(Beta),一个基于 React 和 StyleX 的开源设计系统。
6月27日
BrowserBC开源:人类浏览器轨迹转可复用技能
ViDA 团队开源的 BrowserBC 项目,探索更高效的 web agent 运行方式:先用强模型录制一次人类浏览器操作流程,将其蒸馏为可复用技能,
6月26日
阿里云开源百炼 CLI,Agent 可调用全套模型和应用能力
阿里云开源百炼 CLI,Agent 可调用全套模型和应用能力
6月26日
商汤 SenseNova U1 完整训练代码开源并发布 smoke-test 数据集
商汤开源 SenseNova U1 完整训练代码,提供可检查、可修改、可重建的完整训练栈。
6月26日
Model Sets 功能上线,支持保存自定义模型组
应大家要求,Model Sets 现已上线!你可以保存自定义的模型选择,并立即将其应用于所有图表
6月26日
Axiom官方插件:检查日志与分类问题
使用官方Axiom插件检查日志并分类问题
6月25日
百度开源 Unlimited OCR:用 R-SWA 技术实现“一次推理数十页”文档抄写
百度开源全新 Unlimited OCR 模型,采用参考滑动窗口注意力(R-SWA)技术。
6月25日
开源 Skills 系列新增「loop-me」技能:通过拷问挖掘重复模式生成工作流规格
开源 Skills 系列(165K stars)新增 in-progress 技能「loop-me」。
6月25日
免费LLM路由工具:零成本撸10亿+Token
一款开源路由框架(非API售卖),让用户自行申请各厂商免费API密钥,通过配置实现自动负载均衡与故障切换,从而零成本使用10亿+免费LLM Token。
6月25日
《圣经》作为RAG数据库
一个将《圣经》文本作为RAG(检索增强生成)数据库的网站,提供基于圣经内容的问答检索功能,项目地址为crosscanon.com
6月25日
PaddleOCR PP-OCRv6 上架 HuggingFace
PaddleOCR 的 PP-OCRv6(对应 PaddleOCR 3.7)正式上线 HuggingFace,精度进一步提升,
6月25日
OpenWebUI已运行于OpenRouter:统一界面与推理
界面 + 推理,合二为一。 @OpenWebUI 现运行于 OpenRouter。
6月25日
GitHub 122K⭐的Skills推出新技能「Teach」:把工作目录变有状态学习空间
GitHub 122K⭐的Skills仓库推出新技能Teach,可将当前工作目录变为有状态学习空间。
6月25日
2025 中国开源年度报告:OpenHarmony 登顶全球,7 年后中国开发者贡献度有望超过美国
开源社发布《2025中国开源年度报告》。GitHub平台中国活跃开发者超210万,全球第三。
6月24日
百度发布 Unlimited-OCR 演示
百度发布了 Unlimited-OCR,推荐通过这个演示体验
6月24日
用Qwen2.5-3B构建多智能体经济体:工程报告
开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体,每个智能体独立运行,通过vLLM部署在Modal,以Gradio为交互窗口。
6月24日
快手KroWork:将AI Skill工作流打包成本地桌面App
快手新发布KroWork,能将多个AI Skill串成的工作流直接打包为本地桌面应用。
6月24日
如何用 OpenRouter 接入任意编码代理或 AI 工具
OpenRouter 提供统一 API 键(sk-or- 开头),兼容 OpenAI Chat API,可接入 300+ 模型和 60+ 供应商。
6月24日
介绍 Ettin Reranker 系列
通过开源和开放科学的方式推动人工智能的发展与普及。
6月23日
无限制OCR:单次长时域解析
Unlimited OCR 是一个托管在 GitHub 的项目,实现单次长时域解析(One-Shot Long-Horizon Parsing),
6月23日
京东全栈开源JoyAI-VL-Interaction,从“一问一答”走向“边看边说”
京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction,获vLLM-Omni原生支持。
6月23日
Latitude 开源 AI 智能体监控平台,将对话转化为调试数据
Latitude 发布 MIT 许可的开源监控平台,将 AI 智能体对话转为生产调试数据。
6月23日
KroWork:AI对话秒变可重用桌面应用
KroWork 新发布,解决 AI 智能体每次运行后会话即失效的痛点。
6月23日
Datalab 发布 lift:9B 开放权重视觉模型,依据 Schema 从 PDF 提取结构化 JSON
Datalab 推出 9B 参数开放权重视觉模型 lift,用于结构化提取。
6月22日
HAKARI-Bench:统一条件下比较检索架构与效率设置的轻量级基准
HAKARI-Bench 是一个轻量级检索基准,将现有检索套件重建为小型数据集(Nano-sets),
6月19日
LlamaIndex 团队基于 Google Agents API 构建 LlamaParse/LiteParse 智能体模板
LlamaIndex 团队基于 Google 新发布的 Agents API 构建了一个模板,
6月19日
阿里开源向量数据库Zvec,UCSD黄碧薇教授提出因果AI第四代范式
阿里开源内部向量数据库Zvec,pip install zvec免费使用,对标Pinecone每月70美元能力。
6月19日
/youtube-notetaker:YT 视频转 Artifacts
YT 视频 -> Artifacts 看看我如何使用新的 /youtube-notetaker 技能从 YT 视频生成 Artifacts。
6月18日
如何将 SillyTavern 连接到 OpenRouter(2026 指南)
一个 OpenRouter API 密钥即可在 SillyTavern 的下拉菜单中解锁 300 多个模型,其中许多免费。
6月18日
cuTile Rust:安全无数据竞争的 GPU 内核系统
cuTile Rust 是一个基于 tile 的 GPU 编程系统,允许用 Rust 编写内存安全、无数据竞争的内核。
6月18日
OpenClaw 接入 OpenRouter
OpenClaw 已内置 OpenRouter 支持,一条命令即可为 AI 智能体配置统一密钥、统一账单,并实现跨 300 多个模型的自动故障转移。
6月17日
Matt Pocock 开源 skills v1:将技能描述 Token 成本降低 63%
Matt Pocock(Total TypeScript 作者)开源了 skills v1,将技能描述的 Token 成本降低 63%。
6月17日
GitHub 发布 CC0-1.0 开源多语言仓库级数据集,覆盖 README、Issue 和 PR
GitHub 推出一个新的仓库级数据集,采用 CC0-1.0 许可证,
6月17日
Cloudflare 发布 Cloudflare One stack:智能体驱动的部署工具集
6月17日,Cloudflare 推出 Cloudflare One stack,一组可直接赋予 AI 智能体的技能文件,
6月15日
Flash-KMeans:IO感知的精确K-Means,在GPU上比FAISS快200倍以上
UC Berkeley与UT Austin团队开源Flash-KMeans(Apache 2.0,
6月14日
乔木小说创作 Skill 开源发布
开源乔木小说创作 Skill,用户只需说“我想写一个小说”或指定风格,AI 自动生成剧情梗概、人物设定、钩子、经典桥段、人物欲望、冲突升级和结尾。
6月13日
Paca:一款适用于人机协作的轻量级 Jira 替代方案
Paca 是一款面向人类与 AI 智能体协作场景的轻量级项目管理工具,旨在替代 Jira。
6月12日
olmo-eval:面向模型开发循环的评估工作台
olmo-eval 是基于 OLMES 标准构建的评估工作台,专为 LLM 持续开发中的反复评测场景设计。
6月12日
inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型
VISTA-4B 是基于 Qwen3.5-4B 骨干的 GUI 定位模型,输入截图与自然语言指令,输出归一化 0-1000 坐标。
6月12日
OpenRouter 模型路由工作原理
OpenRouter 将每个请求路由到 60 多家提供商,用户可自定义提供商顺序、价格上限和回退链,从而灵活控制路由策略
6月10日
Replit 联合 Socket 推出 Package Firewall
大多数人在发布项目前会运行安全扫描以检测恶意包 但风险从安装的那一刻就已开始 今天,我们正式推出 Package Firewall,
6月9日
快手开源 Kwai Keye-VL-2.0-30B-A3B:面向长视频理解与智能体智能的 MoE 多模态模型
快手开源 Kwai Keye-VL-2.0-30B-A3B,一个 MoE 多模态基础模型,激活仅 3B 参数,专为长视频理解和智能体智能设计。
6月9日
Responses API 网页搜索新增图片结果
你的应用现在可以搜索网页上的图片。 Responses API 中的网页搜索现在除了文本结果外,还支持图片结果,
6月9日
OpenCV 5 发布:升级全新 DNN 引擎、原生支持大模型
OpenCV 5 正式发布,采用基于图的 DNN 引擎,ONNX 算子覆盖率从 4.x 的不到 23% 提升至超 80%,
6月9日
DeLM:去中心化多智能体系统框架
DeLM是一种去中心化多智能体系统框架,通过并行智能体、共享已验证上下文和任务队列避免中央控制器瓶颈。
6月8日
小互开源视频翻译工具:一句话自动下载、转写、翻译、烧字幕
小互(@xiaohu)开源视频翻译工具(xiaohu-video-translate),
6月7日
Harness-1:基于强化学习训练的有状态搜索20B检索子智能体
UIUC与Chroma联合推出Harness-1,一个20B参数的检索子智能体。
6月5日
腾讯混元联合人大开源PlanningBench评估框架
腾讯混元(Tencent Hunyuan)与中国人民大学高瓴人工智能学院合作,
6月5日
开源鸿蒙 OpenHarmony 具身智能版本 EmbodiedAI 1.0.1 发布
6月5日,开源鸿蒙具身智能PMC(筹)发布EmbodiedAI 1.0.1版本。
6月5日
PolarDB-X Zero 上线:30秒全分布式数据库
PolarDB-X Zero 上线了! 无需注册。无需配置。只需一次 API 调用。 30 秒内获得一个全分布式数据库。
6月5日
Google Colab CLI 发布
Google 推出 Colab 命令行界面(CLI),允许开发者和 AI 智能体将本地终端连接到远程 Colab 运行时,实现无摩擦执行。
6月5日
375个公众号RSS源优化Agent输入
你的 Agent 还在全网垃圾里捞内容?不如先喂它 375 个高质量微信公众号 RSS 源。 🔽
6月4日
OpenAI API 新增内容审核评分
Moderation scores 现已在 Responses API 和 Completions API 中可用。
6月4日
EVA-Bench Data 2.0:3 大领域、121 个工具、213 个场景
ServiceNow-AI 发布 EVA-Bench Data 2.0 数据集,覆盖 3 个领域、121 个工具和 213 个场景,
6月3日
Karpathy 的 llm-wiki 项目获超五千星
@karpathy 的 llm-wiki 在几周内获得了 5,000+ 颗星。 其理念是:停止在每个会话中重新发现知识。
6月2日
商汤开源SenseNova-Skills AI办公技能套件
商汤开源了AI办公技能套件SenseNova-Skills。
6月2日
Ultralytics YOLO26:统一实时端到端视觉模型
Ultralytics YOLO26 采用双头设计实现原生无 NMS 的端到端推理,彻底移除 DFL,获得更轻检测头与无约束回归范围。
6月2日
Holo3.1:快速本地计算机使用智能体
Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列,旨在提升在桌面、网页和移动环境中的鲁棒性。
6月1日
OpenWebRL:面向视觉网页智能体的在线多轮强化学习开源框架
OpenWebRL是一个用于在真实网站上通过在线多轮强化学习训练视觉网页智能体的开源框架,覆盖了完整的训练流程。
6月1日
OpenBMB发布UltraData两大开源数据集,登顶HuggingFace趋势榜
OpenBMB联合清华NLP与Modelbest发布两个开源数据集:Ultra-FineWeb-L3(预训练合成数据)包含600B+ tokens(超4…
6月1日
Apache RocketMQ 发布 AI 专用消息引擎
🚀 Apache RocketMQ 为 AI 升级!推出 RocketMQ for AI--一个专为长时间会话、多智能体工作流和公平资源调度构建的新消息…
5月28日
发布 Search Toolkit
Mistral AI 发布了 Search Toolkit 的公共预览版。这是一个用于构建 AI 应用生产级搜索管道的可组合框架。
5月28日
hexoai开源SIA框架:AI智能体实现递归自我改进
hexoai开源了SIA(自我改进AI)框架。该框架展示了AI智能体不仅能优化其外部工作流(harness),还能通过任务反馈直接更新自身的模型权重,
5月28日
WorldMemArena:通过行动-世界交互循环评估多模态智能体记忆
针对现有基准无法精确诊断多模态智能体记忆在动态环境中的具体失败阶段,研究提出了“行动-世界交互循环”记忆模型,并构建了WorldMemArena基准。
5月28日
"龙虾之父“Peter 开源 skill-cleaner,为 AI 智能体技能”做体检"
"龙虾之父"Peter 开源了 skill-cleaner 工具,用于诊断和优化 AI 智能体的技能提示词。
5月27日
阿里云成为PyTorch基金会白金会员
阿里云宣布以白金会员身份加入PyTorch基金会。
5月27日
软件之后是AI时代
软件时代正过渡至“智能体框架”时代。AI作为强大但需驯化的“野马”,
5月24日
OpenClaw 2026.5.22发布:性能优化与安全加固
OpenClaw 2026.5.22 已上线 ⚡ Gateway/模型启动路径更精简 🧠 /models 响应时间降至约5毫秒 🔒 npm包现提供锁定依…
5月20日
开源油猴脚本实现多平台截图上传与内容处理
开源油猴脚本实现小红书、抖音、微信公众号的截图粘贴自动上传,
5月20日
OpenRouter自动路由缓存机制说明
提示💡 你无需担心自动路由(以及所有单独模型)的缓存未命中问题 OpenRouter会将你的会话固定在一个模型/提供商上,直到缓存过期
5月19日
GoLongRL:面向能力的长期上下文强化学习与多任务对齐
GoLongRL是一个全开源的长期上下文强化学习方案,聚焦于使用可验证奖励的强化学习。
5月19日
Forge:通过防护机制大幅提升8B模型性能的可靠性层
Forge 是一个为自托管大语言模型设计的可靠性层,专注于提升工具调用能力。
5月18日
构建长期代理的基础要素
构建长期代理的一些基础要素:https://openrouter.ai/long-horizon