← 端侧AI、本地推理与云端成本

算力按量计费且越来越便宜

这条讲云端AI调用变成像水电一样按量计费,而且价格一路走低:运营商推出最低几元的套餐,百万次调用降到几块钱,国产开源模型靠性价比压低国外定价。整体风向是用AI的门槛和单价在快速下降,属于云端服务的价格战
7月4日
MiMo 2.5 Pro大幅降价,与DeepSeek V4 Pro同价
小米MiMo-V2.5系列API价格永久下调,最高降幅达99%,现与DeepSeek V4 Pro同价。
7月4日
DeepSeek V4 正式版 7 月中旬上线,API 引入峰谷定价
DeepSeek 团队 6 月 29 日宣布,DeepSeek V4 正式版计划于 7 月中旬上线,届时 API 定价将引入峰谷机制,
7月3日
阿里巴巴升级大模型组织架构 成立Token Foundry事业部
阿里巴巴宣布合并通义大模型事业部和未来生活实验室,成立Token Foundry事业部,由集团CEO吴泳铭直接负责。据了解,此次调整涉及到一批AI业务。
7月3日
烧15B tokens只为Anthropic营收
朋友:"上周我烧了15B tokens。" 我:"你建了什么?" 他:"啥也没建,基本都给Anthropic贡献收入了。"
7月3日
中信证券:国产算力主线明确 龙头业绩有望加速兑现
中信证券研报指出,2026年6月30日美团发布首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型,当前国产算力系统能力从推理升维至训练,
7月3日
Meta 筹建云服务业务,计划对外售卖闲置 AI 算力与模型
Meta 正在规划一项新的云基础设施业务,拟将闲置的 AI 算力和自研模型(包括 Muse Spark 模型)通过类似亚马逊 AWS Bedrock 的…
7月3日
Condense.chat 开放压缩代理,降低AI编程智能体token成本
Condense.chat 推出位于 AI 编程智能体与模型之间的压缩代理,可降低 token 费用。
7月3日
AI经济学巨变:测试时计算即能力
关于未来需要理解非常重要的一点:AI 的经济学即将彻底改变。
7月2日
不可持续的补贴
三大AI厂商定价策略出现显著分化:Google的AI价格年增两倍,但其旗舰模型Gemini 3.1 Pro(输入2美元、输出12美元)仍是市场最低价;
7月2日
Qoder平台限时半价使用Qwen3.7-Max模型
🙌🙌 【引用 @qoder_ai_ide】:Qwen3.7-Max,半价。
6月30日
谷歌每月处理超 3200 万亿 Token,同比增长 7 倍
在2026年谷歌I/O开发者大会上,谷歌宣布其AI业务关键指标大幅增长。2026年5月,谷歌每月处理的Token数量超过3200万亿,同比增长达7倍。
6月30日
消息称亚马逊 AWS 将按 Token 向 Anthropic 支付模型使用费
亚马逊与Anthropic达成新协议,在AWS上运行Anthropic模型时将按Token而非算力付费。
6月30日
封堵难阻决心用户获取Claude tokens
历史告诉我们,访问封锁很少能阻止有决心的用户。 https://www.chinatalk.media/p/how-to-buy-cheap-claud…
6月30日
华为云通过中国信通院“可信AI-Token服务质量评估”
中国信息通信研究院长期关注高质量词元(Token)服务的发展,
6月30日
中国策略:降智能成本至能源成本,输出超美
中国的策略非常简单。 将智能成本降至能源成本 输出超过美国 巨型训练集群的专注是一个巨大的干扰
6月30日
OpenRouter完成1.13亿美元B轮融资
今天我们宣布完成由@CapitalGVC领投的1.13亿美元B轮融资。
6月30日
Fireworks AI 推出 Serverless 2.0,通过三种服务层级解决 503 拒绝请求问题
Fireworks AI 推出 Serverless 2.0,
6月30日
Etched:推理市场将成全球最大市场
推理将成为全球最大的市场,智能的需求无限 Etched正在带来AI夏季
6月30日
Coinbase实验默认使用中国开源模型GLM 5.2与Kimi 2.7
Coinbase CEO Brian Armstrong透露,
6月30日
ClinePass 上线:月费 $9.99 畅用最新开源模型
Cline 推出 ClinePass 订阅服务,月费 $9.99,
6月29日
中国移动在全国上线词元套餐 价格最低为5元月包
中国移动宣布在全国上线词元(Token)套餐。此次中国移动创新推出统一算力量纲,其将不同模型、不同规格的词元消耗统一封装为标准积分,
6月29日
Together AI 月处理 400T tokens
Together AI 月处理 400T tokens
6月26日
武汉拟发1亿元“算力券” 让算力像水电一样用得起
武汉市数据局局长王烁26日上午在“激活数据要素价值”相关主题新闻发布会上介绍,武汉已建成8个智算中心、1个超算中心,
6月26日
Meta将推出AI聊天机器人订阅服务 月费最低7.99美元
Meta 首次开始向消费者销售Meta AI聊天机器人订阅服务,或将有助于部分抵消其在AI领域的巨额支出。新推出的订阅服务分为两档。
6月25日
高盛研究:AI智能体token使用量预计到2030年增长24倍
高盛研究预测,到2030年AI智能体token使用量将增长24倍。单个智能体任务可能消耗正常回答10倍、50倍甚至更多token。
6月25日
面壁智能曾国洋出席APEC中小企业工商论坛,以“高效+开源”加速大模型普惠
6月24日,面壁智能联合创始人兼CTO曾国洋在APEC中小企业工商论坛指出,大模型产业已从拼参数规模转向拼能力密度与落地实效。
6月25日
Token 消耗激增,Gartner 预测到 2028 年 AI 编程成本将超过人类开发者平均薪资
Gartner 报告指出,到 2028 年 AI 编程成本将超普通开发者薪资。
6月25日
OpenAI 正酝酿“大幅”降价,Gary Marcus 视其为示弱信号
OpenAI 正考虑大幅降价,Gary Marcus 认为这暴露了公司的疲软竞争力
6月25日
Dify异常分支免费节点兜底省钱法
基于 Dify 异常分支的省钱小妙招 增加一个 openrouter/free 节点处理,异常时使用 flash 模型兜底,每天可以调用 1000 次
6月24日
豆包官宣推出专业版 国产模型正跨越生产力“质变点”
24日上午,豆包官宣推出基于最新豆包2.1系列大模型打造的豆包专业版。
6月24日
火山引擎「万亿Tokens俱乐部」企业超200家,他们让AI长出实效
火山引擎「万亿Tokens俱乐部」企业超200家,他们让AI长出实效
6月24日
Kimi API上线AWS Marketplace
Kimi API 现已上线 AWS Marketplace。🚀 如果你的团队已经在使用 AWS,现在可以通过合并计费访问 Kimi。
6月21日
Token成为AI产业核心计量单位 成本优化成落地关键
“人工智能正从训练阶段全面迈入推理阶段,Token调用量的指数级增长,是AI规模化应用最直接的量化标志。
6月19日
如何在OpenRouter上获得最低成本的LLM推理
在OpenRouter上追加`:floor`可获取最便宜提供商,通过`max_price`设定花费上限,并可免费使用20多个零成本模型。
6月19日
人民锐评:新能源车太“胖”、token太“耗”?盲目堆料不如更聪明地创造
据人民锐评,当前,新兴产业发展中的两类现象引发热议。一是新能源车越造越“重”、越造越“胖”。
6月17日
记者实探三大运营商:Token套餐宣传火热 落地推进滞后|一线
三大运营商集中上线 Token 套餐,AI算力进入话费支付时代? 从卖语音到卖流量,再到卖Token,三大运营商正在完成第三次业务范式切换。
6月17日
北京:支持企业采购并消费词元(Token)开展人工智能应用
北京市经济和信息化局印发《北京市关于支持工业企业提质增效若干措施》,其中提出,推动企业智能化升级。
6月16日
华孚时尚旗下华孚科技推出Token工厂解决方案
据华孚时尚官微11日消息,华孚时尚旗下华孚科技基于华孚MaaS平台推出标准化Token生成服务。
6月15日
OpenRouter新增免费模型gpt-oss-20b和Gemma4 26B
OpenRouter 上新增免费容量,由 @eigenlabs 的 Darkbloom 提供:gpt-oss-20b 和 Gemma 4 26B。
6月13日
粤港澳大湾区枢纽公共算力服务平台Token工厂在韶关正式点亮
据软通动力消息,6月12日,第五届粤港澳大湾区算力产业大会召开。
6月13日
OpenAI被逼入价格战?企业都学聪明了:中国模型“极致性价比”!
AI领域的“Token价格战”无疑已经打响…… 面对人工智能成本的急速攀升,
6月13日
Fusion API:半价达Fable级智能
推出Fusion API,市场上最智能的复合模型。 Fusion以一半的价格实现Fable级别的智能。 工作原理如下👇
6月11日
百万Token只要几块钱 算力价格还在往下降
在大模型与各类AI应用加速迭代扩张的当下,头部企业凭借雄厚资本纷纷布局规模化算力集群,而众多中小AI创业主体自建算力设施,不仅前期投入大,
6月10日
青云科技与江原科技达成生态合作 共建国产算力词元工厂
据青云科技消息,近日,青云科技与江原科技正式签署生态合作协议。
6月9日
OpenRouter Advisor 助小模型问高级模型
新服务器工具:Advisor 让较小的模型咨询一个更高智能的“顾问”模型。 帮助它们逃出困境循环,并帮助你迁移到更便宜的模型!🧵
6月2日
Token超市来了 买算力就像买水电一样方便了
当前,Token的调用量正迎来爆发式增长。国家数据局数据显示,我国日均Token调用量已从2024年初的1000亿跃升至2026年3月的140万亿。
6月1日
Auto Router 新增成本质量权衡参数
Auto Router 现在允许你调整其在成本与质量之间的权衡。
5月26日
蚂蚁集团:Token消耗将迎来指数级增长 2030年预计消耗量增长超300倍
支付宝今日举行AI支付生态大会。会上,蚂蚁集团研究院院长庄蹯表示:“Token、数据和工具等数字资源成为最重要的生产要素,
5月25日
Qwen3.7-Max隐式缓存功能上线
✅隐式缓存现已在Qwen3.7-Max上线--自动启用,无需设置。 ⚡️开箱即用,更快更便宜。 需要更高、更确定的命中率?请尝试显式缓存。
5月24日
DeepSeek将对其旗舰AI模型实施永久性75%折扣
DeepSeek将对其旗舰AI模型实施永久性75%折扣
5月22日
智谱GLM-5.1高速版发布:刷新全球大模型API速度纪录
5月22日,智谱向部分企业客户推出了旗舰大模型GLM-5.1的高速版API"GLM-5.1-highspeed"。
5月22日
智能体工作负载悄然重塑推理经济|智能体工作负载正在悄然重塑推理经济学。我们从SemiAnalysis的43.2万个真实编码智能体请求中提取数据,发现中位数并非3
智能体工作负载悄然重塑推理经济|智能体工作负载正在悄然重塑推理经济学。
5月21日
爱计算与硅基流动签署算力联合运营合作协议 共建高效“Token工厂”
近日,武汉光谷爱计算有限公司(简称“爱计算”)与北京硅基流动科技有限公司(简称“硅基流动”)正式签署算力联合运营合作协议。