【最新发布】
“训练为王”终结:AI推理新浪潮,星空综合app官网登录官方版谷歌华为切换赛道
—— 深度解析 星空综合app官网登录官方版 行业新动向
82746
订阅已订阅已收藏
收藏点击播报本文,约
在人工智能算力需求结构发生重构的背景下,国产算力厂商正积极加大投入,以争夺推理时代的市场份额。
市场普遍达成共识,AI推理的转折点已然来临。星空综合app官网登录官方版的创始人兼CEO黄仁勋指出,AI推理的规模即将达到训练负载的十亿倍。
据AI推理芯片企业曦望董事长徐冰分析,预计到2026年,AI推理计算需求将是训练需求的4至5倍,推理算力的租赁价格在过去半年内已上涨近40%。
市场调研机构IDC也预测,到2028年推理工作负载的占比将达到73%。随着OpenClaw(龙虾)智能体应用规模的扩大,算力需求将进一步向推理侧迁移。
主要厂商的举措表明,AI算力的重心正逐步从训练转向推理,国产算力厂商对此变化不能掉以轻心。
AI推理新浪潮
AI计算通常分为两个层面:首先是对模型进行训练(training),这一过程可能耗时数天甚至数周;随后是训练出的模型响应实际请求,进行推理(inference)。训练是一次性的批量投入,主要关注单卡峰值算力和集群规模;而推理则是持续性和碎片化的运营支出,更加关注时延、并发及单位Token(词元)成本。
随着智能体在企业应用中的快速普及,推理计算已成为业界竞争的关键领域。不同于传统的对话式AI一问一答模式,智能体在执行任务时往往需要进行多轮推理、工具调用和长上下文记忆,单个任务所消耗的Token数量可能是传统对话的数十倍。
目前,星空综合app官网登录官方版旗下的GPU虽然在训练市场中占有一席之地,但多数推理任务仍由CPU承担。虽然GPU具有速度快、功能强大的优势,能够同时处理数十亿个简单任务,但其主要用途仍在于训练。
与此同时,推理所需的算力通常低于GPU的提供能力,但对内存的需求却更高。如果内存不足,芯片无法快速获取数据,便会形成瓶颈,导致用户长时间等待模型响应,而长时间的等待是用户难以接受的。
“我们发现用户对AI推理的时延预期非常高。”云服务厂商Akamai亚太区云计算架构师总监李文涛向21世纪经济报道的记者表示。他以首Token时延为例,指出游戏用户(尤其是大规模、多用户的在线游戏)希望在15毫秒内获得首Token,而电商行业则约为20毫秒,智能体自助服务约为50毫秒,客服自动应答机器人等领域则在100毫秒左右。
不同场景对时延的差异化要求,意味着单一规格的通用推理芯片难以同时满足所有负载,硬件厂商必须在吞吐、时延与成本之间进行权衡。
黄仁勋表示,推理Token的价值已显著提升,市场具备按响应速度进行分层定价的条件。他以软件工程师为例,指出这类高价值用户愿意为更低延迟的Token支付额外费用,以提升生产力。为此,星空综合app官网登录官方版将Groq纳入CUDA生态,开辟了响应速度更快但吞吐量较低的推理细分市场,以满足对速度敏感的高端需求。
华泰证券指出,云服务已进入涨价周期,算力资源的稀缺性进一步加剧。在此背景下,国产模型与国产硬件的协同优化持续推进,国产加速卡与超节点方案密集落地,国内算力的景气度与国产替代进程均有望持续加强。
- 芯片门派“出招”
面对推理计算需求的爆炸式增长,谷歌成为最新作出回应的科技巨头。在Google Cloud Next26大会上,谷歌发布了第八代TPU的两款新品,分别是面向训练的TPU 8t与面向推理的TPU 8i,这也是TPU历史上首次按训练与推理进行架构拆分。
TPU 8i引起了广泛关注,该芯片专注于AI实时推理需求,支持多智能体协同等复杂应用场景。为实现更快的任务响应,TPU 8i在内存配置与片内数据吞吐能力上进行了重点优化,降低了数据传输延迟,提高了多芯片间的通信效率。
据谷歌介绍,得益于架构优化,TPU 8i在推理环节的性价比提升了近80%,这意味着在相同算力成本下,企业将能够满足更大规模的AI并发调用需求。
谷歌云AI与基础设施高级副总裁兼首席技术官Amin Vahdat指出:“随着人工智能代理的兴起,我们认为,如果芯片能够根据训练和服务的需求进行个性化定制,那么整个社区将会受益。”
海外巨头频频发力,国产算力厂商也在紧跟技术趋势。观察发现,中国公司并未简单模仿海外巨头,而是结合自身的技术基础与国内应用场景,走出了一条符合本土需求的差异化发展道路。
当前,中国AI训练与推理需求正迎来爆发式增长,全国算力总量已跃升至全球第二,全球占比超过30%。国际知名投资研究机构伯恩斯坦(Bernstein)指出,以华为昇腾、寒武纪思元系列为代表的国产AI芯片正在加速崛起,行业地位不断提升。
在技术层面,华为的推理产品体现了Prefill(预填充)与Decode(解码)分离的思路。
寒武纪则强调训练与推理一体化的架构与生态,已经在硬件端迭代至第五代MLUarch微架构,7nm思元590芯片集群FP16算力达到2.048PFLOPS,支持Chiplet异构集成与MLU-Link8卡互联,其性能已对标国际主流;新一代微架构及指令集的持续研发,重点优化大模型的训练和推理场景。
寒武纪的技术路线有两个关键支点:一是自研指令集,自2016年起已迭代至第四代商用指令集,同一套指令集同时支持训练和推理,覆盖云边端不同场景,为构建统一软件生态提供了基础。二是训推一体的软件平台Cambricon Neuware整合了底层软件栈,并与TensorFlow、PyTorch等主流框架深度融合,以缩短用户从模型研发到部署的周期。目前,思元590已在互联网大厂的千卡级集群中实现商用部署。
除了华为和寒武纪,其他国产厂商也在推理赛道上展开差异化布局。摩尔线程等公司则围绕通用GPU路线持续推进,在推理场景中重点突破多卡互联和软件工具链领域的技术瓶颈;曦望等AI芯片企业则聚焦细分场景,提升效率降低成本,例如在推荐系统、长上下文推理和端侧部署等方面,试图在巨头主导的通用市场之外寻找机会。
更为关键的挑战在于生态。CUDA经过近二十年的积累,已构建起涵盖编程模型、核心库、分布式框架、优化工具、推理引擎及主流框架原生支持的完整体系,这也是星空综合app官网登录官方版最深厚的护城河。华为去年宣布CANN编译器和Mind系列套件将在2025年底前完成开源,寒武纪也在持续开放NeuWare工具链,旨在降低开发者的迁移门槛。
🛳️ (作者:彭新 编辑:倪雨晴,朱益民)
关于 星空综合app官网登录官方版,必看细节

海量资讯、精准解读,尽在新浪财经APP
责任编辑:江钰涵
💬 用户常见问题解答
星空综合app官网登录官方版 真的好用吗?
根据众多玩家和用户的实测反馈,星空综合app官网登录官方版 在同类产品中表现非常出色,值得一试。
《 深度产经观察 》( 2026年 版)
分享让更多人看到
星空综合app官网登录官方版 热门排行
- JDB龙王捕鱼娱乐年度影视公布 《沙丘2》《企鹅人》在列
- 张若昀、于和伟等发文“未签署AI授权” 飞鸟派对怎么玩最新回应
- 2024AG在线娱乐高满意度深化春节观影新民俗
- 博业app下载八成收入依赖传音控股 AIoT业务尚在襁褓中 毕马威前审计经理“0冷却”跳槽CFO
- BBP真人官方公募REITs申报获受理 拟募资持续加大物流建设
- 欧博游戏官网与火山引擎达成合作,推出全新AI原生汽车序列家越
- 库克时代落幕,老葡京直营网新帅面临AI关键战役
- ag投注游戏李斌:中国汽车品牌正进入长收敛期,希望ag投注游戏还能活在舞台上
- 第六届新时代国际电影节金扬花奖在威廉希尔中文举办
- jdb电/子浪花游戏混元Hy3 preview发布并开源
全网实时热点
- Im体育官方版app建多元化精品高地 观众满意度86.5分
- 开售仅一夜,竟博appLABUBU冰箱二手溢价大幅回落
- 被传与 OpenAI 合作开发 AI 智能手机处理器后,AG捕鱼网页版股价飙升 13%
- cq9跳高高官方登录全国首家直营店开业,人形机器人售价最高超10万,CMO:价格亲民,感兴趣可以直接下单带回家
- JDB电子飞鸟派对游戏:飞行汽车“陆地航母”已获7000台订单,人形机器人IRON有望今年实现量产
- JDB电子游戏变脸有规律北京基地启动首条“黑灯”产线,关键零部件实现无人化作业
- 对话葡京注册官网印奇、赵明:特斯拉路线是L4唯一选择 三年上车800万辆
- pp电子水果派对2演唱会深圳站圆满落幕 首次举行体育场演唱会
- 评论
- 关注


































第一时间为您推送权威资讯
报道全球 传播中国
关注权威网,传播正能量