打开

首页
党政
- 党网 · 时政
- 人事
- 反腐
- 理论
- 党史
- 党建
要闻
人民锐评
互动
观点
- 社论
- 本报评论员
- 任仲平
- 任平
- 仲音
- 人民论坛
- 人民时评
- 今日谈
- 望海楼
- 金社平
- 寰宇平
- 钟声
- 和音
- 金台随笔
- 每周经济评论
- 暖闻热评
- 国际论坛
- 人民网观点
可视化
地方
- 京
- 津
- 冀
- 晋
- 蒙
- 辽
- 吉
- 黑
- 沪
- 苏
- 浙
- 皖
- 闽
- 赣
- 鲁
- 豫
- 鄂
- 湘
- 粤
- 桂
- 琼
- 渝
- 川
- 黔
- 滇
- 藏
- 陕
- 甘
- 青
- 宁
- 新
- 鹏
- 雄安
民文
English
合作网站
人工智能
客户端
无障碍
举报
登录

退出

首页>>星空综合app官网登录官方版>>正文详情

【最新发布】

“训练为王”终结：AI推理新浪潮，星空综合app官网登录官方版谷歌华为切换赛道

—— 深度解析星空综合app官网登录官方版行业新动向

编辑：隽蔚展览（上海）有限公司研究员

2026-05-03 | 来源：隽蔚展览（上海）有限公司资讯中心82746

订阅已订阅已收藏

小字号

点击播报本文，约

在人工智能算力需求结构发生重构的背景下，国产算力厂商正积极加大投入，以争夺推理时代的市场份额。

市场普遍达成共识，AI推理的转折点已然来临。星空综合app官网登录官方版的创始人兼CEO黄仁勋指出，AI推理的规模即将达到训练负载的十亿倍。

据AI推理芯片企业曦望董事长徐冰分析，预计到2026年，AI推理计算需求将是训练需求的4至5倍，推理算力的租赁价格在过去半年内已上涨近40%。

市场调研机构IDC也预测，到2028年推理工作负载的占比将达到73%。随着OpenClaw（龙虾）智能体应用规模的扩大，算力需求将进一步向推理侧迁移。

主要厂商的举措表明，AI算力的重心正逐步从训练转向推理，国产算力厂商对此变化不能掉以轻心。

AI推理新浪潮

AI计算通常分为两个层面：首先是对模型进行训练（training），这一过程可能耗时数天甚至数周；随后是训练出的模型响应实际请求，进行推理（inference）。训练是一次性的批量投入，主要关注单卡峰值算力和集群规模；而推理则是持续性和碎片化的运营支出，更加关注时延、并发及单位Token（词元）成本。

随着智能体在企业应用中的快速普及，推理计算已成为业界竞争的关键领域。不同于传统的对话式AI一问一答模式，智能体在执行任务时往往需要进行多轮推理、工具调用和长上下文记忆，单个任务所消耗的Token数量可能是传统对话的数十倍。

目前，星空综合app官网登录官方版旗下的GPU虽然在训练市场中占有一席之地，但多数推理任务仍由CPU承担。虽然GPU具有速度快、功能强大的优势，能够同时处理数十亿个简单任务，但其主要用途仍在于训练。

与此同时，推理所需的算力通常低于GPU的提供能力，但对内存的需求却更高。如果内存不足，芯片无法快速获取数据，便会形成瓶颈，导致用户长时间等待模型响应，而长时间的等待是用户难以接受的。

“我们发现用户对AI推理的时延预期非常高。”云服务厂商Akamai亚太区云计算架构师总监李文涛向21世纪经济报道的记者表示。他以首Token时延为例，指出游戏用户（尤其是大规模、多用户的在线游戏）希望在15毫秒内获得首Token，而电商行业则约为20毫秒，智能体自助服务约为50毫秒，客服自动应答机器人等领域则在100毫秒左右。

不同场景对时延的差异化要求，意味着单一规格的通用推理芯片难以同时满足所有负载，硬件厂商必须在吞吐、时延与成本之间进行权衡。

黄仁勋表示，推理Token的价值已显著提升，市场具备按响应速度进行分层定价的条件。他以软件工程师为例，指出这类高价值用户愿意为更低延迟的Token支付额外费用，以提升生产力。为此，星空综合app官网登录官方版将Groq纳入CUDA生态，开辟了响应速度更快但吞吐量较低的推理细分市场，以满足对速度敏感的高端需求。

华泰证券指出，云服务已进入涨价周期，算力资源的稀缺性进一步加剧。在此背景下，国产模型与国产硬件的协同优化持续推进，国产加速卡与超节点方案密集落地，国内算力的景气度与国产替代进程均有望持续加强。

芯片门派“出招”

面对推理计算需求的爆炸式增长，谷歌成为最新作出回应的科技巨头。在Google Cloud Next26大会上，谷歌发布了第八代TPU的两款新品，分别是面向训练的TPU 8t与面向推理的TPU 8i，这也是TPU历史上首次按训练与推理进行架构拆分。

TPU 8i引起了广泛关注，该芯片专注于AI实时推理需求，支持多智能体协同等复杂应用场景。为实现更快的任务响应，TPU 8i在内存配置与片内数据吞吐能力上进行了重点优化，降低了数据传输延迟，提高了多芯片间的通信效率。

据谷歌介绍，得益于架构优化，TPU 8i在推理环节的性价比提升了近80%，这意味着在相同算力成本下，企业将能够满足更大规模的AI并发调用需求。

谷歌云AI与基础设施高级副总裁兼首席技术官Amin Vahdat指出：“随着人工智能代理的兴起，我们认为，如果芯片能够根据训练和服务的需求进行个性化定制，那么整个社区将会受益。”

海外巨头频频发力，国产算力厂商也在紧跟技术趋势。观察发现，中国公司并未简单模仿海外巨头，而是结合自身的技术基础与国内应用场景，走出了一条符合本土需求的差异化发展道路。

当前，中国AI训练与推理需求正迎来爆发式增长，全国算力总量已跃升至全球第二，全球占比超过30%。国际知名投资研究机构伯恩斯坦（Bernstein）指出，以华为昇腾、寒武纪思元系列为代表的国产AI芯片正在加速崛起，行业地位不断提升。

在技术层面，华为的推理产品体现了Prefill（预填充）与Decode（解码）分离的思路。

寒武纪则强调训练与推理一体化的架构与生态，已经在硬件端迭代至第五代MLUarch微架构，7nm思元590芯片集群FP16算力达到2.048PFLOPS，支持Chiplet异构集成与MLU－Link8卡互联，其性能已对标国际主流；新一代微架构及指令集的持续研发，重点优化大模型的训练和推理场景。

寒武纪的技术路线有两个关键支点：一是自研指令集，自2016年起已迭代至第四代商用指令集，同一套指令集同时支持训练和推理，覆盖云边端不同场景，为构建统一软件生态提供了基础。二是训推一体的软件平台Cambricon Neuware整合了底层软件栈，并与TensorFlow、PyTorch等主流框架深度融合，以缩短用户从模型研发到部署的周期。目前，思元590已在互联网大厂的千卡级集群中实现商用部署。

除了华为和寒武纪，其他国产厂商也在推理赛道上展开差异化布局。摩尔线程等公司则围绕通用GPU路线持续推进，在推理场景中重点突破多卡互联和软件工具链领域的技术瓶颈；曦望等AI芯片企业则聚焦细分场景，提升效率降低成本，例如在推荐系统、长上下文推理和端侧部署等方面，试图在巨头主导的通用市场之外寻找机会。

更为关键的挑战在于生态。CUDA经过近二十年的积累，已构建起涵盖编程模型、核心库、分布式框架、优化工具、推理引擎及主流框架原生支持的完整体系，这也是星空综合app官网登录官方版最深厚的护城河。华为去年宣布CANN编译器和Mind系列套件将在2025年底前完成开源，寒武纪也在持续开放NeuWare工具链，旨在降低开发者的迁移门槛。

🛳️ （作者：彭新编辑：倪雨晴,朱益民）