易特艾弗网络科技

业界

中信建投:国产算力板块迎来密集催化 算力芯片迎来国产替代窗口期

时间:2025-08-24 08:46 浏览:

  中信建投证券发布研究报告称,8月22日,上证指数涨1.45%站上3800点,算力、芯片股集体爆发。近期国产算力板块迎来密集催化,8月13日,腾讯业绩会表示公司推理芯片供应渠道侧具备多种选择;8月21日,DeepSeek更新模型版本至DeepSeek-V3.1,预计将支持FP8精度以及国产芯片;近期,基于华为昇腾芯片的服务器产品陆续在政府、金融、运营商等行业落地大单。国产算力芯片迎来国产替代窗口期。考虑到英伟达新品迎来大幅性能升级,并面向中国市场禁售,国产算力芯片发展刻不容缓。当前已经涌现出一大批国产算力芯片厂商,昇腾、寒武纪相继推出自研AI芯片,海光信息的DCU也逐渐打出知名度,其他配套环节的国产化进程也正在加速推进。

  国产人工智能芯片发展趋势及展望

  海外龙头占据垄断地位,AI加速芯片市场呈现“一超多强”态势。

  数据中心CPU市场上,英特尔份额有所下降但仍保持较大领先优势,AMD持续抢占份额势头正盛。AI加速计算芯片市场上,英伟达凭借硬件优势和软件生态一家独大,在训练、推理端均占据领先地位。根据IDC数据,2024年国内AI加速计算芯片市场中,英伟达出货份额达70%,华为昇腾出货份额23%,其余厂商合计占比7%。

  国内厂商起步较晚,正逐步发力,部分加速芯片领域已经涌现出一批破局企业,虽然在高端AI加速计算芯片领域与海外厂商存在较大差距,但在国内市场上已经开始取得部分份额,根据IDC数据,2024年国内AI芯片市场中,华为昇腾出货64万片,寒武纪出货2.6万片,燧原出货1.3万片。未来,随着美国持续加大对中国高端芯片的出口限制,AI芯片国产化进程有望继续加快。

  GPU市场方面,海外龙头占据垄断地位,国产厂商加速追赶。

  当前英伟达、AMD、英特尔三巨头占据全球GPU芯片市场的主导地位。集成GPU芯片一般在台式机和笔记本电脑中使用,性能和功耗较低,主要厂商包括英特尔和AMD。独立显卡常用于服务器中,性能更高、功耗更大,主要厂商包括英伟达和AMD。分应用场景来看,应用在人工智能、科学计算、编解码等场景的服务器GPU市场中,英伟达和AMD占据主要份额。根据JPR预测,2025年Q1英伟达的独立显卡的市场份额达92%, AMD和英特尔则分别占比8%、0%。

  图形渲染GPU:英伟达引领行业数十年,持续技术迭代和生态构建实现长期领先。

  2006年起,英伟达GPU架构保持约每两年更新一次的节奏,各代际产品性能提升显著,生态构建完整,GeForce系列产品市占率长期保持市场首位,最新代际GeForce RTX 40系列代表了目前显卡的性能巅峰,采用全新的Ada Lovelace架构,台积电5nm级别工艺,拥有760亿晶体管和18000个CUDA核心,与Ampere相比架构核心数量增加约70%,能耗比提升近两倍,可驱动DLSS 3.0技术。性能远超上代产品。AMD独立GPU在RDNA架构迭代路径清晰,RDNA 3架构采用5nm工艺和Chiplet设计,比RDNA 2架构有54%每瓦性能提升。

  目前国内厂商在图形渲染GPU方面与国外龙头厂商差距不断缩小。芯动科技的“风华2号”GPU像素填充率48GPixel/s,FP32单精度浮点性能1.5TFLOPS,AI运算性能12.5TOPS,实测功耗4~15W,支持OpenGL4.3、DX11、Vulkan等API,实现国产图形渲染GPU突破。景嘉微在工艺制程、核心频率、浮点性能等方面虽落后于英伟达同代产品,但差距正逐渐缩小。2023年顺利发布JM9系列图形处理芯片,支持OpenGL 4.0、HDMI 2.0等接口,以及H.265/4K 60-fps解码,核心频率至少为1.5GHz,配备8GB显存,浮点性能约1.5TFlops,与英伟达GeForce GTX1050性能相近,有望对标GeForce GTX1080。

  GPGPU:英伟达和AMD是目前全球GPGPU的领军企业。

  英伟达的通用计算芯片具备优秀的硬件设计,通过CUDA架构等全栈式软件布局,实现了GPU并行计算的通用化,深度挖掘芯片硬件的性能极限,在各类下游应用领域中,均推出了高性能的软硬件组合,逐步成为全球AI芯片领域的主导者。AMD于2018年发布用于数据中心的Radeon Instinct GPU加速芯片,Instinct系列基于CDNA架构,如MI250X采用CDNA2架构,在通用计算领域实现计算能力和互联能力的显著提升,此外还推出了对标英伟达CUDA生态的AMD ROCm开源软件开发平台。

  国内GPGPU厂商正逐步缩小与英伟达、AMD的差距。英伟达凭借其硬件产品性能的先进性和生态构建的完善性处于市场领导地位,国内厂商虽然在硬件产品性能和产业链生态架构方面与前者有所差距,但正在逐步完善产品布局和生态构建,不断缩小与行业龙头厂商的差距。

  ASIC市场方面,由于其一定的定制化属性,市场格局较为分散。

  在人工智能领域,ASIC也占据一席之地。其中谷歌处于相对前沿的技术地位,自2016年以来,就推出了专为机器学习定制的ASIC,即张量处理器。2025年谷歌推出了第七代张量处理单元Ironwood,可扩展至9216个液冷芯片,并通过突破性的芯片间互联,功率接近10兆瓦。据nextplatform介绍,TPU v7p芯片是谷歌首款在其张量核心和矩阵数学单元中支持FP8计算的TPU。之前的TPU支持INT8格式和推理处理,以及BF16格式和训练处理。Ironwood芯片还配备了第三代SparseCore加速器,该加速器首次亮相于TPU v5p,并在去年的Trillium芯片中得到了增强。

  国产厂商快速发展,寒武纪等异军突起。通过产品对比发现,目前寒武纪、海思昇腾、遂原科技等国产厂商正通过技术创新和设计优化,持续提升产品的性能、能效和易用性,推动产品竞争力不断提升,未来国产厂商有望在ASIC领域持续发力,突破国外厂商在AI芯片的垄断格局。

  生态体系决定用户体验,是算力芯片厂商最深的护城河。

  虽然英伟达GPU本身硬件平台的算力卓越,但其强大的CUDA软件生态才是推升其GPU计算生态普及的关键力量。从技术角度来讲,GPU硬件的性能门槛并不高,通过产品迭代可以接近龙头领先水平,但下游客户更在意能不能用、好不好用的生态问题。CUDA推出之前GPU编程需要用机器码深入到显卡内核才能完成任务,而推出之后相当于把复杂的显卡编程包装成为一个简单的接口,造福开发人员,迄今为止已成为最发达、最广泛的生态系统,是目前最适合深度学习、AI训练的GPU架构。

  英伟达在2007年推出后不断改善更新,衍生出各种工具包、软件环境,构筑了完整的生态,并与众多客户合作构建细分领域加速库与AI训练模型,已经积累300个加速库和400个AI模型。尤其在深度学习成为主流之后,英伟达通过有针对性地优化来实现最佳的效率提升性能,例如支持混合精度训练和推理,在GPU中加入Tensor Core来提升卷积计算能力,以及最新的在H100 GPU中加入Transformer Engine来提升相关模型的性能。这些投入包括了软件和芯片架构上的协同设计,使得英伟达能使用最小的代价来保持性能的领先。

  而即便是英伟达最大的竞争对手AMD的ROCm平台在用户生态和性能优化上还存在差距。CUDA作为完整的GPU解决方案,提供了硬件的直接访问接口,开发门槛大幅降低,而这套易用且能充分调动芯片架构潜力的软件生态让英伟达在大模型社区拥有巨大的影响力。正因CUDA拥有成熟且性能良好的底层软件架构,几乎所有的深度学习训练和推理框架都把对于英伟达GPU的支持和优化作为必备的目标,帮助英伟达持续处于领先地位。

  美国对华供应AI芯片管制强度持续升级,H20被纳入管制范围。

  2022年,美国BIS实施出口管制,英伟达和AMD的高端GPU产品出口受到限制。为满足合规要求,英伟达随后推出了面向中国市场的H800与A800,互联带宽被下调。2023年,BIS公布的先进计算芯片出口管制新规进一步扩大限制范围,以“性能密度”与“总处理性能”成为新的标准,使得A100、A800、H100、H800、L40、L40S等多款产品遭到限制。虽然英伟达又推出了性能大幅下调,符合新规的H20,但H20也在今年4月被美国纳入出口管制。