2020年,OpenAI发表论文提出了Scaling Law理论,被行业赋予了AI界“摩尔定律”的美名。该理论认为,对于Transformer模型来说,计算量、参数量和数据集量这三大要素,才是决定模型***终性能的关键。而且,参数量的增加比堆数据集大小更管用。
有了Scaling Law这盏明灯,大模型GPT-3的参数量从前一代的15亿增加到了1750亿,GPT-4更是达到了1.8万亿之巨,传说中的GPT-5参数量则可能膨胀到5万亿。
AI模型参数量的飙升,对计算能力的需求也呈现几何级数的暴涨趋势。还是以GPT模型为例,当年GPT-2模型还算“节俭”,只要33张GPU花费10天时间就能搞定。但到了GPT-3,10000张GPU愣是训练了92天。而GPT-4更是夸张,约用了25000张GPU,还花了90-100天时间才训练完成。预计GPT-5未来部署的时候,要使用20万-30万张加速卡才能支撑。
AI大模型的发展路径,深刻印证了“AI崛起,算力先行”这句话。数据显示,在AI热潮之下,大模型训练的算力需求已经加速到每3-4个月翻一番,平均每年算力增长幅度达到惊人的10倍。2023年,大模型应用占据了中国智能算力总需求的近六成。智算中心未来3-5年有望保持超30%的高速成长。千卡集群、万卡集群将是完成算力跃迁的重要跳板。
本期的《数智QA》,我们就来一起探讨算力集群如何加速AI应用落地进程,万卡集群建设又面临哪些机遇与挑战。
什么是万卡算力集群?
AI infrastructure
Q
A
算力集群指的是由多个计算节点组成的大规模计算系统。每个节点通常包含一个或多个CPU、GPU或ASIC等加速器。这些节点通过网络相互连接,形成一个统一的计算资源池,共享资源并协同工作,以提供强大的计算能力。算力集群已经广泛应用于多种领域,包括但不限于人工智能、大数据分析、机器学习、科学模拟、影视渲染等。
万卡集群则由万个以上包含GPU等加速器的计算节点构成,是当前智算中心建设的发展大势。它就像是一个***运算大脑,用以执行基础大模型训练等计算任务。万卡集群能够以惊人的速度处理大量的数据和复杂的计算任务。在人工智能领域,尤其是大模型的训练中,万卡集群可大幅压缩大模型训练时间,以实现模型能力的快速迭代,并及时对市场趋势作出应对。
哪些企业在构建智算中心万卡集群?
AI infrastructure
Q
A
目前,能设计并有效运行万卡集群的企业仍集中在少数。在国际上,Google、Meta、微软等科技巨头正利用超万卡集群推动其在AI大模型、智能算法研发及生态服务等方面的技术创新。
在国内,通信运营商、头部互联网企业、大型 AI 研发企业等,也在积***推进万卡集群的建设和应用。特别是作为中国算力基础设施建设的中坚力量,各运营商正在加速推进超万卡集群智算中心建设。
国内在搭建大规模算力的智算中心时,主要采用国内外芯片“混搭”的集群模式。该模式的优势在于能够利用国际上先进的技术和资源,快速构建起高性能的异构智算集群。
然而,这种模式的挑战也不容忽视。由于不同厂商的芯片在架构、性能以及兼容性上可能存在差异,将不同芯片有效地集成在一个系统中对系统优化的要求***高。
万卡集群应用中存在哪些挑战?
AI infrastructure
Q
A
万卡智算集群在应用中面临着多方面的挑战,包括算力使用效率、数据处理、网络互联、AI训练中的稳定性与效率、高能耗高密度、软件生态等。
就拿算力使用效率的挑战来说,集群规模的线性提升并不能直接带来集群有效算力的线性提升。加速卡之间和计算节点之间的互联网络、软件和硬件的适配调优至关重要。当前业内MFU(模型算力利用率)普遍只有30%左右,***的集群利用率也只能做到50%。
另外,集群规模的提升也会带来AI训练过程的稳定性与效率方面的问题。目前来看,业界***厂商的千卡训练集群每月发生至少15次故障,每次恢复训练需要数小时,额外费用超过百万元。随着集群规模从千卡到万卡,故障中断次数及恢复所需时间呈指数级增长。例如,Llama 3 405B大模型在1.6万台集群训练过程中遭遇了高达419次意外组件故障,平均每3小时就发生一次,GPU的故障率更是比CPU高出了120倍。
联想化解万卡集群挑战有哪些优势?
AI infrastructure
Q
A
作为全球***的AI基础设施和服务提供商,联想围绕“全栈AI”战略,构建了“一横五纵”战略框架。联想万全异构智算平台就是联想“一横五纵”战略框架的核心。该平台能够帮助客户解决通用计算、科学计算、智能计算算力管理与调度,另外还能满足数据治理与模型优化、训练精调和推理应用开发等多层次的需求。
面向AI时代,联想中国基础设施业务群更是在“一横五纵”战略助推下,面向传统以太网、IB网络、RoCEv2以太网络构建了健全的网络交换机产品线,成为“***”选手。
今年以来,通过与锐捷网络全方位战略合作,联想网络基础设施更是全面囊括数据中心交换机、企业园区交换机、AI交换机等产品形态,全面覆盖千兆到800G,可满足大、中小企业及大型数据中心组网、智算、科学计算等不同场景网络需求。
具体来说,联想万全异构智算平台集成算力匹配魔方、联想集合通信算法库、GPU内核态虚拟化、AI高效断点续训技术、AI与HPC集群***调度器等五大创新技术。平台可统一纳管异构算力,充分释放AI基础设施生产力,有效解决万卡智算集群应用中面临的多重挑战。
其中,算力匹配魔方实现了AI场景、算法、集群硬件三者的匹配关系。用户只需输入场景和数据,算力匹配魔方即可自动加载***算法,并调度***集群配置。
而联想集合通信算法库可实现对多类型网络拓扑的实时感知,并以先进算法使数据在拓扑中以***路径进行传输。集成联想集合通信库后,在千卡集群中,网络通信效率就可提升超10%。随着集群规模越大,在万卡集群中提升效果更显著。
对于GPU内核态虚拟化,联想研究院开发了在GPU驱动层的内核态虚拟化算法。该算法可以将虚拟化造成的GPU算力损耗降到5%以下,***致情况可以降到1%以下,大幅提升GPU利用率。
特别值得一提的,是可以减少AI训练中断时间的AI高效断点续训技术。联想开发了预测AI训练故障的AI模型,实现“用AI来预测AI”。该模型可在断点前提前优化备份,由此能将断点续训恢复时间缩减到分钟级,大幅提升了训练效率。未来,联想将不断创新,把断点续训间隔优化到秒级,让宝贵的AI算力持续可用。
另外,在异构算力调度方面,联想AI与HPC集群***调度器能够切换AI和HPC的调度沟通,全局监控任务和动态共享资源,使得用户可以充分利用基础设施的每一分算力。
目前,联想万全异构智算平台已经在国内多个智算中心项目中实现落地应用,覆盖科研、教育、金融、云计算等诸多领域。在9月底举办的2024中国算力大会上,联想万全异构智算平台也凭借五大核心技术创新,在众多项目中脱颖而出,荣获“算力中国·年度重大成果”奖。
在助力中国智算产业持续创新发展的征途中,联想将依托“一横五纵”战略,为客户提供高效稳定、绿色节能,且覆盖通用、AI、科学算力的全场景产品方案,不断推动千卡集群向万卡集群甚至十万卡集群的跃迁,为千行万业智能化转型筑牢“数字基石”。
查看全部产品
Lenovo ThinkSystem DG 系列全闪存存储
Lenovo ThinkSystem DG7000
Lenovo ThinkSystem DG5000
Lenovo ThinkSystem DM 系列全闪存存储
Lenovo ThinkSystem DM7100F
Lenovo ThinkSystem DM5100F
Lenovo ThinkSystem DM5100F SAN
Lenovo ThinkSystem DM5000F
Lenovo ThinkSystem DM5000F SAN
Lenovo ThinkSystem DE 系列全闪存存储
Lenovo ThinkSystem DE6600F
Lenovo ThinkSystem DE6400F
Lenovo ThinkSystem DE6000F
Lenovo ThinkSystem DE4000F
NetApp AFF A 系列全闪存存储
AFF A1K
AFF A90
AFF A70
AFF A900
AFF A800
AFF A400
AFF A250
AFF A150
NetApp AFF C 系列全闪存存储
AFF C800
AFF C400
AFF C250
NetApp EF 系列全闪存存储
EF600
EF300
NetApp ASA 系列全闪 SAN 存储
ASA A800
ASA A700
ASA A400
ASA A250
ASA C800
ASA C400
ASA C250
查看全部产品
Lenovo ThinkSystem DM 系列混合闪存存储
Lenovo ThinkSystem DM7100H
Lenovo ThinkSystem DM5000H
Lenovo ThinkSystem DM5000H SAN
Lenovo ThinkSystem DM3000H
Lenovo ThinkSystem DM3000H SAN
Lenovo ThinkSystem DE 系列混合闪存存储
Lenovo ThinkSystem DE6600H
Lenovo ThinkSystem DE6400H
Lenovo ThinkSystem DE6000H
Lenovo ThinkSystem DE4000H
NetApp FAS 存储阵列
FAS9500
FAS8700
FAS8300
FAS2820
FAS2750
NetApp E 系列混合闪存存储
E2800
E5700
软件定义存储
查看全部产品
分布式非结构化数据存储
Lenovo ThinkSystem DXN 分布式存储一体机
Lenovo ThinkSystem DXN 3000 G2
Lenovo ThinkSystem DXN 2200 G2
MagnaScale 分布式存储软件
MagnaScale 分布式存储软件
分布式对象存储
Lenovo ThinkSystem DXL 系列对象存储
Lenovo ThinkSystem DXL 9600 S/P
Lenovo ThinkSystem DXL 3600 S/P
Lenovo ThinkSystem DXL 1200 S/P
Lenovo ThinkSystem DXL 1000
NetApp StorageGRID 对象存储软件
NetApp StorageGRID 对象存储软件
数据管理存储
Lenovo ThinkSystem DX1100U 数据管理存储一体机
Lenovo ThinkSystem DX1100U
ONTAP
NetApp ONTAP Select 软件
ONTAP 数据管理软件
分布式统一存储
分布式统一存储 DF 系统
Lenovo ThinkSystem DF 3600
Lenovo ThinkSystem DF 2400
Lenovo ThinkSystem DF 1200
Lenovo ThinkSystem DF MDS
存储虚拟化网关
Lenovo ThinkSystem DX8200D
软件定义存储
AIPod 参考架构
云端数据管理软件
查看全部产品
云端数据管理软件
Cloud Volumes ONTAP
Amazon FSx for NetApp ONTAP
BlueXP
软件定义存储
AIPod 参考架构
云端数据管理软件
数据保护与应用容灾
查看全部产品
DPA
企业级备份 DPA35000
DPA24000
DPA12000
DPA9000
磁带库
TS4500
TS4300
TS2900
救急1110灾备一体化解决方案
光纤交换机 B6510 FC SAN 交换机
光纤交换机 DB730S FC SAN 交换机
光纤交换机 DB720S FC SAN 交换机
光纤交换机 DB630S FC SAN 交换机
光纤交换机 DB620S FC SAN 交换机
光纤交换机 DB610S FC SAN 交换机
光纤导向器 X7-8 FC 导向器
光纤导向器 X7-4 FC 导向器
以太网交换机 BES-53248
以太网交换机 SN2100
Netapp aff 300, aff 700 MagnaScale V3.2
Ontap 存储操作系统,Netapp影像存储阵列维保, 存储NetApp FAS3220,NETAPP FAS2552,Netapp存储维保服务
netappFAS8300, NetApp DS224C扩展盘笼,46X0886NETAPP,NetApp FAS8040,硬盘 NetApp 1200GB SAS 10000转/分,NetAPP存储维保项目(FAS3250,V3250,FAS8200,A200), Netapp Fas8060,NetApp FAS8020存储磁盘扩展柜, NETAPP FAS8200 存储盘阵扩容,NetApp FAS8020存储磁盘扩展柜,NETAPPFAS8200存储盘阵扩容,NetApp高端NAS存储,NetApp FAS8300,NetApp FAS8700,NetApp DS224C,NetApp A400,NetApp DS224C
NETAPP-2650磁盘阵列, netapp 8040 存储,netapp 8200 存储,netapp 8060 存储,netapp 8200 存储,FAS2750,NETAPP A300,NETAPP 2650, NETAPP FAS8040存储
问天AI服务器,问天WA7780 G3 AI大模型训练服务器,联想问天WA5480 G3 AI训推一体服务器
成都科汇科技有限公司( 联想 凌拓 四川经销 服务商 )
地址:四川省成都市人民南路四段一号时代数码大厦18F
电话咨询热线:400-028-1235
手机:180 8195 0517(微信同号 )