1 月 20 日,主题为《AI 时代,如何打造***的存储底座》的专家研讨会 , 在益企研究院视频号举办,旨在探讨 AI 时代,企业如何打造合适的存储底座,来实现与算力的协调发展,推动人工智能的应用。
此外,在 AI 基础设施领域,以存强算的实际价值到底如何体现?传统存储设施改造时,面临什么样的难点?
此次在线研讨会, 由益企研究院***研究 员祁 金华主持,邀请了 Solidigm 亚太区技术总监翁昀、 WEKA 中国***技术专家雷葆华、融科联创解决方案事业部总监杨磊和益企研究院资深研究员张翼作为研讨嘉宾。
在此次直播中,各位专家就 AI 时代的存储底座,进行了深入的探讨,迸发了相当多的精彩观点。益企研究院对相关直播内容进行了整理,由于篇幅较长,本文是此次直播回顾精彩观点的***部分。
Part 01
全球主要市场中,AI 集群对存储系统选型差异是什么?
雷 葆华: 从场景上而言,可以简单将 AI 集群分为四类。 ***类是 AI Lab ;第二类是 Ne o Cloud ,也就是新型智算云;第三类是传统的云企业;第四类是专有云,包括企业的私有云等。
其中, AI Lab 和 Ne o Cloud 在存储系统选型上的需求比较类似。
首先,他们主要 面 向的 是大规模的模型预训练和集群推理 ,要求存储系统有***致的性能表现,即高吞吐和低时延。
另外,他们也要求 存储系统有***致的扩展能力 ,至少是 EB 级以上的能力, 以及 万亿级的文件管理能力,即要求高可扩展性。
第三,由于欧美国家电力比较紧缺,因此 AI Lab 和 Ne o Cloud 更看重单位存储和单位吞吐的功耗比。
第四,由于在线服务或者集群训练规模庞大,对存储的稳定性要求很高, 要确保集群规模增大之后,存储能力线性增长,以及在数据自动平衡的情况下,保持性能的稳定性。
此外,传统的云企业和专有云企业,他们在存储系统选型时,会有多租户的需求,以便实现租户数据的隔离。另外,他们需要以统一的云架构适配不同的客户需求,因此他们对于多协议的支持、部署的灵活性等有较高要求。第三,他们也希望存储系统具备易扩展、运维简化等特性。
杨磊 : AI 集群对存储系统选型差异,从国内市场和海外市场角度来看,可以以两个维度来进行解读。
***个维度是集群规模, 中国的 AI 集群目前以千卡集群为主,万卡集群相对较少。而在海外市场来说,万卡集群已经有很多。由于国内市场和海外市场对于耗电需求的差异,因此海外市场 QLC 颗粒的 E1.S 和 E3.S 接口的 SSD 更多一些;而国内基于成本和容量的考虑,大部分企业还是基于 TLC 颗粒的 SSD 。
第二个维度是存储架构选 型 , 国内的 AI 集群在进行存储架构选型时,更倾向于使用通用硬件和存储软件的整体优化来支撑存储系统,即主要以分布式存储、并行存储为主。核心在于不仅要兼顾容量和性能,更重要的是兼顾成本。因此在不同的场景,国内 AI 集群会选择不同的存储介质来做相应的支撑。而在海外 AI 集群中,他们更优先考虑***致的性能来打造存储架构。
张翼 : 整体来说, 中国的 AI 集群规模相对较小,也没有遭遇空间和供电能力方面的刚性约束。因此,相关企业也就选择较为中庸的存储系统进行配置, 存储介质的单盘容量不是特别大,也不追求***致的性价比。
虽然中国的企业普遍成本敏感,但也没有像海外的超大规模集群那样去仔细核算存储系统的小账。中国的 AI 集群更倾向于用通用解决方案来面对现阶段的问题。
雷葆华 :补充一点,在海外 AI 集群中,他们 对于新软件架构的接纳度比较高,因为他们的需求比较明确 。 不过国内的云厂商更喜欢自研,他们喜欢端到端的垂直整合。而海外企业更喜欢水平分层,大家各自做好各自的事情,这是国内企业和海外企业在 AI 集群的存储系统选择时的另外一个差异。
翁昀 : 相对于传统云厂商来说,在诸如 xAI 这样的创新 AI 企业,他们 在技术路线的选择上更为激进 。 他们更能够认识到 QLC 全闪系统相对硬盘的优势。他们能够更快的认识到 QLC 全闪在帮助提升 GPU 利用率、提升存储密度和能耗利用密度上的优势。这个是很重要的一个方面。
Part 02
传统大厂或云厂商,与新兴 AI 玩家,在为 AI 集群构建存储系统时,思路有什么不同?
雷葆华 :对于 AI Lab 和 Ne o Cloud 企业这样的新兴玩家来说,他们在 构建存储系统时,是***面向智算时代的需求进行设计的,主要考虑性能和功耗 。
对于 WEKA 来说,其存储系统都构建于全闪的存储,会兼顾考虑性能和容量来实现更好的性价比。一般来说,客户更看重的节点数和盘数。 WEKA 会采用两种方式 , 一种是分层部署, 如果以 1TB 的聚合写入方式的时候, WEKA 基本上能够以 25U 、 4PB 容量,实现其他企业 400U 、 40PB 才能做到的存储设计。 另外一种是大量采用 QLC 的 SSD 。 因为其容量、密度很高,可以帮助客户节省机架和能耗。
在 2025 年年末的时候, WEKA 推出了新的面向企业级的方案 AlloyFlash ,这是一种 EB 级方案,在单机中会加载 QLC 和 TLC 两种 SSD ,兼顾性能和容量,降低整体功耗和所需体积。这个方案在新兴的 AI 集群玩家中接受度比较高。
而 传统玩家,包括云企业和私有云 ,他们有着相当大的历史包袱,包括大量的对象存储集群,以及大量的既有存储产品线。他们 倾向于用好已有的存储, 多 采用融合部署 和资源复用 ,而不是 为 AI 集群 单独部署存储 集群 的方式 , 来实现多租户灵活部署的需求。他们的业务需求和场景更广,诉求也因此更多。
张翼 : 的确,传统厂商,尤其是互联网大厂,他们在进入 AI 领域的时候,会有既定的历史包袱。在存储系统领域,就是表现为已经拥有容量足够大、带宽还不错的存储集群。他们 一定会尽可能的利用既有资源去开展业务。而新兴玩家则没有类似的包袱, 他可以在投资存储集群的时候更好的应对空间、能源等约束条件。
另外则是 AI 发展阶段的问题。在前几年, AI 集群对存储性能的关注更多的是在预训练领域,更关注数据准备阶段和 Checkpoint 操作的需求。在 Checkpoint 操作而言,业界达成的一致观点是它可以做到异步操作,写入传统的存储池,也是可以接受的。
随着 AI 业务的发展,推理的效率越来越受重视,即便是传统的玩家,也可能要面临构建一个更新的、面向 AI 的存储集群,这正是目前业界讨论的热点。
翁昀 : 传统大厂或者说云企业,他们对 SSD 的了解程度强于新兴的 AI 玩家。 毕竟,很多大厂的存储架构师原先就是一些 SSD 的架构师,他们对于 SSD 的了解更深入。不过,这种更深的理解,也限制了他们思考问题的方式。
比如说,他们在采用 SSD 时候,无论是 TLC 还是 QLC ,都会首先看 SSD 的性能。即便选择 QLC SSD 来搭建存储集群的时候,也是在传统意义上用 TLC 的思维方式来审视 QLC 的性能,这其实并不是那么合适。
对于新兴玩家而言,他们没有太多的历史包袱,因此他们会更愿意用 QLC 来对比之前的硬盘,那比较结果就会***不一样,会觉得 QLC SSD 存储集群有着***多的优点。
此外,一些云厂商从成本角度考虑,会利旧已有的大量存储服务器;但是对于新兴玩家来说,他们不需要考虑利旧,他们只需要考虑如何把部署的 GPU 或者 XPU 性能发挥到***致即可,因此他们更倾向于采购全闪存储方案。
甚至,二者在集群设计的资源上也有区别。 传统的互联网大厂更容易拿到更多的电力、空间资源,而新兴的 AI 玩家,电力和空间资源可能相对有限,因此在存储系统上,他们需要更高的容量密度、更高的性能密度来提升 GPU 或者说 XPU 的使用率。
杨磊 : 传统的互联网大厂或者说云厂商,他们核心的点在于会 用既有的技术栈和生态去绑定,来应对新兴的 AI 集群需求。 因为这些企业,从通用硬件到软件、数据算法、生态接口等,他们已经有沉淀了十几年甚至几十年的固化的产品。
关闭
观看更多
更多
退出全屏
切换到横屏模式
视频详情
为了去应对 AI 市场的需求, 传统企 业 的大部分的做法就是渐进式改造。 比如说他们会更多的基于 CEPH 、 GlusterFS 等产品构建存储系统,这类产品对外的形态更多的是混闪,比如说 SSD 和硬盘的组合;然后再逐步地从混闪转向全闪系统。同时,他们也在逐渐地转向 U.2 高密架构 SSD ,逐步地从硬件开始适配现有的 AI 集群。
而新兴玩家,他们更侧重于从零到一的过程,以***适配现在的 AI 市场需求。
Part 03
AI 与 HPC 对存储的需求有多大差别?
杨磊 : 在整体市场而言, AI 的热点远超 HPC , 但其实 HPC 在市场上的规模一直居高不下。不过,大家对于 AI 的关注,大多数在大模型、 GPU 算力等领域,其增量发展迅速,感觉 HPC 的市场在减少,其实并不如此。
无论是 AI 还是 HPC ,大模型还是科学计算,他们对于存储的相同要求,都在于高性能、高带宽、低时延。客户都会普遍选择高性能的存储介质去搭建存储基础设施。
二者的区别不在于存储需求,在于 AI 和 HPC 中的数据处理过程。
HPC 是为了支撑大规模的确定性计算, 比如说流体力学、天文学、分子学、量子力学等,它对存储系统的更多要求是准确性和稳定性,数据也基本上以结构化的数据为主,因此国内的更多机构会选择以 TLC 为主的 SSD 来构建其 HPC 存储集群。
AI 现在更多的是服务于智能决策,微调、 RAG 等不同的阶段 , 是为了服务大模型去支撑应用的落地,数据以多模态为主,除了文本之外,还有图像、视频、音频等内容,它对于存储介质的随机读写的能力、 IOPS 的能力要求***高。
雷葆华 : 本质上来说, AI 与 HPC 对存储的需求,相同点大于差异点。所以很多客户在思考用一套存储,同时支持 AI 和 HPC 。对于 AI 来说,大体上跟 HPC 对存储的需求都一致,区别在于对多协议的支持。
如前面所说, AI 以非结构化数据为主, HPC 以结构化数据为主 。 从 WEKA 存储角度来说,那就尽量多的支持各种协议接口。
翁昀 : AI 对数据量要求会更高一些。从 Solidigm 角度来看, 在 AI 集群中的数据湖或者大量数据的存储需求上,会是大量的 QLC SSD 的机会。 在训练和推理的过程中,因为对随机 IO ,尤其是小块 IO 的随机吞吐,会有较高的要求,因此会有 TLC 和 QLC SSD 搭配使用的情况。
HPC 对存储的需求则略有不同,随机、顺序的 IO 都有,因此对于 TLC SSD 会有更高的需求。
杨磊 : 虽然在实际使用者的角度来说,很多机构还是将 AI 集群和 HPC 集群分开使用。但是,超算和智算的确正趋于融合,也就是以一套存储来支持 AI 和 HPC 。 HPC 在更多的时候会应用 NFS 这样的存储协议,而 AI 更多的时候会用对象存储 S3 这样的协 议。那么, 如何通过一套存储来解决所有的协议,那就不仅是存储软件的问题,也会兼顾着 SSD 、 CPU 、内存、算力、服务器等综合生态的建设。
关于 Solidigm
Solidi gm 是企业数据存储领域的***。凭借数十年的产品领导力和技术创新力, Solidigm 正 与客户携手推动业务转型,共同迈向以数据为中心的未来。 Solidigm 在打造创新产品和助力客户成功等领域处于长期***地位,借助从核心数据中心到边缘的强大端到端 产品,为 AI 等前沿领域的发展提供有力支持。 Solidigm 是 SK 海力士的独立子公司,总部位于美国加州兰乔科尔多瓦,业务遍及全球。如欲了解有关 Solidigm 的更多信息,请访问 [ https://solidigm.com ] ,或关注微信公众号 [SolidigmChina] 。


