专访北京超算CTO:利用应用运行特征分析技术,提供高效稳定算力

2024.10.10


进入 2024 年,企业客户对于算力的稳定高效,高性价比有了更多的追求。在此次专访中,CTO 甄亚楠揭秘了北京超算如何通过超算技术助力百亿、千亿参数的大模型训练,利用应用运行特征分析技术,为客户提供高效、可靠的智算云服务。


9 月 24 日至 26 日,第 20 届 CCF 全国高性能计算学术年会 (CCF HPC China 2024),暨首个以「算力」为主题的大型国际科技交流盛会 2024 世界算力博览会(WEC 2024)在武汉市中国光谷科技会展中心盛大举行。


全球算力领域科研机构与代表企业纷纷参会。北京超级云计算中心(简称:北京超算)作为专注于为大模型训练企业和研究机构提供高性能、高质量、高性价比算力服务的优秀代表,也参与了此次盛会。


在此次盛会上,极客公园专访了北京超算 CTO 甄亚楠。


甄亚楠在高性能计算领域拥有十余年经验,参与了多个大型算力中心的建设和产业化推广项目。


在大模型热带来算力荒后,北京超算开始在AI智算云基础上更大规模扩容智算算力,很快拥有了包括智谱AI、中科闻歌、澜舟科技、深势科技、紫东太初等一系列大模型公司在内的模型客户。


进入 2024 年,企业客户对于算力的稳定高效,高性价比有了更多的追求。在此次专访中,CTO 甄亚楠揭秘了北京超算如何通过超算技术助力百亿、千亿参数的大模型训练,利用应用运行特征分析技术,为客户提供高效、可靠的智算云服务。


同时,通过两年对大模型客户的服务,北京超算也积累了许多对行业的认知。


以下是访谈实录,为求精简做了部分删减。


转型智算,灵活提供多种算力形式


问:北京超级云计算中心,成立初期主要以超算服务为主,什么时候开始转型开始做智算服务?

甄亚楠:北京超级云计算中心从 2011 年成立以来,一直做的是算力服务,这点没有变化。

在 2019 年之前,我们其实主要是以 CPU 算力服务为主,当时主要还是服务的是科学计算的用户。

从 2019 年开始我们上线了一系列的 GPU 的加速卡,主要目的是为科研用户提供计算加速。当时已经有一些传统科学计算的软件可以通过 GPU 加速技术来缩短研究的周期。与此同时,我们也意识到深度学习逐渐受到业内的重视,因此我们提供了对应的 GPU 的算力资源。

随着算力服务方向的变化,算力用户方面也开始发生一些变化。

传统的教育和科研用户仍在增长,自 2023 年以来,大模型企业的算力需求不断增加,同时北京超算的 GPU 算力资源也在持续扩充。

目前我们的核心业务中,智算客户已经远远的超过了我们的超算客户的增长数量和增长速度。从未来更长期的的角度可以预见,人工智能算力的需求会持续增长。


问:大模型训练这块,客户群体主要是怎样的?

甄亚楠:大模型这一块的话,客户群体有几类。

一类是以科研院所为代表的,本身有非常长时间的 AI 方向领域的一个积累。随着大模型的爆发,历史上的研究经验、研究成果,转到了大模型这一端来。

同时的话我们也看到非常多的初创公司,由于大家都有非常好的 AI 的经验以及知识体系,初创公司增长非常迅速,也都获得了资本市场的支持。最后一类就是传统企业。随着业务发展的诉求,也非常敏锐地嗅觉到了 AI 模型对于提升企业效率和降低成本上的优势。

目前为止,基本上科研院所+初创企业+传统企业,是我们现在主要的大模型算力用户。


问:不同的客户群体对于算力的需求是否有所不同?

甄亚楠:科研用户由于资金和研究方向的限制,单个客户的算力需求较小,但整体群体规模较大。相反,企业用户数量较少,但每个企业的算力需求通常达到数百卡甚至上千卡,有时甚至会超过万卡。

一些垂类大模型的研发,一般需要和企业内部的私有数据来去做结合。所以在研发的初期可能会有公开的数据集,或者是数据相对非敏感的数据,可以在云端去做对应的训练,还有一些推理业务。

到了成熟期,某些企业会考虑到自己的数据安全隐私的诉求,我们推荐使用两种方式解决:

一种是在云端去提供一个相对独立可控的专属资源池,用户的数据可以得到完全独立自主的使用。

另外一类就是对于一些某些敏感单位,需要完全的私有化部署。在这种情况下算力资源需求主要取决于项目、资金和研发进度,采购算力本地使用。


问:北京超算是如何满足客户的多样化算力需求的?

甄亚楠:我们提供的算力资源有几种形态。

一种叫「裸金属」,就是物理服务。我们有非常多的物理服务器的资源,基于超算的模式,通过高速互联网络把这些机器连接在一起,以提供非常好的并行计算效率。

对于一些业务相对来讲比较敏感性或者保密性要求比较高的,用户可以拿到全部权限,然后在这个基础上直接部署自己的业务。

另一种是超算集群,就是既提供硬件资源,也搭配了对应的调度系统。对于科研或者是偏初期的研发用户来讲,最终目的其实就是为了将程序跑起来,如何去进行调度的这个事情,用户其实也不太想去参与。在这种模式下,用户登录到平台,可以很轻松的把自己的任务运行起来,至于这些任务是分配到了哪些加速卡上,用户不用操心。

最后一种是类似于云计算的虚拟机的场景。对于一些科研用户,或者是一些算法的初研阶段,需求的资源量不是很大,也许单张加速卡或者单台计算设备就能满足的计算需求,这种情况下,云计算/云主机的模式就可以很好的解决用户的需求。


应用运行特征分析:为客户做体检,主动提供合适的算力


问:从 2023 年到 2024 年,企业对算力需求的关注是否有变化?

甄亚楠:其实从 2023 年大模型爆发以后,来找我们的这种企业或者是研究机构,以及我们主动发现的客户还蛮多的。据我们的统计,到 2023 年年底的时候,我们主动接触过的大模型企业或研究机构差不多将近 200 多家。

当时其实大家讨论的主要的问题是,在那个时间节点是否可以提供足量的加速卡来支持企业的项目推进。

近两年,相同的情况是,大家在市场上都觉得获取算力资源太难了,在短时间内都希望能够优先拿到这些算力资源

除了想要获取算力资源,我也看到了国内的很多的用户其实在去寻求,通用芯片外的解决方案,比如说国产替代的方案,我们也在帮客户去做算法移植的事情,协助用户将已有的模型移植到国产芯片上,以便在紧急时刻提供可用的算力资源。


问:北京超级云计算中心,如何帮助客户稳定高效和高性价比地获取算力?

甄亚楠:AI,是一个非常复杂的系统工程。在使用算力的过程中,一般需要企业配制足够 IT 架构的技术人员去管理和维护算力资源环境,但是,这个过程会占用客户非常多的时间精力。北京超级云计算中心在提供算力资源的同时,可以提供系统级服务,更好地帮助客户。

我们在实际的服务经验过程中,帮客户去提供非常多平台级的服务,比如说帮用户提供镜像仓库,帮用户提供节点实时性能的监测,同时对于一些异常情况,会通过主动报警的方式直接发送到用户的飞书或者企业微信等办公软件。

我们一直提倡要给用户提供高性能、高质量、高性价比的算力资源。

我们主动提供应用运行特征分析,帮助用户全面了解 AI 程序在计算全生命周期内的性能特征。基于这些特征,我们能在多种加速卡型号中为用户优化算力选型,确保用户在性能需求提升时能够迅速匹配到最合适的算力资源。这不仅节省了用户的时间,也有效提升了算力的利用效率,为客户提供更加稳定、高效的计算体验。

有点类似于我们先帮人做体检。体检完成以后根据各项指标的状态,我们来推荐未来在业务升级的时候,哪一款算力或者哪一种配置更适合业务场景,从而帮用户去降低它的成本。


通过建设算力池,解决通用芯片紧缺的问题


问:算力供不应求的时代,我们如何满足客户对算力的需求?

甄亚楠:首先我们建设了很多算力资源。

北京超级云计算中心,总部其实是在北京,但是随着近几年我们的快速发展,除了北京市以外,在宁夏的中卫,还有内蒙古的和林格尔新区,都部署了全新的算力资源。

北京这边主要是以超算算力为主,宁夏是超算+智算中心。内蒙古和林格尔新区的算力基地是今年 6 月份刚刚上线的,我们计划在内蒙放置更多的智算算力,目前已经上线的主要是训练卡的资源,10 月份也会陆续上线推理资源。

我们一直践行按需扩容的算力服务模式,当用户有需求的时候,能很便捷地帮用户把算力资源建设好,并且供给出去。

其次我们具有跨域的算力调度能力。当用户的任务出现排队时,可以自动调度到其他算力中心,计算完成后将结果传回。

此外,我们进行了多元化的算力资源储备。这里既包括了通用资源,也包括国产资源。


问:目前看到北京政府这边,也有建设北京算力互联互通和运行服务平台这样的平台。北京超级云计算中心在其中扮演怎样的角色?

甄亚楠:从算力的互联互通的这个角度来讲,一方面我们的算力本身就是一种共享模式,当有需求的时候,我们的算力可以直接共享出来。另外一方面,我们现在已经连接到的国内的算力资源都可以成为北京算力互联互通里面的子集。北京超算非常愿意在这个基础之上能够和更多的合作伙伴一起去服务好整个大市场。

我们也在不断的进行有效的探讨以及互相的学习,看看大家的技术能否形成一些行业规范,以达到共同进步的目的。



构建云上科研工作环境

让计算更简单,让生活更美好

免费试算