国产芯片15天左右可跑通大模型,高端算力仍需各方努力

2024.07.23

大模型落地应用元年


2023,随着ChatGPT的横空出世,大模型迎来了前所未有的关注。2024,业内普遍认为,大模型将迎来落地应用热潮。


大模型落地应用元年,人工智能技术也行至产业应用的临界点。红星资本局采访多家国内大模型企业,聚焦大模型应用行业前沿关键节点。
算力与数据,是支撑超大规模训练模型发展的两大基础设施。面对全球追逐大模型热潮,高端AI芯片短缺,算力问题也成为各行业实现人工智能普惠的最大难点。

近期,北京超级云计算中心运营实体北京北龙超级云计算有限责任公司CTO甄亚楠在接受红星资本局等媒体专访时谈到了超算中心与智算中心转换、大模型使用国产芯片的情况、大模型算力供给等问题。

他告诉红星资本局,目前帮国产大模型“嫁接”国产芯片,只需15天左右就可以跑通。他认为算力共享会是行业大趋势,高端GPU算力资源需要各方努力。

北龙超云CTO甄亚楠

超算转智算会是趋势吗?

一般来说,算力分为通用算力(基础算力)、智能算力和超算算力三大板块。

其中,基础算力主要由基于CPU芯片的服务器提供,用于支持如云计算和边缘计算等基础通用计算。智能算力则由基于GPU、FPGA、ASIC等AI芯片的加速计算平台提供,主要用于人工智能的训练和推理计算。而超算算力则由超级计算机等高性能计算集群提供,主要用于尖端科学领域的计算。

各类算力中心在计算方式和擅长领域等方面各异,近几年各地也在加快智算中心的建设。

“其实海外并未区分‘超算’‘智算’的概念,他们专门用来做计算的这类机器都叫做super computer(超级计算机)。”甄亚楠认为,智算中心在国内看起来利用率比较高,主要还是供需关系决定的。

“现在做大模型的企业比较多,大家都在‘抢时间’研发,迫切需要有更大量的算力资源,短时间之内高端GPU算力资源大家都是按月或者按年的方式去租赁。所以这个机器只要一上线,就有大量的客户把这些资源拿走去用,这就看起来智算中心的利用率更高一些。”

甄亚楠表示,超算和智算解决的都是同一类问题,即计算密集型问题。“如何给用户提供足够量的资源池,如何提供稳定长时间的计算,如何能够在计算过程中性能是高效的,不管对于超算还是智算,都属于共性问题。”

甄亚楠认为,算力中心的建设就需要具有一定的“适度超前性”,因为要承载未来3~5年的使用诉求。为了应对空闲,北京超算采取的是“分批次”的按需建设模式。“比如需求旺盛的时候,增加建设几百台甚至几千台,当利用率饱和的时候,再进行有效的扩容。”此外,关于超算智算之间的转换,他表示超算架构加上GPU卡就可以服务AI智算。

数据显示,截至去年我国就有十余家超算中心,超30个城市提出或正在建设智算中心。

甄亚楠告诉红星资本局,各个地方建设算力中心,北京超算也在积极关注,“如果地方建设了大型的算力中心,是不是能找到客户、服务好客户?是不是能把平台高效运营起来实现经济效益的转化?这些是我们持续关注的点。”

甄亚楠还提到了另一个关注点,即未来算力产业。“本质上它受限于算法和算力芯片技术的快速迭代和更新。以英伟达来讲,都会有非常明确的算力芯片发展规划。未来高端芯片出来后,是不是低端芯片会逐步被替代掉,这也是一个值得探讨的问题。”

国产芯片跑通大模型有障碍吗?

近年来,我国人工智能算力芯片的市场格局主要由英伟达主导,其占据了80%以上的市场份额,一直保持着无可匹敌的竞争优势。然而,随着美国对高性能芯片出口限制措施不断加强,国产AI芯片肩负起填补市场空缺的重要使命。

“我们也非常关注国产芯片的发展,据了解,国内自研的大模型,甚至一些开源的大模型都在不断往国产芯片上去做移植。”

甄亚楠指出,现在从芯片使用角度来讲,有些模型已经可以跑通运行了,需要追赶的方面主要在类似GPU这种高性能。

“整个的国产化是分层级的,芯片属于硬件这一层,除此之外还有软件的生态。对于国产的芯片来讲,不管是框架还是生态,都需要有一定的培育周期。”甄亚楠呼吁,最终的应用方要给到国产芯片足够的信心。他透露,目前北京超算有专门的团队,在国产芯片各类指导文档比较齐全的情况下,历时15~20天,开展服务器基础环境部署、性能测试到模型移植、性能优化、加速库替换等工作,可以帮助客户完成国产算力的模型移植与部署。”

甄亚楠坦言,从整个生态角度,需要硬件、软件、模型企业共同努力。“本质上来讲还是个非常复杂的系统性问题,国产芯片是可以‘跑起来’,解决‘可用’的问题,但剩下的性能问题,也就是达到‘好用’的程度,则需要大家共同努力。”

大模型算力供给是否存在困难?

红星资本局注意到,从去年开始,就有专家学者指出,大模型时代,智能算力成为“稀缺资产”。如何善用算力资源,发挥其最大效益,已经成为每个参与者必须面对的挑战。

甄亚楠认为,对于大模型需求多少算力,应用上有所区分。

比如,做基座大模型的企业,对算力资源的总量要求比较高,可能动辄就是5000卡,甚至万卡的规模,甄亚楠表示,目前能够拿出空闲5000卡左右的算力资源的智算中心在国内还是非常少的,所以基座大模型企业算力依然紧缺。特别是对于那些顶级的基座大模型研究企业,目前缺卡的情况依然存在。

另外一类是行业大模型或者垂类大模型,一般都是在基座大模型的基础之上,利用自有数据做微调。甄亚楠指出,这种对算力总量需求相对来讲比较小,国内有很多算力服务单位都可以满足,这里存在的就是如何去优选服务的问题。

目前从大模型的算力供给量来讲,是否还存在制约?甄亚楠认为长远看,供需关系会发生变化,但当下,高端算力资源供货周期不可控,导致其依然“难求”。

甄亚楠提到,算力中心的建设投入是最直接的“制约”,周期长,耗资巨大。另一方面,建设多大的算力资源池,与大模型企业的长期规划更是有直接关系。

“我们必须和企业保持及时且长期的沟通,针对他们的业务发展走向,提前做布局。才能在规划时间内储备足够的算力资源池。”

甄亚楠坦言,高端GPU算力资源需要各方努力。“一方面我们自己建,另一方面我们也和国内的运营商、地方政府在洽谈,他们在建设算力方面有资金以及政策支持。算力共享在这个行业里会是大趋势,需要各方共同去谋求算力上的合作。”


构建云上科研工作环境

让计算更简单,让生活更美好

免费试算