DOIT算力豹专访甄亚楠:大模型算力“开箱即用”,按需建设提升资源利用率
▌北京超算推出按需构建算力资源的创新模式
当人工智能(AI)概念被提出之时,文艺工作者便竭尽笔墨畅想了未来计算机,如科幻小说《最后的问题》描述了占地数千公里电子计算机Multivac,电影《终结者》展现了一台台并联占满房间的计算机。这些未来智能在规模超大、功能超强这两方面都贴合着当前算力集群的真实形态。
随着生成式AI在国内广泛落地,互联网大厂在大模型部署上百舸争流,算力被拱上这场浪潮的焦点。大模型训练对计算资源的需求非常高,需要高性能的计算机、显卡集群或超级计算机,但算力方面“供不上、用不起”成为制约人工智能产业发展的一大痛点。
在超算商业化的征途上,北京超级云计算中心(简称“北京超算”)深耕行业13载,凭借海量算力资源、创新的超算云服务模式,以及7*24小时专业技术支持已为超过1000家单位提供优质服务。
北京北龙超级云计算有限责任公司(简称“北龙超云”)是北京超算的主体运营公司,算力豹邀请北龙超云CTO甄亚楠接受专访,一同探讨算力资源池如何链接算力供需两端,以及算力中心建设过程中的工程化难题和着力点。
▲北龙超云CTO 甄亚楠
01 四种算力平台“开箱即用”,加快科研&生产流程
《2022-2023全球计算力指数评估报告》显示,计算力指数平均每提高1个点,国家的数字经济和GDP将分别增长3.6‰和1.7‰。算力正以一种全新的生产力形式,为各行各业的数字化转型注入新动能,惠及每一家企业、每一个人。在甄亚楠看来,算力与应用之间的关系是相互依存的,应用程序的设计和应用场景决定了它所需的算力。
算力已成为科学研究和企业创新的必备技能,如何将技术创新和算力进行有效的结合?甄亚楠谈及对这一问题的深刻思考,他认为以科学计算、人工智能为代表的技术创新方法依赖大量算力资源。北京超级云计算中心以算力服务作为核心业务,可以提供共享的CPU、GPU等算力资源,解决人工智能训练推理,以及科学计算所面临的计算问题。免去传统算力建设过程中资金投入大、资源总量小等一系列问题。
从整个产品规划的方面来看,北京超算目前已经形成四大产品为核心的运营服务体系——AI智算云、行业云、超算云、设计仿真云,除了提供海量的的CPU、GPU算力资源外,还可以提供“专有云”“混合云”等定制化行业解决方案,以满足人工智能、工业仿真、气象海洋、生命科学、材料计算、能源勘探等行业场景的需求,为用户构建云上科研工作环境,使用户能够专注科研。
▲AI智算云平台架构
甄亚楠分享到,对于基础科研来说,算力平台使用户省去高昂自建算力成本;基于多种主流型号的海量算力资源,不仅可以满足多种业务场景,同时可以满足大规模计算诉求,尤其是大模型训练、推理业务需求,加速科研成果研究和转化。
据了解,北京超算已服务1千多家单位,包括企业、科研院所和高校,涉及20多种行业。
02 大模型“暴力计算”时代,按需建设提升利用率
大模型增长之势在2024年持续,据Gartner预测,到2025年全球将有70%的AI模型使用云端来进行训练和部署。另一方面,多模态模型的训练以及应用侧推理都将对算力提出更严苛的要求,算力资源复杂度与规模将同步升级,随着模型规模的扩大、训练时间加长,计算资源的利用率也会成为关键。
国家信息中心近日在京发布的《“人工智能+”时代公共云发展模式与路径研究》报告显示,我国算力存在资源分散、利用率低等问题,一定程度阻碍了人工智能技术创新迭代与规模化应用的步伐。甄亚楠认为,采用公共算力能够高效利用资源,提升算力供给,并通过规模经济效应降低算力使用门槛,让更多用户享受到高性能、高性价比的算力服务;另一方面,目前公共算力资源面临算力资源分散利用效率不高、服务效能不佳等问题。
在算力服务上,北京超算采用市场化供给和专业化运营以解决算力共享难等问题,推出了按需构建算力资源的创新模式,以需求为向导,紧密围绕用户的实际业务需求、应用需求,精准匹配算力资源,推动算力服务的高质量和效率的提升。
甄亚楠透露,智算中心的算力服务已经跃升为北京超算的主营业务之一,且目前增长迅速。北京超算具有万卡集群工程化能力,同时拥有长达十几年的服务经验,有力保障大模型训练、推理业务的开展。
当前人工智能正快速迭代创新,大模型的用户量、访问速度、网络带宽、训练模式等时时影响其算力需求的大小,在保障算力的性能和稳定服务方面,甄亚楠展现出对北京超算的信心。据介绍,北京超级云计算中心从2019年开始打造人工智能算力服务,且在2021年、2023年有多套的智算资源入榜世界人工智能算力性能排行榜(AIPerf500),先后获得总量份额第一、大模型训练算力TOP3等成绩。
▲北京超算获2021年世界人工智能算力性能排行榜总量份额第一名
步履不停,北京超算将强大的算力服务能力持续性输出给大模型客户,同时也在积极寻找优质的加速卡资源,来保障算力使用者在大模型计算过程中有效的、短期的算力资源。
未来,大模型“原生”应用落地的场景有待进一步探索,如政府、金融、视频、媒体等领域。甄亚楠透露,北京超算正在就文生图、文生视频等新兴AI技术领域与客户进行沟通,将帮助落户这类大模型场景的工作纳入中长期规划。
03 算力建设“智逢其时”,积极推动形成以人工智能为引擎的新质生产力
近年来,“东数西算”工程全面启动,国资委今年2月提出加快智能算力中心建设,两会政府工作报告更是强调要“适度加快”。在算力建设火热之下,我们“冷思考”发现,分散在地方的算力中心各自为营,算力需求也呈现出多元化、碎片化趋势,种种因素导致的尖端算力浪费、低端算力过剩的问题掣肘着算力建设的发展。
建立适应“人工智能+”时代的高质量算力服务基地迫在眉睫,在助力智算中心建设方面,北京超算有着长期布局和具体着力点。甄亚楠分享说,北京超级云计算中心成立于2011年,是由北京市人民政府主导、院市共建的“北京超级云计算和国家重要信息化基础平台“,坐落于北京市怀柔综合性国家科学中心--怀柔科学城。
当下,大模型及生成式AI技术正在掀起新的产业革命,北京超级云计算中心积极推动形成以人工智能为引擎的新质生产力,可以在算力设施、算力运营、大模型应用落地等方面与地方或产业开展全方位合作,为智算中心建设运营提供高性能、可持续的运行方案,推动智算中心快速投入使用并实现长效运营,保障经济社会效益最大化。
为破解算力资源易闲置、使用成本高等问题,北京超算已在算力产业的市场化供给、规模化经营、专业化运营方面做出示范性实践,在算力产业生态化发展方面,北京超算也正与产业上下游协同合作、积极探索。
去年6月,北京市政府积极联络大模型产业链上的算力、数据、模型、应用和投资单位推出“北京市通用人工智能产业创新伙伴计划”,北京超算成为首批“算力伙伴”。目前,北京超算已与北京智源人工智能研究院、智谱AI、澜舟科技、深势科技等单位形成了算力合作,为国产大模型如智谱GLM-4、孟子大模型等提供了算力服务支撑,帮助训练进行优化以及数据分析,为大模型团队提升效率。
▲3月18日,在澜舟科技大模型技术和产品发布会上,
北京超级云计算中心等与澜舟科技签约并合影。
结语 算力产业格局重整,以服务助跑国产算力
海外算力供给受限,国产算力迎难而上,在新技术、新政策重整算力产业格局的同时,行业还需要正视国内算力利用率低的底层鸿沟。甄亚楠谈道,北京超算可以将积淀十余年的运营经验进行输出,帮助政府和企业建设算力中心,同时提供高质量的运营服务解决方案,来帮助他们去提升整个平台的运营效率和经济效益。
在人工智能加速迭代和创新的当下,北京超算已不仅仅是一个算力服务提供商,甄亚楠提到,北京超算密切关注芯片、软件以及服务生态国产化方面的相关进展,同时以算力服务为核心让资源利用最大化,与业界合力让算力资源供需两端形成一个有机整体,让国产算力跟上产业价值共振。