今天,很高兴为大家分享来自通信世界的大模型时代下新型算力供给体系的几点思考,如果您对大模型时代下新型算力供给体系的几点思考感兴趣,请往下看。
自2022年11月ChatGPT发布以来,AIGC(生成式人工智能)成为各行各业密切关注的热点,医疗、金融、交通、通信等领域的AI(人工智能)大模型层出不穷,舆论称之为“千模大战”,更有观点认为“万模大战”将是AI产业化的必然趋势。
新业务的算力之困
与传统AI侧重图像分类、语言识别、故障诊断等分类预测型任务不同,AIGC更关注如何利用深度神经网络自动生成新的创作内容,例如创作文章、图像、音乐等。前者往往在小数据集下也能得到较高准确率的输出,而后者则需要依赖大规模高质量的训练数据,海量数据的背后,是算力需求的爆发式增长。
以目前业界分析较多的通用语言模型GPT-3为例,它拥有1750亿个参数,仅训练阶段就需要10000张V100GPU持续运行约14.8天,整体算力消耗为625PFlops。而于今年3月发布的GPT-4不仅参数量增加了10余倍,其对应的算力需求也大幅增加。
尽管现阶段仍有专家对ChatGPT类语言大模型的可用性提出质疑,但要提升AIGC的性能,最直接且最可行的方案就是增加训练参数的数量,并投入更多的训练数据和算力资源,以期待“从量变到质变”的转变,进而满足千行百业的需求。
过去,规模效应支撑算力水平持续提升,而伴随大模型参数量越来越大,智能化程度越来越高,行业对存储、网络、计算等底层基础硬件能力,以及扩展性、灵活性的要求也越来越高。算力建设不能局限于CPU、GPU、NPU等计算芯片的简单堆叠,如何勘破计算芯片协同的难点与要点,运用多种技术构建资源整合型的超级计算机以提升算力服务水平,是当前产业重要的研究方向。
算力供给模式创新是破局关键
在新形势下,依赖单体算力的传统供给模式显然已经难以为继,以AIGC为代表的新型业务在算力需求和算力应用两个维度存在明显差异,这些差异点正是破解大模型时代算力困局的关键。
首先,用户量、访问速度、训练模式等成为算力需求的影响因素,因此,在新业务执行的不同阶段,对算力的需求各有不同。
以ChatGPT为例,其全生命周期包括数据获取、模型训练、模型推理和迭代微调四个阶段,对算力的消耗主要集中在模型的训练和推理两个阶段。在模型训练阶段,大算力用于支持训练数据处理和海量参数优化等数据密集型操作,对算力基础设施的运行效率、性能稳定性和弹性扩缩容能力有较高要求;在模型推理阶段,大算力主要用于执行前向传播计算,对算力位置、交互实时性和准确性有较高要求。根据测算,模型训练所需的算力规模是模型推理的10倍左右,且其对资源的占用周期也远超后者。
其次,从业务运行周期看,传统基于CPU的通用计算任务往往对应着相对平滑的负载曲线,且对算力的需求在时间上呈现连续波动的趋势;而新兴业务的算力使用可能出现“短时高量”的特点,这意味着在特定时段,新兴业务的算力需求会突然增加到高位水平,后续又会快速收敛到低值。
针对算力需求的脉冲效应,“分时复用”是一种行之有效的资源配置策略。具体而言,借助需求预测和任务调度的方法,在高峰期给新兴业务分配更多算力资源,以满足其高算力需求;而在低峰期则将多余的算力资源重新分配给其他业务或用户,以提高整体的算力使用效率。
从上述分析可知,为适配新业务的发展节奏,算力资源供给模式亟需从以前的刚性化、“孤岛”式、资源式,向弹性化、网络化和任务式演进。弹性化是资源提供方根据工作负荷进行算力扩展和收缩,当需求增加时,动态增加算力资源以满足更高的计算要求;当需求减少时,适时释放空闲算力资源以消纳更多用户。
网络化是采用网络手段组织和管理算力资源,将分散在不同地理位置和组织机构间的计算、存储资源进行有效调配,形成泛在融合的算力供给网络。任务式是新型算力供给体系的重要特征,算力提供方将自有算力资源以任务的形式发布到算力交易中心,供需双方可根据业务特点进行匹配和一键订购。
同为社会高质量发展的重要驱动力,算力和电力有诸多相似之处,例如电力的调度需要电网作支撑,而算力的调度同样需要将分布式的算力中心汇聚成“一张网”,因此业内可以借鉴电力行业的发展经验来构建新型算力供给体系。基于多级、多方、多样的算力资源新型供给体系如图1所示。
图1基于多级、多方、多样的算力资源新型供给体系构建算力供给体系的关键技术
在现有多级、多方、多样算力并存的情况下,将算力供应与算力调配充分解耦,是推动算力资源从高门槛应用到融入千行百业、进入普惠共享新阶段的必经之路,也是构建创新型算力供给体系的重要措施。
在推进算力提供方、运营方、使用方等供需各环节解耦的过程中,算力度量、算力路由感知、算网编排、算力交易、确定性网络等技术得到广泛关注。
算力度量技术旨在量化评估异构算力资源以及多样化业务需求,通过建立一致的描述语言,在赋能算力流通属性的同时,为算力的感知、管控、服务提供基础和标准。将不同芯片提供的算力通过度量函数映射到统一量纲,用户多样化的需求映射为实际所需的算网资源,从而实现按需服务,对不同算法的算力需求进行度量,有效调用算法所需的算力。当前业界衡量算力大小通常采用的单位是Flops,即每秒浮点运算的次数,而在现有云计算方案中,则以虚机、容器等粗粒度的衡量单位为主。
算力路由感知技术是实现算力网络化的核心功能,能够支持对网络、计算、存储等多维度资源、服务的感知与通告,从而实现网络和算力资源的调度优化。目前的主流方案是将云计算领域的算力因子等概念引入网络领域,提出综合算力因子和网络因子的多重考量方案,再基于BGP、IGP等路由协议报文进行扩展,通过新增路径属性来承载算力信息和网络信息。
算网编排技术是根据网络感知动态数据,实现算力解构调度、网络智能选路、资源自动调度开通以及实时端到端透明可视。算网编排将网络、算力、数据、服务、应用、安全等多要素融合,实现从需求、流程、产品到运维、监控、自服务等多场景的跨云、跨网、跨域、跨用户编排。
算力交易技术是指将算力提供方的各类算力资源,按需提供给算力消费方,包括对算力消费方的资源需求解析,提供可视化交易视图、订单管理等功能。确定性网络技术不同于传统IP网络“尽力而为”的转发方式,可为网络提供“准时、准确”的可靠性数据传输服务,是构建下一代网络基础设施体系、提升数据传输服务质量的关键技术之一。
结语
未来,随着算力需求的逐步增长和计算机硬件的不断发展,大模型的规模和性能将持续提升。高性能的计算环境为大模型的训练和应用带来诸多优势,再配以弹性化、网络化、任务式的算力供给体系,可以充分盘活算力资源的每一个浮点能力,加速新业务开拓数字经济新“蓝海”。
*本文刊载于《通信世界》
总第928期 2023年9月25日 第18期
原文标题:《大模型时代下新型算力供给体系的几点思考》
好了,关于大模型时代下新型算力供给体系的几点思考就讲到这。
版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。