用更少GPU更快地完成2457亿参数巨量模型训练，浪潮信息是如何实现的？

2022-01-14 14:17:22

巨量模型是当前人工智能研究的热点，但以十年尺度来看仍处于起步阶段，模型训练和部署依然面临着巨大挑战。日前，2021 NeurIPS MeetUp China举办，浪潮信息副总裁、AI&HPC产品线总经理刘军基于2457亿参数的“源1.0”中文语言模型，分享了浪潮人工智能研究院在巨量模型训练方面的领先实践。

浪潮信息刘军表示：“训练工作中最复杂也最具挑战的技术点在于如何行之有效地完成数千万级参数的模型训练”。因此，巨量模型训练工作，需要在模型算法、分布式训练、大规模集群计算等各个层面进行协同设计、优化，才能保证模型训练过程收敛。为此，浪潮信息采用了张量并行、流水线并行和数据并行的“三合一”并行策略。

首先，将266台AI服务器共计2128个GPU芯片分成7组，每组38台AI服务器放置一个完整的“源1.0”大模型；其次，每组的38个服务器，采用流水并行每个服务器放置1/38的模型（2个Transformer Layer），一共76层；最后，在每台服务器内采用张量并行，按照Transformer结构的每一层进行均匀切分。在此过程中，浪潮人工智能研究院也通过“增加序列长度”、“减少模型层数”、“增加隐藏层大小”、“增加节点中微批次大小”等模型结构策略，提升训练效率。基于此，浪潮人工智能研究院完成2457亿参数的“源 1.0” 模型训练，总计训练1800亿个tokens，模型收敛的交叉熵为1.64。

在实现更高计算效率的同时，浪潮人工智能研究院也探索优化大规模AI计算集群架构。浪潮信息刘军表示：“源1.0”在集群架构设计上采用了2x200Gbps的高速网络实现节点互联，“我们在实践发现，通过一定的优化工作，可以使用更少网络设备数量，取得更佳的计算性能。”

目前，巨量模型远没有达到模型能力的极限，增大模型参数量和训练数据量仍然将带来模型精度的持续提升。为此，浪潮信息将紧随巨量模型的发展趋势，不断探索优质的计算策略，满足更大规模的训练需求。

用更少GPU更快地完成2457亿参数巨量模型训练，浪潮信息是如何实现的？

关于我们

版权信息

用更少GPU更快地完成2457亿参数巨量模型训练，浪潮信息是如何实现的？

关于我们

网站标签

版权信息