您当前的位置:首页 > 文章中心 > 评测实验室 > 浪潮NF5488A5 GPU服务器实测
浪潮NF5488A5 GPU服务器实测
作者:server2008   来源:本站   点击:744   时间:2024-1-12

浪潮NF5488A5 GPU服务器评测报告,结果显示浪潮NF5488A5可大幅提升Transformer模型训练性能。 

测评报告原文如下 

当前,Transformer已经成为了人工智能深度学习中最为核心的算法架构。在自然语言处理(NLP)领域,基于Transformer架构的语言模型,如BERT和GPT等,已经成为了自然语言处理领域应用最广泛的模型架构。基于Transformer架构,业界构建了参数量越来越大的自然语言模型,比如GPT-3、MT-NLG、浪潮“源1.0”等参数量达到千亿规模的模型。 最近笔者拿到了一台业界顶级的GPU服务器浪潮NF5488A5,搭载了AMD 7742 CPU和NVIDIA A100 GPU,非常适合Transformer模型训练的需求。本文主要基于这一平台,构建了4个Transformer模型进行了性能测试,供相关领域人士参考。 

Transformer架构特点及算力需求 

典型的Transformer网络由多个架构和参数量一致的Transformer block组成,如下图所示。其中分为自注意力(self-attention)层和前馈神经网络(MLP)层。基于这一架构设计,Transformer网络可以很容易地进行参数量的扩充。通过修改Transformer block的层数、以及每层的隐藏层大小(Hidden size),就可以很容易地提升模型的参数量。比如BERT模型的2个不同网络,BERT-Base和BERT-Large的区别就是BERT-Base有12个Transformer层,每层的Hidden size为768;BERT-Large有24个Transformer层,每层的Hidden size为1024。

Transformer模型训练对算力有比较高的需求。主要体现在这么几个方面: 

▶ Transformer模型的计算量一般都比较大,且以矩阵乘为主,因此需要高算力的芯片,特别是张量矩阵乘有很好的加速优化的计算芯片,另外矩阵乘对芯片和显存之前的数据搬运吞吐,即显存带宽也有比较高的要求; 

▶ Transformer模型的参数量一般都比较大,因此需要AI加速芯片有足够的显存来存储模型训练过程中的模型梯度、优化器参数以及激活值数据等; 

▶ 当Transformer模型的参数量超过了单个AI计算芯片的计算/存储能力时,往往需要多个芯片,甚至是多台服务器来进行分布式训练,此时对于芯片之间的数据传输通信带宽有一定的要求。 

本次测评使用的浪潮NF5488A5 GPU服务器针对高端AI计算性能需求在系统架构上做了精心设计,可以非常好地满足Transformer模型的计算需求。 

测试平台介绍 

浪潮NF5488A5是一款与NVIDIA在售的旗舰机型DGX A100相同架构的GPU服务器,在MLPerf™基准评测的各项任务中一直都有着不错的表现,多次打破测试纪录。 

如前所述,Transformer模型的主要特点是参数量大和计算量大,NF5488A5集成了8颗NVIDIA Ampere A100 SXM4 GPU和2颗AMD EPYC Milan CPU,8颗A100提供了320GB的显存容量,高达5PFlops FP16算力、16.312TB/s的显存带宽,这些关键指标完美匹配了Transformer模型的算力需求。 

NF5488A5最核心的计算加速单元当属HGX A100 GPU板卡了,HGX板卡上的每颗GPU都会与NVSwitch直接聚合通信,整个板卡的聚合总带宽达到惊人的4.8TB/s,满足Transformer类模型的卡间高通信带宽要求,在降低通信延迟的同时,充分提高了GPU的有效计算时间,从而充分释放GPU算力。

为了确保有足够的CPU-GPU带宽,浪潮NF5488A5在CPU与HGX A100之间设计了4组PCIE Gen4 x16的链路,确保CPU-GPU之间的数据传输和控制命令高速传输,加速模型训练过程。 

NF5488A5提供了4个IB网络用于集群互联,支持4个NVMe SSD通过GDS协议加速GPU和存储之间的数据访问。 

另外,我们发现NF5488A5支持4个3000W N+N冗余电源,6颗双转子冗余散热,满足35度高环温稳定运行,支持额外的PCIE Gen4 x16扩展槽以及IPMI管理接口等功能。 

NF5488A5适配了多款CPU、GPU、内存、硬盘、网卡等部件,可以根据客户的需求灵活配置,以更低的成本满足不同场景的多样需求。 

本次测评平台配置如下: 实测结果及性能分析 

在软件框架层面,为了满足Transformer模型训练需求,特别是多芯片协同的分布式训练需求,业界已经出现了一些显存优化技术和模型并行拆分技术,并诞生了一些整合了这些技术的训练框架。当前应用最多和成熟度最高的是NVIDIA开发的Megatron-LM、微软开发的DeepSpeed。这两个框架都支持使用张量并行的方式来把Transformer模型在多个计算芯片上做模型参数的均匀切分。 

本次测评中,我们基于Megatron-LM框架设计了4个不同参数量、与GPT-2架构相似的Transformer模型,具体配置如下表所示。训练使用了1024的序列长度。计算过程中使用了activation checkpointing技术来进一步的节省显存,该技术可以通过仅保存部分网络层输出的激活值,并删除其它的激活值来节省显存,可以最大限度的减少激活值的显存占用。但是,这一技术需要在反向传播时,对缺失的激活值进行重算,也就是使用了额外的计算来换取了显存的节省。一般来说,这一技术会使得前向计算被执行2次。

针对这四个Transformer模型,在浪潮NF5488A5上的测试结果如下表所示。测试使用的batch size都为16。其中模型A仅使用了单卡进行测试,模型B使用了2卡的张量并行进行测试,模型C使用了4卡的张量并行进行测试,模型D使用了8卡的张量并行进行测试。对于每个测试任务,我们统计了模型单次迭代的计算耗时,由于模型完整训练所需的时间太长,我们按照一般模型训练3000亿Token的计算规模,预估了使用单台服务器完成完整的模型训练所需要的时间。可以看到,使用单台服务器,即使训练10亿参数量模型,也需要花费将近20天的时间。

当前,业界对于Transformer架构模型训练过程中的计算量也能进行量化评估,因此我们可以计算出这四个Transformer模型单次迭代的计算量,以及平均到每个GPU的计算峰值。除此之外,我们也可以根据模型的层数计算出单次迭代的通信次数以及单次迭代的张量并行通信数据量。换算出的结果如下表所示。

可以看到,从单GPU的峰值角度来看,10亿参数量模型的计算效率最高,达到了142TFlops,考虑到A100 FP16精度的峰值计算能力为312TFlops,这一实测的计算效率达到了峰值计算能力的45.5%左右。在所有公开的实测性能数据中,包括Megatron-LM实测公开的数据中,45.5%的峰值计算能力都是一个很不错的性能表现。另外,可以看到随着模型参数量的增大,单GPU计算峰值是逐渐降低的,这主要是因为张量并行带来的额外通信时间占用造成的。 

从上表也可以看出,所有使用了张量并行的模型在每次迭代过程中,都需要执行数百次的张量并行数据归约通信操作。通信的次数主要和模型的层数有关。另外上表也给出了单次迭代的张量并行通信数据量的总量,这一数据不仅和通信的次数有关,也和每次通信的数据量有关,而每次通信的数据量主要取决于批尺寸的大小和隐藏层的大小。可以看到,随着参数量增加,单次迭代的张量并行的通信数据量也是急剧增加的。这也意味着需要更多的通信时间。 

为进一步比较分析NF5488A5的GPU间通信性能,笔者拿到了一台采用PCIe互联的GPU服务器,它与浪潮NF5488A5服务器的区别是GPU间的通信连接方式没有采用NVSwitch技术,而是采用PCIe 4.0总线,这也是一种普遍用于连接显卡的方式,可为用户提供总共64GB/s的双向数据传输速度。该服务器配置了2颗AMD EPYC7663处理器、32条32G内存,以及8颗PCI-e 4.0接口的NVIDIA A100 40GB GPU。 

我们在其余实验条件一致的情况下,进行了对比测试,4种不同参数量的模型对比测试结果如下表所示:

从上表可以看出,如果以PCIe互联的GPU服务器为基准,NF5488A5服务器可以提供至少4倍的模型训练性能加速。这充分说明了NF5488A5服务器中采用的NVSwitch技术相比PCIe4.0具有巨大的通信带宽性能优势,可以为模型训练节省大量时间。

​同时,可以看到,即使本次测试使用的NF5488A5服务器GPU之间的通信带宽可以达到600GB/s,模型D的67.6GB的通信数据量也是一个非常大的通信数据规模。并且张量并行的数据并行和GPU的计算过程是不能并发进行的,也就是每次通信的发生都意味着GPU的计算单元必须要处于闲置状态,且等到数据通信完成之后才能进一步计算。这也意味着,使用高带宽的GPU间NVSwitch互联技术,对于大模型的训练,是十分有必要的。正是基于这种架构特性,NF5488A5大大提升了Transformer模型的通信效率,从而增大了计算通信比。

测评结论

测试结果显示,使用单台服务器可以完成百亿级别Transformer模型的训练需求。当然仅使用单台服务器来完成百亿级别模型的完整训练过程还是不太现实,但是可以使用多台服务器的分布式训练来进一步提速训练过程。从这个角度来看,使用40GB显存的GPU卡和使用80GB显存的GPU卡之间的区别并不大。

通过对比测试可以看出,NF5488A5采用高带宽的NVSwitch架构保证了模型张量并行对通信带宽的高需求,因而对提升Transformer训练效率是非常明显的。同样对于多台服务器组成的训练集群,NF5488A5可提供总带宽达800Gb/s的InfiniBand高速网络减少跨节点通信延时,从而为大模型训练提供更高的计算速度。

综上,浪潮NF5488A5从计算、存储、网络等多个方面均可助力Transformer模型训练性能提升,帮助业界更好地应对大模型的算力挑战,并且根据不同的模型对CPU、内存、存储、网络的差异需求,可提供多样、灵活的选择。


成都浪潮服务器代理商——成都强川科技有限公司 

联系电话:028-85042466  13540423076 

公司地址:成都市武侯区一环路南二段2号新世纪商业中心东楼17B


   
 
上一篇:服务器的新兴散热技术             下一篇: 浪潮信息推出全液冷冷板服务器
友情链接: 四川服务器总代理 | 成都服务器总代理 | 成都戴尔总代理 | 成都戴尔服务器总代理 | 成都联想总代理 | 成都浪潮服务器总代理 |
成都强川科技有限公司 版权所有 Copyright 2011-2024
全国免长途热线:400-028-6620 技术支持:028-85041466 传真:028-85215166
地址:成都市武侯区新世纪电脑城东17楼B座       ICP备案编号:蜀ICP备11026978号-2