您当前的位置:首页 > 产品知识库

关于GPU在生成式AI领域的五大误解
作者:server2008   来源:本站   点击:940   时间:2023-10-7

一、我的GPU正在提供最快的结果 

在GPU之前,每个时间步骤中大约有70%的时间被用于数据复制,以完成数据流程的各个阶段,这耗费了大量时间。 

GPU可以实现大规模的并行计算,每个核心专注于高效计算,从而显著降低了基础设施成本,并为端到端的数据科学工作流程提供卓越性能。12个当前的NVIDIA GPU可以提供相当于2000个现代CPU的深度学习性能。而将8个额外的GPU添加到同一服务器上,可以提供多达55000个额外的核心。尽管GPU加速了计算过程,研究表明它们可能会花费一半的时间等待数据,这意味着最终需要等待结果。其提供的计算能力增加需要更强大的网络和存储支持。 

用于持久性存储的NAS,用于快速存储的本地文件系统或并行文件系统,以及用于归档数据的对象存储。这使得保持GPU充分利用以实现更短的时代时间和更快的洞察变得具有挑战性。 

我们的数据平台为当今的企业级技术计算工作负载以及在本地、云端或不同平台之间迁移的其它高性能应用所带来的存储挑战提供了解决方案。零拷贝架构在相同的存储后端上运行整个数据流程,并消除了复制操作的成本和延迟。可以加速GPU驱动的数据流程的每个步骤——从数据摄取、清洗、建模、训练验证到推理——以加速业务成果的实现。 

二、带宽为王,向带宽致敬 

虽然很容易将带宽视为需要关注以优化GPU使用的“唯一”度量标准,但带宽并不准确反映AI工作负载的完整特性。要优化的数据流程,需要考虑更多内容,而不仅仅是将大量数据传送到GPU - IOPs和元数据同样重要。 

数据流程的每个步骤通常具有完全不同的数据外观特征。当需要处理不同的IO需求以满足整个数据流程中的数据时,这可能会导致传统存储出现问题,因为传统存储通常调整为解决某一种数据类型或带宽性能特性,从而创建存储隔离和管理问题。根据工作负载的不同,需要性能特性,除了带宽外,还提供IOPS、延迟和/或元数据操作。某些步骤需要低延迟和随机小IO。其它步骤需要大规模的流媒体带宽。还有一些需要同时进行两者的并发混合,因为过程中存在子步骤。在大多数环境中,多个数据流程将同时运行,但在不同的阶段,这加大了同时处理不同IO配置文件的需求,我们提供了一个数据平台,轻松处理高带宽和高IOP条件。 

这在各个方面都提供了卓越的性能,因此可以将多个存储平台合并为一个,从而消除了在不同平台之间复制数据的时间浪费。在每个阶段,我们的平台都能比任何其他平台运行得更快。我们通过所有可用的协议向每个应用程序公开相同的数据集,并最终消除了许多用于调整的“技术细节”,提供了简化的高性能存储体验。 

三、GPU驱动的AI工作负载在处理小文件时始终面临挑战 

训练支持大多数生成式AI应用程序的大型语言模型,涉及大量小文件,从数百万小图片到用于分析的每个IoT设备的日志等各种数据。一旦进入数据流程,ETL类型的工作会规范化数据,然后使用随机梯度下降来训练模型。这带来了一个大规模的元数据和随机读取问题,特别是在AI深度学习流程的第一部分,其中有许多小IO请求,而许多存储平台无法有效处理。 

然而,我们的架构提供了解决这一问题的方法。通过将所有数据请求与NVMe设备的本机边界对齐,不仅能够高效处理小IO,还可以通过整合所有小IO来提供大带宽。此外,它会自动扩展集群内的虚拟元数据服务器,以确保随着集群规模的扩大,能够处理越来越多的元数据操作。结果显而易见:一位进行深度学习的客户平均每秒处理420万个IOPs和250GB/s的数据,其中大部分数据的起始文件大小为10KB。 

四、存储?GPU的重点在于计算能力 

AI工作负载对性能、可用性和灵活性有着特殊的需求,这些需求传统存储平台难以满足。选择用于AI工作负载的存储解决方案将对满足业务需求产生显著影响。成功的AI项目在计算和存储需求方面往往迅速增长,因此需要仔细考虑存储选择的影响。 

然而,大多数AI基础设施的关注和投入都集中在GPU和网络上,它们可以占用项目预算的高达90%。 

这导致了只有很小一部分剩余预算用于购置存储设备。对于AI存储来说,性能在大规模上同样重要,不仅仅是满足传统的要求,如可用性、灵活性和易用性。通常,用户只有在安装后才会意识到他们的存储容量明显不足,无法满足不断增长的训练数据集的需求,从而陷入了一个远远不如预期的环境。 

我们的数据平台提供了从TB到数十EB的线性扩展,重新定义了云时代的可伸缩性。通过统一的命名空间规模,客户可以在AI工作负载需求不断增长时,在各个方面实现扩展,而无需担心性能的影响。通过智能分层,它能够自动扩展文件和对象,以提高性能,并扩展NVMe层,以提高容量。

五、本地存储才是GPU最快的存储方式 

随着AI数据集的不断增大,数据加载时间开始影响工作负载的性能。以前,确保GPU能够迅速获取所需数据的最佳方法是从本地NVMe存储中检索数据。这可以避免由于从存储阵列和通过网络传输数据而导致的瓶颈和延迟。网络和运行在其上的协议栈会增加额外的开销,无法满足当今现代系统对数据传输性能的要求。然而,GPU的速度已经提高到了一个程度,以至于服务器主机无法以足够快的速度提供数据。GPU正日益受到慢速IO的制约。 

​我们能够提供比本地存储更快的IO,从而实现最快的推理速度和最高的图像处理速度。本地存储受到本地服务器资源的限制,例如可用于提供IO的PCIe通道和队列数量。存储系统汇集了多台服务器的资源,以满足每个GPU的需求。通过启用对所有服务器的智能并行访问,以避免可能会减缓访问速度的临时IO停滞,实现了负载均衡的请求分配。新的并行数据平面和控制平面协议解决了传统网络数据访问的问题,确保将数据最快地提供给GPU的方法是使用该数据平台。

 


成都强川科技有限公司 

联系电话:028-85042466  13540423076 

公司地址:成都市武侯区一环路南二段2号新世纪商业中心东楼17楼B座

上一篇:浪潮信息G7服务器打造节能降碳 下一篇: 浪潮信息NF8260G7机架式服务器测评
 
友情链接: 四川服务器总代理 | 成都服务器总代理 | 成都戴尔总代理 | 成都戴尔服务器总代理 | 成都联想总代理 | 成都浪潮服务器总代理 |
成都强川科技有限公司 版权所有 Copyright 2011-2024
全国免长途热线:400-028-6620 技术支持:028-85041466 传真:028-85215166
地址:成都市武侯区新世纪电脑城东17楼B座       ICP备案编号:蜀ICP备11026978号-2