您当前的位置:首页 > 文章中心 > 行业动态 > 超聚变推出基于英特尔CPU的AI推理一体机
超聚变推出基于英特尔CPU的AI推理一体机
作者:server2008   来源:本站   点击:172   时间:2024-10-31

随着人工智能技术的迅猛发展,落地AI推理应用已成为提升企业运营效率的关键措施,然而GPU等AI算力的高价格使得AI应用的起建成本高昂,让很多企业在AI应用的选择上面临较大的资金压力,尤其对于小微企业成了可望而不可及的奢侈品。

超聚变推出基于英特尔CPU的AI推理一体机解决方案,让通用服务器也可以运行AI大模型推理应用,有效降低AI应用的起建成本,为客户提供普惠式AI推理应用机会,帮助企业以较低的投入享受到智能化带来的便利性和价值。

 

通用服务器运行,AI大模型推理所面临的挑战

 强大的算力需求:AI大模型推理需要强大的并行计算能力。这既包括硬件提供的计算能力支持,也包括向量化指令集和矩阵计算指令集的支持。

● 较大的内存容量和带宽:推理任务需要存储大量的模型参数和中间数据,且存在超大量的数据交换,需要较大的内存容量和带宽。

● 合理的算力调度和分配:部署方案关系到推理执行的并行能力和算力发挥的充分性,影响整体推理性能和吞吐量。

● 有效的推理调度策略:当前主流AI大模型的推理调度框架和调度策略主要是围绕GPU算力设计和开发,并不能很好的适应CPU推理,需要重新以CPU为中心进行设计和优化,减少数据交换提升CPU执行效率。

 

超聚变AI推理一体机解决方案

超聚变AI推理一体机解决方案是基于超聚变高性能服务器,搭载第五代英特尔®至强®可扩展处理器,每个CPU具备8个通道DDR5内存,围绕大模型推理计算流程进行多重技术深度改造,可充分发挥CPU算力以满足20B以内大模型推理应用。

● 充分利用AMX加速:充分发挥英特尔AMX向量化指令集和矩阵计算指令集的加速能力,实现AI高性能推理。

● 优化CPU和内存配置关系:根据模型参数量、CPU算力、内存带宽等信息设计最优的CPU和内存配置方案,充分匹配并发挥各环节资源优势,在模型推理过程中提供最优的读写带宽。模型极致部署,

● 提升推理并行能力:优化模型的部署策略,减少CPU之间的通信开销,提升推理任务执行时的并行处理能力,充分释放多核CPU的利用率。

● ​创新的推理框架设计,智能精调推理调度策略:采用创新的推理框架设计,结合用户输入数据特征的智能精细化调度策略,提升推理任务的调度和执行效率,满足实时性要求。

该解决方案基于FusionServer 2288H V7部署13B模型,模拟20个用户下发不同数据同时访问,实测整机吞吐量可以达到40tokens/s,是第五代英特尔®至强®可扩展处理器原生通用服务器的2倍,可满足20人以内的团队AI推理使用。 

当前,数字经济发展迎来新一轮机遇期,智能算力为数字经济创新提供了核心动力。超聚变通过纵向做深、横向拓展,持续焕新计算产业生态,将持续携手生态伙伴,释放算力新价值,让算力更好地服务您。

 


成都超聚变服务器代理商——成都强川科技有限公司 

联系电话:400-028-6620    028-85024766 

公司地址:成都市武侯区一环路南二段2号新世纪商业中心东楼17楼B座


   
 
上一篇:智选 · 以算破局:联想问天WR3220 G2服务器             下一篇: 如何建成AI数据中心,让企业AI战略落地?
友情链接: 四川服务器总代理 | 成都服务器总代理 | 成都戴尔总代理 | 成都戴尔服务器总代理 | 成都联想总代理 | 成都浪潮服务器总代理 |
成都强川科技有限公司 版权所有 Copyright 2011-2024
全国免长途热线:400-028-6620 技术支持:028-85041466 传真:028-85215166
地址:成都市武侯区新世纪电脑城东17楼B座       ICP备案编号:蜀ICP备11026978号-2