您当前的位置:首页 > 专业术语

服务器BMC技术及发展趋势
作者:server2008   来源:本站   点击:2102   时间:2022-11-29

成都新华三服务器总代理】作为互联网云计算等领域的底层硬件基础设施架构,服务器承载着关键业务的运行支持和各项技术的迭代优化,不可避免得对整机性能有着卓越的要求,对系统可维护性有着远高于家用PC的标准,对运行稳定性有着更为严苛的规范,所以通用服务器需要兼具高性能,高可用和高可靠性。即使服务器在开发阶段已经过早期各项数据仿真,多次PCB回板验证及各种极限场景下的严格测试,但仍不能保证万无一失。如何确保服务器在运行过程中能够被有效管理,能及时诊断故障,这就依赖于管理和监控服务器的关键部件:基板管理控制器(BMC,Baseboard Management Controller)。

BMC概念简介

BMC是用于部署/诊断/管理服务器的核心部件,负责管理系统管理软件和平台管理硬件之间的接口,提供自主监控、事件记录、恢复控制等功能。通常情况下狭义上的BMC会被理解为只是服务器主板上单独的管理芯片;但从广义上BMC是一个SOC系统,它分为BMC芯片和BMC固件两个层面。当前计算机架构是由冯诺依曼体系结构构成,分为输入设备、存储器、运算器、控制器、输出设备。这当然也是服务器业务运行的节点构成,但BMC却不属于以上业务节点的构成部分,所以它不依赖于系统上的其他硬件,如CPU,内存,硬盘等;也不依赖于系统上的其他软件,如BIOS、OS、CPLD等。换句话来说:BMC是完全独立于服务器计算节点之外的一套专用管理小系统,当然它也是基于冯诺依曼架构,但比主机服务器享有更大的权限,这有效地保证了业务节点和管理节点的分离,保证业务节点不会干扰管理节点,而管理节点可以实时对业务节点进行管理监控。

BMC发展至今已有20多年时间,对服务器系统的后台保障起到了至关重要的作用,优化解决了企业级客户对于服务器部署,监控,管理等难点,也一定程度上促进了数据中心服务器市场这二十多年多的蓬勃发展。 

和PC架构的区别 

和传统PC架构相比,服务器架构最显著的增值点就在硬件冗余设计和新增部署、诊断、管理网络,这也是企业用户和个人消费者业务差异的区分。一方面冗余设计首先要取决于硬件自身支持,比如双电源冗余、内存ECC功能、磁盘RAID技术等等,但当系统实际发生故障时,BMC需要第一时间捕捉异常,实现实时告警及log上传,运维人员可及时锁定故障部件并完成替换,保证业务稳定不中断。另一方面部署诊断管理网络也是通过BMC来实现的,例如监控运行状态、升级机器固件、远程批量部署OS、针对严重事件的自发纠正等等,甚至BMC还支持和系统BIOS进行交互,对BIOS设置项进行批量的部署调整,合二为一,起到更好的服务器平台管理效果。从功能维度来看,BMC可以用于采集服务器上所有硬件、OS层面的信息并交互管理,将这些信息提供给上层运维网管软件,传递的方式可以通过SNMP、IPMI、Redfish等API接口,分为被动获取和主动上报两种模式,一般检测到故障产生或者监控参数达到设置阈值上限时,会通过Redfish http/https报文、SNMP trap、SMTP邮件通知等方式同步给到上层管理网络服务器,可清晰地获取到故障发生时间,故障机器及部件位置,结合厂商BMC平台告警信息指导,即可快速定位故障原因及处理建议。 

BMC基础功能 

BMC在整个服务器系统内主要是用于平台管理,一般包括以下几个方面功能: 

自主监控:组件(如CPU、内存、芯片组、环境、部件等)的温度、电压、风扇状态、电源状态等等 

日志记录:当检测系统出现错误(如某一设备温度过高,服务器蓝屏宕机)时,生成相关日志并保存 

恢复控制:当检测到严重错误(如CPU core温度超出阈值,整机功耗超出电源额度功耗范围)时,可将服务器下电保护 

Web Server:提供Web界面,用户可以访问Web并查看系统状态 

远程控制:远程上电/下电/复位服务器、vKVM、vMedia 风扇转速控制,主要用于系统散热优化 

告警功能:LED指示灯、SNMP Trap、邮件通知等 

BMC管理芯片及固件市场趋势解读 

当前BMC已成为服务器系统必不可缺的一部分,无论是在x86平台还是ARM平台,甚至其他异构计算平台亦是如此。BMC硬件架构层面,目前国内外服务器普遍采用的是ASPEED公司主推的AST系列芯片,当前最新量产型号为AST2600,是ASPEED推出的第七代BMC管理芯片,基于ARM Cortex A7双核心处理器,采用28nm制程工艺,在运算速度和功耗上做了极大的优化。 

一台传统的数据中心服务器会配置一颗BMC管理芯片,嵌入在服务器主板端。但随着近年CPU+GPU+DPU概念的兴起,CPU用于通用计算,GPU用于加速计算,DPU用于数据处理的模式被定义为未来云计算架构的趋势。由于GPU、DPU高价值部件承担着平台非常重要的工作负载,BMC管理芯片的嵌入也从主板级别扩展到部件级别,单个服务器平台甚至能够消耗多颗BMC管理芯片,这也使得全球服务器市场BMC管理芯片需求量有增不减。 

在固件架构方面,BMC固件同样是BMC系统中不可或缺的一部分。如果把BMC管理芯片比喻成BMC系统大脑,那BMC固件就是BMC系统灵魂,二者缺一不可。目前全球绝大多数服务器厂商都是基于AMI提供的BMC MegaRAC codebase开发的远程管理固件平台,MegaRAC兼具RAS(可靠性、可用性、可服务性),拥有安全稳定的特性及快速的商业技术支持。基于MagaRAC BMC固件和AST系列BMC管理芯片开发服务器管理平台系统是当前最有效,最快捷,最稳定的开发模式。除了AMI之外,市场上还有其他的IBV厂商提供商用的BMC固件解决方案,从目前来看这些厂商基本都是Intel/AMD授权的x86平台独立BIOS开发商,从BIOS codebase开发衍生拓展到BMC codebase开发,也是基于BIOS/BMC平台的交互设计开发理念及服务器BMC市场需求的强力驱使。 

当前服务器BMC固件主要是由传统的IBV厂商提供支持和服务,需要向IBV厂商支付codebase、new feature、license等费用。全球top的云服务/云计算厂商为了降低BMC固件资本支出及BMC固件开源生态的促进,也在积极推进各大服务器OEM/ODM生态厂商融合参与一些开源BMC固件解决方案的导入,共同推进BMC固件相关新技术和新产业的发展,其中最有影响力的当属OpenBMC开源固件。 

OpenBMC介绍 

正是大环境促使下,OpenBMC应运而生。OpenBMC是BMC的Linux发行版,可以为不同服务器主板定义统一的管理监控平台API接口。OpenBMC使用Yocto Project作为底层构建和发行的框架,并结合OpenEmbedded,Systemd和D-Bus等技术来轻松定制管理平台。 

​OpenBMC属于开源BMC固件解决方案,服务器平台厂商,部件厂商,包括BMC芯片厂商在开源社区贡献自身代码,共同维护OpenBMC开源的生态环境。传统BMC FW vendors是通过提供付费的闭源代码及授权维护来获得商业回报,厂商需要BMC FW vendors的迭代适配以获得底层codebase支持,开发组件在不同codebase平台上不具有移植性,同时服务器的开发进度将会强受限于BMC FW vendors的固件发布计划。而OpenBMC给厂商带来了商用友好的开源license,准标准化接口,厂商可以自行开发特定需求并以较小的代价在不同平台上移植使用,加快特性开发流程。总结而言,客户对于快速BMC固件迭代周期和更多透明和控制力的需求驱动了对OpenBMC开源固件的需要。OpenBMC的日益兴起也促进了IBV厂商的战略调整,目前AMI也积极参与投身于围绕OpenBMC等项目的开源固件研发工作,希望涉足这一不断增长的领域。2021年AMI也正式发布基于OpenBMC开发的MegaRAC OpenEdition开源解决方案,紧随新时代趋势。

现阶段OpenBMC生态也存在一些问题,包括平台的功能多样性问题、板卡生态结合有待提升问题、缺乏商业支持,问题解决难以得到时效保障问题等。新技术在发展的初期都会遇到各项挑战,主要来源于原有规则下的束缚和牵制,但即使AMI BMC在整个全球市场一家独大的环境下,OpenBMC仍能够破茧而出,发展壮大,并得到Intel、Microsoft、Facebook、Google等业界知名厂商的联合推广,足以看OpenBMC在发展演进过程中必然会是服务器行业生态厂商未来积极探索的BMC领域新方向。 

新华三在BMC领域的探索与实践 

新华三集团作为业界领先的数字化解决方案领导者,坚持以技术为核心,以创新为驱动,目前在网络、服务器、存储、云计算、安全等重点领域均掌握核心技术。在服务器领域,当前已拥有业界覆盖最全的产品线,H3C UniServer服务器年出货量及市场份额占比已稳居国内第二,增长势头仍然保持强劲。

这里介绍一下H3C UniServer服务器BMC管理平台-硬件设备管理系统(Hardware Device Management,以下简称HDM),HDM是H3C UniServer服务器内置的软硬件一体的嵌入式管理系统,提供对服务器硬件设备的全生命周期的监、管、控,能帮助客户实现更智能的服务器运维和更高效的全生命周期管理。

HDM提供了丰富的管理接口(IPMI/HTTPS/SNMP/Redfish),满足多方式的系统集成需求;提供多样的远程维护手段,支持虚拟KVM,支持RAID带外监控配置,支持BIOS/BMC/RAID配置导出,提升服务器远程管理效率;提供先进的故障监控与诊断,支持Syslog报文、Trap报文和e-mail上报告警,对服务器进行全面的精细监控,支持SHD(Smart Hardware Diagnosis,智能硬件诊断系统),方便故障定位和更换;支持安全管理特性,双镜像备份,PFR固件保护功能等。除此之外,H3C HDM Web端还支持温度海洋视图,热力图,可实时显示服务器机箱中各组件温度传感器的分布图及数值。同时H3C UniServer服务器部分可选配3.5英寸可触摸LCD液晶显示屏,可直接从HDM获取服务器状态信息,方便了服务器的临场巡检及维护。H3C全系列服务器标配HDM管理系统,兼具安全可靠、运维高效、开发敏捷的产品特性,致力于为百行百业客户提供更智能的管理平台。

在BMC固件架构方面,新华三始终保持开发融合,技术引领的理念,在OpenBMC发展早期,已成立专门研究OpenBMC领域的固件开发团队,并且积极参与国内外主要BMC标准组织,如OCP、DMTF、DCIA、FTIA等,参与各种标准讨论与制定会议,也主导发布了一些国际/国内服务器平台管理规范。 

作为数字化解决方案领导者,新华三将继续坚持技术创新和解决方案双轮驱动,持续在开源固件OpenBMC上突破前行,不断提升产品领先性和创新性,相信大家在未来不久时间内就将能看到H3C UniServer服务器BMC新硬件+新固件架构产品解决方案的正式商用。


成都新华三服务器总代理 —— 成都强川科技有限公司 

联系电话:400-028-6620    028-85041134

公司地址:成都市武侯区一环路南二段2号新世纪商业中心东楼18A

上一篇:华为IdeaHub与华为云会议:软硬结合,天生一对 下一篇: 挖掘高质量金融数据价值
 
友情链接: 四川服务器总代理 | 成都服务器总代理 | 成都戴尔总代理 | 成都戴尔服务器总代理 | 成都联想总代理 | 成都浪潮服务器总代理 |
成都强川科技有限公司 版权所有 Copyright 2011-2024
全国免长途热线:400-028-6620 技术支持:028-85041466 传真:028-85215166
地址:成都市武侯区新世纪电脑城东17楼B座       ICP备案编号:蜀ICP备11026978号-2