咨询热线:18611994737

/vip_bjyysj005.html

Design Website

产品分类 >> 产品中心 >>艾默生新闻 >> 维谛技术超算中心如何消除运维痛点,实现运维工作效率提升
详细内容

维谛技术超算中心如何消除运维痛点,实现运维工作效率提升

相比于普通数据中心而言, 超算中心由于融合了高性能计算、海量数据处理、信息管理服务于一体,因此对关键基础设施的运维管理更具有非同一般的要求。

  位于广州大学城中山大学东校区的国家超级计算广州中心,是国家在“十二五”期间部署的重大科技创新平台。作为广州超算业务主机,“天河二号”超级计算机系统峰值计算速度、持续计算速度以及综合技术水平处于国际领先地位,是我国超级计算技术发展取得的重大进展。

  广州超算运维管理部部长黄锡嘉

  然而,也正是由于超强的运算能力,给数据中心基础设施的日常运维管理带来了巨大挑战。日前,广州超算运维管理部部长黄锡嘉在维谛技术(Vertiv)举办的“数据中心基础设施服务4.0研讨会”上,就深刻剖析了超算中心运维工作的痛点,并分享了数据中心运维管理数字化和自动化的成功实践。

  来自四个维度的运维痛点

  广州超算中心机房面积达到了16500平米,目前投产1172个机架,供电系统容量62500KVA,水冷系统容量约20000冷吨。基础设施运维管理工作,除涉及暖通、供配电、消防、监控等多个专业领域外,一般数据中心相比最大的不同在于基于“天河二号”单机柜功率密度较高特别的定制散热系统,系统规模大、维护要求高、运行信息多。所以,需要在各种纷繁复杂的事项中有条不紊地协调运行与维护工作是运维管理上面临的最大挑战。

  研讨过程中黄锡嘉分享了广州超算对于基础设施运维管理效率提升方面的一些经验和体会:通过几年的实践摸索,广州超算结合自身业务与硬件的实际情况,基本上建立了一套比较完整的运维规范和制度。但是,在需求的变换和继续提高运维管理水平的过程中,也碰到不少实际的工作难点,包括,依靠邮件、表单等常见方式进行整体运维工作的计划和管控,无法及时更新、同步、发布和显示整体工作进度;通过邮件、工单等常规的管控方式,不利于对工作与业务流程各环节的实施与进度的监督;纸质化的巡检方式,巡查数据电子化效率低且缺乏有效监督人员巡查质量的手段;运行记录(包括巡查、业务办理、故障处理等等记录)纸质化,不利于运行人员对各种数据的统计分析,导致大量数据信息无法有效利用。

  “基于这些方面所面临的痛点,广州超算在2018年下半年,引入了维谛技术(Vertiv)的‘睿维’数字化运维管理系统。同时,对于系统应用要达到的实际效果在前期进行了充分的考量和多次沟通。” 黄锡嘉说。

  结合实际工作中遇到的问题,针对“睿维”系统应用的预期目标,广州超算优先考虑了要解决影响运维管理效率提升的几个关键点:

  1、整体运维工作的计划、派单及进度管理的电子化和可视化,提升整体工作计划于进度的管理效率;

  2、交接班巡检工作、维护工作、业务办理、故障处理等工作流程的电子化,加强对工作流程环节执行的管理;

  3、日常巡查工作的电子化,提高人员巡查工作和巡查数据电子化的效率,加强对巡查工作质量的管控;

  4、运行工作记录的电子化,提高运行记录数据的可用性,为运维工作的改进提供支撑。

  数字化运维带来的效果与体会

  黄锡嘉表示实际运行证明,广州超算在成功部署“睿维”系统后,在以下几个方面体现出了电子化的优势:

  通过系统的运维工作日历、工单等功能,较好地实现了对总体维护计划、整体运维工作进度、日常工作执行之间的调度管理,实现了机房运维工作实施效率的提升。

  运行记录的电子化,为运维数据(如业务量、人员工作量、设备故障类型等等)的比对分析提供基础,为广州超算在运维管理决策上提供了有力支撑,比如,系统通过故障维修统计,有效地分析了设备运行质量和备件使用情况,为备件常备库存提供依据;基于对运维人员任务量的分析,为数据中心人员配备数量及人员调度策略提供依据,优化了人员部署

  此外,流程电子化,为业务实施的规范化,提高工作实施、进度的效率和质量提供了可能。巡检电子化,为管控运行值班工作质量,提高巡查工作规范水平提供技术条件。

  值得一提的是,黄锡嘉也特别分享了数字化运维实施过程的一些体会:“在实际部署中,广州超算仅用了两周左右的时间就完成了“睿维”系统的部署上线,但系统部署才仅仅是数字化运维的开始,如何用好系统才是最困难的地方。”——在整个实施过程中广州超算不断与运维团队及时地沟通并结合软件使用情况向部署团队反馈,同时对原基于线下实施的规范,结合数字化运维后的新平台形成新的规范流程。并且,在数字化运维管理落地实施的过程中,还要注重对运维人员在业务上进行针对性培训。

  “因此,有完整、明确的需求与管理目标;有理解机房运维工作痛点的成熟的软件;有理解运维工作重点难点的有经验的运行团队,并能将所有参与方团结起来不断地磨合运行人员与软件系统都将有利于目标的实现。” 黄锡嘉表示。

  最后,黄锡嘉也对于自动化运维管理进行了展望,包括广州超算中心未来将向动环系统与运维系统无缝对接、对数据进行更有效的利用以及实现3D可视化等方向进行尝试,以及计划启用维谛技术(Vertiv)全新的巡检机器人,在机房设备巡检、机房环境巡检两个方面,全面提高监控水平,从而达到自动化运维管理,更大提升运维效率的目标。


京ICP备2023006659号-11   www.bjams005.com

电话直呼
在线客服
在线留言
发送邮件
联系我们:
18611994737
18611994737
18611994737
销售一部
点击这里给我发消息
销售二部
点击这里给我发消息
技术支持
点击这里给我发消息
还可输入字符250(限制字符250)
seo seo