< 返回上层

【IDCC2020上海站】中金数据李京川:智能化运维中的精细化管理和新技术应用

2020-08-27 15:02:00 8次

2020年8月27日,国内云计算和数据中心领域规模最大、最具影响力的中国IDC行业标志性盛会——第十五届中国IDC产业年度大典第二站“IDCC2020 长三角新基建(数据中心)产业发展论坛”在上海隆重举办。

本次“IDCC2020"融合线下、线上会议优点,首次以现场会议+线上多平台直播的方式,让任意地点的观众随时参与,实现了一场真正同时覆盖全球的行业盛会。

下午的论坛精彩继续,在主持人刘源的开场之后,进入了演讲环节,中金数据集团有限公司首席架构师李京川先生为与会观众带来了《智能化运维中的精细化管理和新技术应用》为题的精彩分享。

中金数据集团有限公司首席架构师李京川先生

中金数据集团有限公司首席架构师李京川先生

李京川:大家好,非常感谢会议主办方对中金数据的邀请,我在这里多说一句,非常感谢两点多钟最困的时候来听我说话的大家。

我讲一下中金数据在数据化运维的思考,大家看有很多技术名词,精细化管理和新技术应用,今天下午我就是讲一下中金数据的故事,讲一下数字化运维方面的思考,我们的心路历程和我们正在做的一些事情,跟大家做一个汇报。

第十五届,让我浮想联翩,为什么呢?正好中金数据到今天也是15岁,2005年中金数据成立,成立以后,两年之后在北京的第一个数据中心落成,2006年是奠基,2008年投产。15年历程走过来,中金数据是第三方数据中心运营的最好实践者,我们也在反思,最根本的就是在数据中心领域用情过于专一,在互联网风潮起来之后,依然是岿然不动,非常执着。

15年走过来中金数据专注于为大家提供一条龙的服务,从拿地,到规划,到建设,到测试,到运营等等,我们都可以提供服务。

大家可能会提到中金数据四个点,但是我在这里给大家展示的已经是五个点了,好像一夜之间中金数据又冒出来一个新的点就是天津园区,这是我们最新开始筹建的300亩的园区,中金数据在全国范围之内,大概有1000多亩地,168万平方米的规划,机柜是接近15万,这是我们整个的规模。

最开始在2006年动工奠基的数据中心就是最上面这个亦庄的,100亩,现在看来是非常小,但是这个数据中心可以说是我们最能体现中金数据当中金融的数据中心,因为这里面有大量的,待会儿我可以给大家看到金融客户在这里落户。天津是我们新投建的300亩,重点讲到的就是华东昆山数据中心,在烟台、武汉也有非常大规模的数据中心。

这个是整个客户群,给大家简单的梗概,在这里所有的大银行、商业银行在这里都有合作,现在的互联网企业、腾讯、百度,还有当红的华为跟我们都有非常深入的合作。同时我们也会涉及很多的政府领域、政府机构、非金融领域,我们都是有所涉足。

15年走过来,刚才说的都是中金相关的介绍,让大家知道站在台上讲的人究竟是什么背景,言归正传,我们讲到数字化运营,中金15年走过来,说实在的,时间长,经历的事儿也多,15年前当第三方外包的数据中心类型刚刚出现的时候,大家都是摸着石头过河,就有第一个阶段就是被动的阶段,因为那个时候根本就不知道该怎么运营一个第三方的数据中心,基本上我把它称之为头痛医头,脚痛医脚,但是这个持续过程并不是特别长,大家觉得日子不能这么过,这样就毁掉了。于是就进入第二阶段,就是规范阶段,那个时候更多的规范来自于国外的一些规范到中国的落地,这个过程当中由于中金参与的比较早,确实有这个需求,所以最开始相关规范的治理当中都看到中金的影子,而且一直到现在相关的规范中金都有所参与。

有了规范下一步就变得容易一些,怎么容易呢?我们可以把规范电子化,变成软件实施下来,这就是成熟阶段。我们有动环的监控系统和DCIM运维手段,就进入了一个比较平顺的阶段,多数数据中心目前所处的阶段。但是眼光要远一点,就是所谓的智能化阶段,我们已经逐步的进入到今天的主题,到底智能化阶段是什么,达到什么样的目的。其实智能化阶段就是要使得运维系统具有前瞻性和可预见性,如果达不到这一点就停留在第三阶段,这个是我们目前正在做的事情。

如果说我们问你一个数据中心的运营者,在座的很多同仁也是这方面的领导或者专家,最头疼的是什么?其实在我看来最头疼的无非两类事,一类是对内,对领导有交代,有运营的问题,我如何优化策略,如何进行客户管理,如何进行预测投资,投资回报率是多少,这些都是内部头疼的事情。还有一块就是运维相关的问题,运维的相关问题大家都非常清楚。我们给用户一个交代,用户把这么重要的数据放在这里,我们要管好,有一个制度,这就是相关运维的问题。讲到这两块以后,当你头疼的时候,我看其实很多同事都在发名片,你头疼的时候,一定有人在发名片,告诉你我们公司就是搞这个软件的,你过来用用我们公司的软件,又便宜又好。但是有这种事吗?确实是这种软件有可取之处,但是这就像定制衣服和现成衣服的区别,定制衣服符合你的需求,现成的衣服多少有一些问题。

运维角度设计的场景太过僵化,都是典型场景,但是典型场景未必是你要的场景,另外一些产品有一些实际的场景契合度不够。另外最核心的一点就是没有办法把基础数据转换成价值,数据会贯穿我讲的始终,我们所有的东西都要围绕数据来展开。

中金怎么做呢?我们自己搞自己的一套平台,中金的自信心来自于哪里?来自于两块,一块我们干了十几年了,什么都见过,而且我们有研发队伍,最关键的我们还有相关的专利在里面,我们深耕在这个领域很长时间了,更大程度上就是要把现成的东西转换成另外一种形式,这是第一个信心所在。第二个信心,我们所有的运维体系,一体化响应的平台,包括相关的认证我们都做了,什么都有了,其实我们有时候内部聊到这儿的时候,其实中金搞这个东西,稍微吹大一点就是类似于中国当时搞两弹一星,甚至比两弹一星还要牛,这个东西是我们蹦起来跳着高做的事情,并不是水到渠成的事情,也很多压力、阻力和困难。第二,如果两弹一星如果有人愿意卖给中国,中国愿意花钱买。但是(运维体系)有大量的人卖给我们,我们不要,我们坚持走自己的路,因为我们看不上那些现成的产品,这也是中金对金融领域有一种执着,对技术也有一种执着在里面,也算是一种工匠精神的体现吧。

再说一下中金的运维平台,我们一定是要走上AI的道路,AI是什么,是若干种技术,很多种技术的组合,是一个概念,并不是某一个技术,所以最终我们要实现的是什么呢?我们的需求最终是浸润在整个AI的概念当中,并不是说我们把某一个AI的技术拿过来放过来就用,而是浸润在里面,浸入式的概念。所以有了整体的思想以后,所以我们所做的每一件事情都是为了未来能够更好的把这个东西放入到AI的大环境当中去,最终实现所有AI看似非常梦幻的场景的实现。

这个是中金运维平台大概的架构,在这里大家看最核心的就是黄色这部分,运维管理子系统,这是我们最核心的,这里面有大家熟悉相关的东西,在周边都是相关的支撑性系统,这些系统对所有运维子系统实现一个数据的输入和交互,最终实现一个个人的工作平台,每个人从整个系统当中所提取的数据是不一样的,所以每个人最终的工作平台是不一样的,但是最终的展现可能是通过有不同的终端来进行展现,同时也有相关的国际标准来做支撑,最终使得我们这个系统在最终的互联互通上面,或者展示上面都没有任何的问题。

这个是一个通用的系统也能够实现,不是说不能实现,在这个系统当中就是所谓的电子流,当时华为提的比较多,华为整个内部或者管理都是通过电子流实现的,我们这边也是一样,只有通过电子流,所以整个的数据,我们过去的经验都通过这种电子报表的形式输入进去,最终用不同的方式进行呈现,这个是整个运维软件的基础。

给大家讲一个具体的例子,整个电子流怎么实现呢?比如说运维当中,我们可以做到一年当中,我们把一年相关的运维任务整个输入到系统当中去,整个系统会做什么工作呢?会把所有的任务进行拆分、打散,变成一天一天的,就变成每天的任务,每天的任务做完以后,到这一步的时候,我们通过移动终端,每天的任务怎么做呢?终端里面有相关的说明书,统统在这里面,确保每一个运维人员最终用一种非常标准化的流程进行操作,最终在后台系统形成相关的维护日志,相关的风险单进行分析,你这么做有可能会产生什么风险,会做出相关的提示。

这个希望大家特别要注意的,也是整个系统中的一个特点,就是所谓的跨对象的容量管理。大家经常听到所谓的容量管理,可以做什么?对电器制冷、相关的空间独自来空间的管理,我们做的是什么呢?把所有的相关的资源都统一的进行管理,有相关的算法来做支撑,最终在不同的对象之间实现联动。

这里再举一个例子,就是大家说到非常多的概念就是PUE的管理,这里我特别强调一点,该吹的牛可以吹,不该吹的不能胡说八道。PUE的管理一定有一个所谓的理论值,大家讲到数据中心的PUE更多是理论值,我这里讲的是什么呢?跨对象的联动来实现什么呢?实现整个能耗管理的,让它尽量的接近理论值,但是我们不可能突破理论值,比如说PUE理论值达到1.5,如果没有这套系统,可能1.55,有了这一套系统1.53、1.52。怎么做到的呢?实际上就是一个精细化的联动,在每一个子系统,每一个子设备、每一个模块,同时从时间的维度,月、周、天、小时、分钟的能耗,在不同的系统当中,不同的对象当中进行传递、调整,这有点像什么呢?有点像开车时候的自动巡航,为什么开自动巡航呢?相对来说省油一点,因为有一个最优的油量配比,这只是在大的系统当中实现自动巡航,使得我们的能耗管理达到相对来说的最优,但是这里强调肯定不可能突破理论值,一个物理的极限。

每个设备在运行的过程当中,同时还是一个资产,所以在运营的过程当中,对每一个设备进行相关的管理,同时也就是对资产进行相关的管理,这两个是可以非常好的融合在一起的,这个就不必多说,所有的设备,从出库、维保等等,用多长时间等等,这些统统在数据库当中都能够自动的形成相关的数据。

上面所说的一切最终构成的是什么呢?是一个中金的知识库,为什么我在这里特别强调这个呢,其实中金知识库里面有两类内容,一类就是SOP、MOP、EOP比较固定的东西,同时我们知识库里面还有一些什么内容?实际上就是每天发生的事情,每个系统所上报的数据,在数据库当中统统都有保存,每天发生的事情,系统在做什么事情,基于相关的知识库正在做的事情是什么呢?相关数据的挖掘,逻辑的挖掘,为什么要有这个工作呢?这个就是在为未来的AI,我们现在做的就是大数据的分析,大数据是把原来一些看似没有用的东西,一些非关系型的数据库的东西分析以后,最后产生一个相关的逻辑,这个是我们做的事情。

我可以告诉大家,整个中金相关的知识库当中,始终在做的数据的挖掘的工作,当然这个算法我们一直在进行相关的优化。做了这些以后,就为我们未来的演进打下了非常良好的基础这意味着我们的数据就像金矿一样,就是在这么一个过程当中,由于采取了相关的开放式的架构,所以最终客户新的技术、新的技术统统可以非常容易的进入到这个系统当中来,最终使得我们盘活相关的资产,最终实现AI化。

在这里我想跟大家最后说一句,我说这些并不是对那种通用性的软件、平台的否定,绝对不是这样,我们整个平台当中也非常多的借鉴了市场上的一些通用平台的优点,同时我们非常愿意跟各个友商进行沟通,因为大家在这块都有相关的想法,如果在这块大家有一些碰撞,可能有一些更新的想法,更新的点子出来。

我们始终是一个开放的态度,希望大家今后能有更多的机会,跟中金合作,谢谢大家!

非常抱歉未能帮助到您。为了给您提供更好的服务,我们很需要您进一步的反馈信息:

在文档使用中是否遇到以下问题: