OCP China Day:数据中心自动运行光网络

北京2020年12月10日近日,以“Connect·Collaborate·Accelerate”为主题,由浪潮和OCP基金会联合举办的第二届OCPChinaDay暨OCPTechWeek全球技术峰会中国专场在北京望京凯悦酒店隆重开幕。腾讯作为OCP中国社区的核心成员,在峰会现场介绍了当前数据中心互联光网络技术的发展,以及腾讯基于标准化单元构建的自动运行光网络。目前,腾讯已将光网络的标准单元快速复制到数据中心互联应用中,有效应对数据中心互联带宽的快速增长。

挑战面前的数据中心光网络. 过去的10年是互联网高速发展的10年,随着产业的不断发展,应用种类极大丰富,用户规模空前庞大。往往一个应用就拥有千万级别用户,上PB数据量。在这样的环境下,早期的单机或集群的计算模式已经无法满足应用的发展要求,更大规模的云计算模式是互联网持续发展的必经之路。 受限于目前数据中心的规模问题以及异地容灾的需求,往往一个应用会分布在多个数据中心之内,导致在不同的云数据中心之间往往会产生几百甚至上千GB的带宽需求。在这样的背景下,光网络逐渐走入了互联网企业的视野。

腾讯的开放光网络平台是腾讯新一代光网络系统,基于超强的采集和控制能力不断提升光网络的自动化水平,目标是构建一个高度自动化、友好的光网络。目前,腾讯的开放光网络平台已经解决了硬件标准化问题,开发标准的OPC-4设备,实现电层系统与光层系统的解耦合,不再绑定单一供应商。同时腾讯开放光网络平台标准化的管控模型也已开发完毕。通过腾讯开放光网络控制器实现对不同厂商设备的统一管控。

开放光网络智能未来. 数据流量的快速增长,要求我们部署越来越多的带宽。互联网的时代,层出不穷的应用被创造出来,他们便捷了我们的生活,提升了效率。这些应用加工数据、产生数据,特别是一些新的、流行的移动应用在人群中传播速度非常快,随之带来的是流量的迅速增长,这要求我们必须以更快的速度部署带宽资源。为数据中心提供高质量带宽,保证带宽长期稳定运行,开放光网络的研发被腾讯提上日程。

数据中心自动光网络迈进三部曲. 为应对大规模数据中心快速增长的互联带宽,腾讯技术人员针对数据中心互联组网的特点,构建了一套开放光网络系统,通过将光网络切割成一个一个独立的标准化单元,设计为更加适用于数据中心应用的硬件设备OPC-4,TPC-4和设备管控模型,构建起标准化管控系统,实现对不同厂商设备的统一管理,混合组网,并将标准单元应用到数据中心互联中,在一定程度上能够更加有效应对带宽的快速增长。 随着系统规模越来越大,网络运营压力也持续增大,腾讯正在为系统构建自动化自主运行能力,使系统能够常态化自动运行。通过标准结构的自主运行,整个网络将能够更加高效自动化地运行。

光网络是一个不断向前演进的技术领域。在最初依靠工程师经验驱动的光网络的基础上,逐渐发展出标准模型一统天下的模型驱动光网络,再进行数据驱动光网络的演进。在第一个阶段,光网络主要依靠经验丰富的工程师,将不同厂商的传输系统部署到数据中心网络中。这使得整个网络充满了不同厂商的不同方案,对光网络的运维提出了高要求,需要熟悉某个系统的专家来帮助分析问题。

如何降低系统的复杂度?答案是标准化和程序化!通过构建标准化的流程和使用程序处理模型统一一致的物理设备,可以降低光网络的复杂度。在第二个阶段模型驱动阶段,大家会针对自己的系统定义标准模型,最终实现基于相同模型构建的整个系统,降低了系统的复杂度,使光网络运维更加简化。

模型驱动阶段使系统标准化,并提升了数据采集能力。这为我们向下一个阶段:数据驱动的光网络演进奠定了基础。经过模型驱动阶段的积累和标准化,我们成功地构建起一个数据引擎,为驱动系统的优化和演进提供了核心动力。

腾讯开放的光网络的自动控制架构是一个闭环控制架构,主要通过构建控制、采集、感知和决策四大关键能力,实现整个系统的自动化运行。采集能力可以采集系统更加精细的运行数据,感知能力则通过对运行数据的分析,感知到系统的变化。决策能力则是使系统具备科学分析、科学决策的能力,按照感知结果对系统进行科学决策并传递指令给控制系统进行执行,实现对系统的闭环控制。

在构建光网络的感知能力上,腾讯主要从系统维度和时间维度两个维度出发。在系统维度上,腾讯通过构建针对单个指标的感知能力,使系统能够准确地感知其故障和潜在风险,并触发相关运维操作。在时间维度上,腾讯依靠数据的分析和结论,实现对数据的经验性转化。通过这些感知能力的构建,使光网络得以在无人干预的情况下自动化运行,提高系统的运维效率。

传输系统最终是一个带宽系统,我们常常会被用户问及现在带宽情况如何?带宽的感知能力构建则是让系统能够自行回答这个问题。带宽感知是系统最为关键的一环,使让系统能够感知带宽的运行状态,对潜在风险进行合理规避,有效降低带宽的非预期性中断,保证系统长期稳定运行。

而从时间角度,则要为系统构建快速感知能力,中速感知能力和慢速感知能力,这是从系统问题分析的时效性出发定义的能力。快速感知是对性能数据的实时分析,快速捕获系统故障。中速感知则是对系统潜在风险或者关键指标变化的分析和感知,这往往需要对一定量数据进行分析,才能发现一定的特征。而慢速感知则是通过对大量数据的分析来感知系统运行趋势,可以对系统未来的运行状况进行预测。

设备作为整个系统的运行数据采集终端,在想办法提升其采集数据的速率和精度,在的持续努力下,目前设备可以按照1s间隔向控制器推送性能数据,而且关键性能指标的时间分辨率可以达到20ms。控制器作为系统计算能力主要单元,则在持续提升其数据处理及时性和准确性。基于1sstreamingtelemetry构建的数字驱动系统,对比传统传输系统的15min性能数据,不仅仅是900倍的时间分辨率提升,更是对系统观测能力的革命。正是基于对系统的精细化观测,使我们能够精确感知、准确控制。

数据驱动为系统带来了革命性的变化的同时,也带了极大的挑战。数据驱动系统的核心是:数据与算法。我们希望在这两个方面与更多的合作伙伴一起合作,在数据为王的时代,数据源的质量直接影响到系统的正确表达,如何保证数据源的质量,如何监控数据源的质量,是一项关键任务。

而找到数据背后的真相,发现问题的本质则会从根本上改变我们和供应商的协作方式,由原来我们只能在问题发生后被动的接受故障分析报告,演进到可以根据数据发现的真相,有效驱动供应商进行精准的问题修复,防患于未然。在算法方面,找到针对指标感知更加通用的算法,找到更加合理的带宽质量分析算法,找到更加通用的硬件和网络系统分析算法,则是我们关注的重点,有效解决光网络系统问题的同时,更为通用的算法也可以更加便捷的应用到其他网络领域中。

OCPChinaDay大会上,可以看到来自腾讯、百度、Intel、微软、浪潮、三星、希捷等不同领域的开放计算社区成员,腾讯的OPC-4和TOOP是开放的光网络项目,百度的天蝎整机柜是开放的计算项目,三星poseidon是一款存储产品,阿里的液冷是开放的数据中心散热项目……在这些开源项目背后,是计算、存储、网络等不同领域的开源项目正在相互融合汇聚,开放计算不仅推动形成了下一代数据中心的基本技术框架,也在加速构建开放融合的统一计算生态。