网络云化演进研讨
2022-08-05 11:11:49 来源: 阅读:次
一、背景
传统 IT 云化对于传统网络来说是一次难得的重构机会,网络随着业务向云上迁移逐渐由自建转变为采用云上网络产品,网络安全域演化及网络虚拟化将进一步拓展到骨干网,网络部署和使用方式将变得简单弹性。但在过渡期间,网络会变得更加复杂,这要求云网络必须处理好不同方式的跨城互联以及与内网的跨安全域互通等问题。同时还要面对由业务体量所带来在性能和规模上的巨大挑战。云化之路也是云网络演进之路,包括上层虚拟网络以及下层物理网络需要不断优化,共同向前。
二、网络架构概述
针对传统 IT 建设而言,基础设施相互独立(服务器、网络设备),各自将业务部署在数据中心上,机房内服务器的规模可达到数十万台,通过超高速、超大带宽的数据中心网络(DCN)互连。同城多个数据中心之间通过城域网(MAN)互连,多个城市(地域)之间的东西向流量通过全球骨干网(AGN)承载,跨城 / 跨国的长途线路各业务共用,采用 VPN 技术隔离,AGN 逻辑上可以被划分为多张业务平面,实现业务隔离。
以往当企业自身的业务发展到一定规模后,通常会开始自建基础设施及网络。而当公有云普及后,这一方式发生了一定程度的变化。云的业务是公有云上各类 IaaS 及 PaaS 云产品 / 服务,云的对外服务定义了区域(Region)和可用区(Availability Zone(AZ))的概念,现实中基本上可以分别对应到城市和机房,反映了业务的部署位置及方式。而云网络(经常还被称作虚拟网络或 Overlay 网络)是云在其基础设施物理网络之上通过网络虚拟化技术打造的一系列云网络产品,帮助公有云上的租户构建虚拟网络,各租户之间相互独立 / 隔离。云网络各产品支持不同的业务场景,包括:云上虚拟网络(VPC)、混合云网络(云专线等)及云上虚拟骨干网络(CEN)。
1
云上虚拟网络(VPC)
云上虚拟网络为每个云上租户创建了一个隔离的网络环境,即用户可自定义 IP 地址空间、路由表及出口网关,覆盖一个区域的范围。具体实现可采用虚拟化封装 / 隔离技术(如 VxLAN),主要功能组件包括:分布式的虚拟交换机(AVS)、集中式的虚拟网络网关(xGW 集群)以及 SDN 控制器等,下层物理上运行在超大规模的数据中心网络及高速城域网之上。
2
云专线
云专线连通了租户云上的虚拟网络与云下数据中心物理网络,构成混合云的网络架构,支撑公有云用户搬站上云过程中的数据迁移需求,或者大型客户长期的混合云战略。主要功能组件包括:虚拟网络网关(xGW 集群)以及物理网络网关(CSW集群),两者成对出现并相互配合,完成了虚拟化封装 / 解封装,从而在逻辑上为每个租户构建了一条独享专线,打通其云上网络(VPC)与云下数据中心。
3
云上虚拟骨干网络(CEN)
云上的虚拟骨干网帮助云上租户连通了其分布在各区域的云上网络(VPC)。主要功能组件包括:虚拟网络网关(xGW 集群)以及自研的路由控制器,下层物理上运行在全球骨干网之上。
4
云网络分层设计
上层虚拟网络直接面向租户及业务,下层物理网络支撑上层的虚拟网络(多数情况下用户不可见)。上下层解耦合并专注于自身的业务特点,使得在重大网络技术演进时可以分别控制各自节奏,避免相互影响。而另一方面,上下层又要相互协同紧密结合。基础设施能力以云产品的方式输出,对产品的高效赋能很关键。如采用智能网卡、可编程硬件,对于虚拟交换机以及虚拟网络网关部分功能的卸载,这些都可极大地提高网络性能同时降低成本。而全球骨干网根据不同服务等级的流量调度能力对上层云上虚拟骨干网络(CEN)的透出可以显著增强产品的市场竞争力。
三、网络的云化演进过程
政府、企业业务的超大体量以及对于用户体验的极致要求,这使得网络云化在各场景下解决超大带宽、超高性能的互通需求等方面都面临着巨大的挑战。这需要用户侧和平台侧共同面对,政府企业对自身业务进行云化适配,产业也不断打磨更适合的云产品。
1
数据中心网络转向云上虚拟网络
首先,用户业务部署所需的资源由数据中心机房的服务器变为云上虚拟机(ECS),网络自然也从自建的数据中心网络转变为云上虚拟网络(VPC)。资源的交付周期由几个月变为几分钟,并且可以根据业务需求的变化快速扩缩容,云上资源及网络的弹性优势由此体现。
由于用户业务体量逐渐庞大,需要规划好公有云业务的分布,以支撑政府企业各个子部门及多元化用户对云提出的更高要求。政府、企业内数量众多的部门之间有着复杂的业务关系,对于云账号体系能力来说是个严峻的考验。政府、企业也需要考虑在一定程度上由原来的计划性预算模式向云上按需付费的模式进行转变。
网络虚拟化带来了弹性可扩展的优势,但同时也引入了额外的开销,导致网络性能损失。云上采用的云服务器(ECS)通过专用高速网卡实现网络虚拟化功能,提升了虚拟机的网络性能,以满足大部分用户的需求。但是,还有少量对于性能要求较高的业务,如机器学习、超算仿真等需要专用高速网卡的产品迭代和进一步的性能优化,以保障后续能够顺利上云。另外,在数据中心网络中,大数据、部分数据库等业务采用了前端计算节点与后端存储节点分离的部署架构,并根据计算与存储的技术特点采用了不同的机型、不同的机器数量进行配比,优化整体效率。计算节点对于存储节点采用直访的方式进行数据读写,因此在网络上要求能够三层直通。而业务在上云之后,计算节点处在云内虚拟网络内,存储节点处在物理网络中,相互间无法三层直通。采用双 IP 地址等网络方案可临时性打通云内虚拟网络与物理网络,而短期内的过渡方案就需要大量的非标实现以及人工介入,这将导致交付及维护成本高且存在安全隐患。长期将演进到存储产品提供的服务化方案(将网络上的直通需求封装在内部)
2
混合云网络
实际上,数年前很多政府企业已经开始尝试通过利用公有云上的虚拟化技术及弹性资源,更好支撑自身业务发展。如将部分临时性业务单元弹性扩容到云上,在业务峰值过后缩容释放资源。在这一场景下,为了实现政府企业网络与云上虚拟网络内业务单元的互通,便采用了云专线产品方案,组成了混合云网络。而政府企业的全面云化在更大范围将几乎所有业务向云上迁移,新的业务预算全部落地为云上资源。虽然还是同样的混合云网络互通场景,但由于各业务之间复杂的调用逻辑,短期内无法实现单元化封闭。为了降低上云过程中业务侧的改造风险,由网络兜底,从互通性的角度尽量做到对于业务侧透明,无差别使用云上、云下资源。这就相当于将原有数据中心内大流量的网络互通,拉伸成为云上、云下多机房间对穿,最终导致城域网、云专线带宽需求暴涨。
针对上述问题的解决思路为:物理网络路径上的网元,城域网核心交换机、网关集群交换机以及物理网络网关交换机等可采用大容量交换机设备,在架构设计上具备良好的扩展能力(单集群内可支持设备数量的横向扩展,例如:2 台 ->4 台,4 台 –>8台)。云专线方案中的虚拟网络网关可采用硬件化高速网关集群,同机房两组高速网关集群(在线及大数据业各一组)互为备份。此外,在监控系统上将虚拟网络、物理网络数据拉通联动,实现了对大象流的识别以及端到端故障的快速定位。后续高速网关集群的底层实现将进一步演进至标准化的可编程硬件平台。
3
骨干网转向云骨干网
对于云上的租户而言,考虑到自身应用规模、用户覆盖或异地容灾等因素可以将业务部署在多个区域的云上虚拟网络(VPC),由此产生了同一租户跨区域的网络互通需求。云上虚拟骨干网络(CEN)产品便可以用在这种场景下,作为云上的虚拟骨干网连通租户各区域的云上虚拟网络(VPC)。
政府企业骨干网在设计上多采用 BGP 作为控制平面路由协议,MPLS 作为转发平面封装,均为标准的网络协议。同样的方案在各大运营商骨干网以及全球 Internet 范围内稳定运行多年。考虑到骨干网的技术复杂性以及对全局稳定性的影响,可采用以政府企业骨干网为主体的方案,短期内各区域云上虚拟网络(VPC)之间的流量先要通过云专线回到云下数据中心,再通过政府企业骨干网实现跨区域(Region)互通。云上虚拟骨干网络(CEN)产品采用自研的控制平面需要进行优化及功能开发,随着产品功能的优化和完善,后续会将业务跨地域的网络流量逐渐切换到云上虚拟骨干网络(CEN)。在过渡期间云上虚拟骨干网络(CEN)与骨干网并存,长期来看,随着更多业务向云上迁移,政府企业的云上虚拟网络(VPC)的规模逐渐扩大,而原有数据中心的规模将逐渐缩小(终态仍然会有少量特殊的业务无法上云),最终完成到云上虚拟骨干网(CEN)的切换。
政府、企业的骨干网经过长期的发展,历史包袱沉重。一方面,物理网络设备采用的是商业厂商的大型路由器,成本较高且实现复杂,自主掌控力弱,难以大规模横向扩展;另一方面,随着政府企业全面云化以及公有云数据中心向基地型发展,数据中心之间的互联带宽成为骨干网流量主体,增长幅度远大于南北向流量。后续物理网络会新建一张骨干网,作为云上虚拟骨干网(CEN)的底座,承载所有的东西向流量。将采用高密度芯片交换机设备组网,大幅简化骨干网设计,自主可控迭代周期快。
骨干网底层跨城市(地域)的长途线路与数据中心网络、城域网相比成本高昂,而且不同路径之间网络质量差异较大。因此,骨干网技术的核心是通过流量工程针对不同的网络服务等级需求(带宽、延迟及抖动等)进行网络质量的保障,通过流量调度充分利用线路带宽资源,并在故障时进行路径迂回或切换以实现快速恢复。要将这些网络核心能力赋能云上虚拟骨干网络(CEN)产品并对外输出,服务更多的公有云上租户。
4
其他特殊场景
在政府企业内部各业务自建的网络之间相互独立,算上各自的生产环境以及开发测试环境,划分了网络安全域进行隔离。随着全面云化,网络安全域的形态也随之发生变化,原有的安全域由现有的自建网络为主体逐渐转变为以云上的虚拟网络为主体,以云上虚拟网络(VPC)的方式实现网络隔离。另一方面,业务所依赖的数据中间层(如数据库、大数据平台)也逐渐向云上的 PaaS 化产品过渡,最终将以云产品标准化的访问方式面向用户(集团业务)提供服务。但是在迁移过程中,数据中间层的数据同步以及数据中心存量业务节点的数据访问产生了跨安全域多点到多点(full-mesh)的 IP 直通需求,过渡阶段采用 NAT 网关地址转换方案进行支撑。方案的功能组件包括:客户端、网关集群以及管控平台。发起建立连接的节点需要部署客户端,而来自众多客户端的流量通过 hash 被分散引导至多组网关集群。目前实现基于 x86 平台,后续将考虑硬件化并对流量路径进行优化以降低整体成本。
5
发展延伸
随着产业全面云化,由以往的基础设施上云(业务资源从数据中心的服务器替换为云上虚拟网络(VPC)的虚拟机)转变为基础软件 / 中间件上云,技术上将基础组件(中间件、DB 等)从业务节点分离,采用云上标准化产品。网络访问模型也由业务节点之间的直访变为对云产品的服务化访问。
云产品的服务对象是云上所有租户,业务逻辑必然需要支持多租户模型。而云产品自身也可以作为云上的租户,创建云产品云上虚拟网络(VPC)并采用虚拟机资源进行其业务节点的部署,这样的方式会带来很多好处,各云产品的网络与其所服务用户的网络之间安全隔离也避免介入到用户云上虚拟网络(VPC)之间的访问限制或者合规风险当中。后续需要随着混部技术方案、大数据云产品方案的演进,进行网络隔离,为将来与云上各个租户之间、各云产品在更大范围内的资源混部扫除障碍,取得更大的收益。
四、发展趋势
目前 IT 产业各类云产品创新发展迅猛,各类云产品其底层技术栈也应该向云化的方式演进,并将自身作为云上所依赖的其他产品的首批用户,经过相互打磨才能更好地服务外部用户。之前产业经历了基础设施云化阶段,后续将在基础软件 / 中间件云化的过程中向云原生演进。网络也是一样,无服务器架构(Serverless)意味着无网络设备架构(Networkless),网络最终将以服务的方式进行能力输出,成为函数即服务(FaaS)的一部分。