01
前言
在国家十三五规划和云计算的推动下,国内金融企业IT基础设施加速虚拟化、业务上云稳步推进,金融IT逐渐演变为混合云架构。与此同时企业对业务安全的诉求、行业主管部门对监管的要求有增无减。本文基于上述背景,详细介绍金融企业如何在混合云中建设统一的全网流量采集平台。
02
为什么混合云需要全网流量
在金融混合云环境,业务运行在逻辑网络中,面临网络性能分析、网络问题定位及排障、网络安全管理、合规审计、网络扩展等问题。在云环境下,选择网络流量采集方案需要考虑流量获取的方式、流量的模型、规模及可管理性、对现网的影响、平台开放性等因素。
在云环境中,影响获取虚拟交换机流量的因素有二:其一是对现有生产环境的侵入性,其二是性能。目前获取虚拟交换机流量的技术方案如下,金融企业可根据自身IT环境的实际情况进行灵活选择。
1)在虚拟机或工作负载中安装采集探针,从操作系统层抓取流量信息。此方案探针部署规模大,且需要获取虚拟机根权限。
2)通过在虚拟交换机上配置镜像或广播策略,将所需流量引出。该方案需对生产平面的虚拟交换机进行额外配置。
3)在宿主机Hypervisor(如Openstack Hypervisor)上安装采集探针,以用户态进程形式独立获取虚拟交换机上的流量。该方案无需对生产平面的虚拟交换机进行配置。
规划网络流量采集方案时,现网中的流量模型、重点金融业务的流量特征是方案选择的重要依据;基础特征包括IP资源的分配、流量、包长、协议、端口等,同时也需要考虑组合特征,尤其是可能出现的渗透、异常等因素。
金融混合云环境中,网络规模宏大且资源池类型多样,虚拟交换机采集点数量相比传统监控规模有几个数量级的增长。单一的生产环境在金融企业中并不多见。在进行流量采集部署时,需要满足平滑部署且保证业务不间断,同时确保对计算资源和网络带宽的消耗限制。虚拟化及容器资源池动态性较强,流量的采集和分发策略也要随着资源的变化进行实时跟随或释放。对于金融业务的流量数据应具备统一采集、按需分发消费的能力,以降低监控系统的资源开销。
在构建整体采集方案时,金融企业应充分考虑IT资源的多样性,采集平台应该分阶段进行建设,尤其要注意确保方案具备可扩展和统一管理能力;平台本身应具备开放性,避免采集端与消费端绑定,尤其要杜绝在现网中不断部署垂直竖井式的采集系统。流量采集系统的部署要兼容传统监控方案或支持其无缝切换,并坚持数据开放性原则,提供高性能的数据服务,对接已有的金融业务分析工具。
03
全网流量采集与分发方案
多数大型金融企业目前都存在多数据中心、混合云的IT设施资源,方案的挑战在于资源池内的网络边界——各类虚机交换机数量多、技术新、动态强。本方案的目标是为金融混合云建立统一高效的网络流量采集和分发平台,为网络运营中心、安全运营中心、大数据分析平台等流量消费端提供数据供给服务。
数据中心可按区域来定义,区域内通常包含多个可用区。区域内的网络流量包含可用区内的物理网络流量和资源池内的虚拟网络流量。在物理网络中,采集点通常由设备厂商的监控方案实现。DeepFlow®采集器可对接设备厂商方案的标准数据输出。各类型号的DeepFlow®采集器为全网流量采集方案提供数据包捕获能力;按部署方式分为VMware ESXi采集器、KVM采集器、KVM-DPDK采集器、HyperV采集器、容器OnVM采集器、容器OnHost采集器、Workload采集器等。对于裸金属设备资源池,可将网络设备的端口镜像至专属采集服务器完成对流量的处理;亦可将采集器安装在每一台需要采集的裸金属设备系统上。
由于采集器数量大、策略多,波动强,需从控制面的设计入手,解决大规模及可管理性的问题。在多点部署时,首先指定主区域,主控制器存于其中并开启高可用,区域间通过专线网络进行控制通信。在区域内划分多个可用区(AZ,Available Zone),以可用区为单位、由单一控制器独立管理可用区内的全部采集器。多分支机构可根据实际情况将其采集器纳入附近区域的控制器管理。
单一DeepFlow®控制器可管理2000个采集器,控制器最大支持50台规模,方案整体可满足10万节点。各类采集器具有自检、运行、停止、异常、保护等几种标准状态,当采集器压力过大时控制器自动将其由“运行”切换至“保护”状态以确保不对生产环境产生影响,直至调整采集器资源配置或压力下降后再自动切回“运行”状态。
04
包分发
包分发功能通过三层隧道实现,控制器统一下发分发策略后由采集器端直接进行数据包封装和发送,支持单采集点数据包多目的端发送。企业可针对分发目的端是否具备解封装能力可灵活定制隧道卸载方案。在金融混合云环境中,资源池多异构,需要考虑分发的网络平面、尽量复用已有的网络;应以分布式部署避免单点瓶颈,并充分适配逻辑网络跨资源池的场景。
05
数据服务
可在每个区域、可用区配置高性能时序数据库,分支机构的数据可通过压缩后写入纳管区域内的数据库。对于非原始数据包的数据消费需求,平台提供开放的数据订阅服务,用户可通过API、消息队列方式调用。
06
关于部署
整体方案主要涉及采集器、控制器、高性能时序数据库三部分。在整体方案规划下,可分阶段、分区域、分资源池投入建设,本方案所涉及的管理、监控分发平面通常可复用已有的网络管理平面。
对于整体规划的方案,建议设计独立的网络监控平面。根据流量、资源情况整体规划采集器的性能,DeepFlow®采集器最低可配置1vCPU、128M的计算资源。对于已经在运行的混合云场景,可在不影响生产环境运行的情况下部署实施,最终构建统一的全网流量监控管理平台。
07
与传统方案比较
不同于集中式后处理的方案,DeepFlow® 采用云原生的分布式架构,采集器具备专利算法的前置计算能力,可在采集点对流量进行本地化处理。众多采集器和控制器共同构建成一个与云网规模一致的流量处理系统,大幅减少了分发数据对监控网络和后端分析工具的压力。流量采集过程中的过滤策略支持更丰富的维度,除了五元组还包括业务、主机、服务、POD等条件。此外DeepFlow® 采集器还具备去重、截短、流日志、压缩、标记等能力,以最小资源消耗实现流量全局的精准采集。
采集技术先进:全网采集方案主要围绕DeepFlow® 采集器技术实现,采集器以进程形态部署,最大程度上避免对现网的影响,同时在操作系统上继承进程级保护优势,整体更稳定。
分布式处理系统:DeepFlow® 采集器采用分布式部署,采集器自身具备数据包处理能力,这设计巧妙地利用了云架构的优势,避免了流量采集后的集中处理,大大提升了系统整体性能。
场景全、规模大:方案基于云原生设计,涵盖裸金属、虚拟机、容器、公有云资源池等多种异构系统场景,整体系统可满足10万台节点的需求。
可管理性:平台主控制器具备对所有采集器的监控和管理能力。通过对接云平台使得操作贴近资源池特性,针对云资源的迁移、回收、重新部署等场景做到了实时策略跟随,保障采集能力在动态环境下的连续性。
数据服务化:高性能网络时序数据库可提供统一和强大的数据订阅服务,将网络数据采集能力服务化的同时,提高了后端业务分析工具的效率。
08
总结
DeepFlow® 混合云全网监控流量采集与分发解决方案为企业在混合云、云原生等新型IT基础设施环境演进过程中,提供完整地、可持续的平台级监控流量管理,避免重复投入,重复安装,解决实际网络监管难题,也为企业规划整体运维、安全平台补齐现网流量、流日志这一板块。本方案已应用于金融、运营商等客户IT环境中。