顺德农商银行智能云网分析平台

来源:鑫智奖第四届中小金融机构数智化转型优秀案例评选

获奖单位:顺德农商银行

荣获奖项:云计算创新优秀案例奖

一、项目背景及目标

1.运维人力资源有限

目前行内大量人力资源投入到基础运维工作,但在数字化转型背景下,基础运维工作价值认同逐渐下降,基础运维的自动、智能化建设运维建设中,成为了降本增效的突破口。

2.业务逐步上云

随着业务上云步伐,在传统网络与云网络更迭阶段,异构网络架构突破传统网络运维认知,原有运维思路及故障根因定位经验失效,运维故障定位效率及难度大幅增加。

3.业务赋能

网络部门仅做基础运维、资源供给、日常监控及故障分析等工作,难以实现价值产出,应通过数字化技术寻求价值增值方向,实现业务赋能将是非常关键的方向。

4.科技创新及技术保鲜

传统网络技术已趋于成熟稳定,成为基础能力,新的创新技术对网络运维及业务价值探索成为部门价值的关键。

5.打造行业标杆

通过业务流数据,打通行内科技体系的数据壁垒,以塑造行业的标杆效应,通过自己的实践向同业输出优秀的金融科技解决方案。

短期目标:

云上云下网络流量、业务流量的全时全量监控,实现网络或应用故障一分钟告警准确率90%,十分钟故障范围定位60%。

最终目标:

一五十工程,即一分钟故障发现,五分钟根因定位,十分钟恢复;其次,结合智能算法,实现主动智能运维,为网络、应用、业务提供有价值的运维参考数据。

二、创新点

1.新型可观测技术,通过云原生ebpf技术,实现从网络、资源、进程获取性能KPI数据,同时能够实现旁路解密,实现数据采集多样性,真正打开端到端“最后一公里”的监控黑盒,实现全链式可观测,不在存在观测盲点。

2.通过智能基线及根因推导模块,实现精准故障预警,提高业务可靠性及可用性。

3.通过自动化工具,结合告警及积累的运维知识库,实现AIOps自动化运维目标。

三、项目技术方案

1.云下部署方案

当前架构

当前平台由4台探针搭建,其中10Gbps处理能力2台,5Gbps处理能力2台,以下简称为旧探针01、旧探针02、旧探针03、旧探针04,各个探针采集网络关键节点流量,由部署在跳板机上的软件控制台查看数据,当前部署架构不能将各个采集点动态关联,使用局限于抓包看包,难于满足当前高效运维需求,如下图:

当前架构

目标架构设计

所有区域流量通过TAP汇总,打标签处理后汇聚到科来探针,探针实时运算提取流量中的KPI指标,上报至管理中心,由管理中心实现集中配置、关联展示、分析。

目标架构

2.云上部署方案

在私有云业务ECS上部署流量采集Agent,将该ECS流量进行全时全量采集。采集到流量将发给TAP交换机,在由TAP交换机转发给到解析器,由解析器对原始流量进行解码,同时生产统计数据,将统计数据上传到分析器。

在AKSNode上通过Daemonset方式,在每一个Node上启一个POD用于部署流量采集Agent,对该Node中所有POD流量进行全时全量采集给TAP交换机,再由TAP交换机转发给到解析器,由解析器对原始流量进行解码,同时生产统计数据,将统计数据上传到分析器。

通过以上两种方式Agent,将对私有云、容器AKS的网络流量全部覆盖,实现云上无盲点。

四、项目过程管理

第一阶段:年9月--年12月,云下RAS+UPM全量覆盖,1个重点业务梳理。

第二阶段:年12月—年3月,RAS+UPM剩余重点业务梳理。

五、运营情况

1.网络全景画像

根据流量自动化绘制网络全景,用户可清晰的感知平台网元设备流量、云网络资产的东西、南北向流量情况,实现网络关键节点指标性能观测,快速定位异常发生的位置。

2.全链网元监控

整合云上云下,实现全栈全链路业务根因定位。实时分析业务质量、网络质量、资产性能,对比业务流路径中各节点网元设备健康状态,自动定位问题节点并提供问题原因分析。

3.性能容量分析

物理网络性能容量分析,通过流量建立网元设备性能容量、专线性能容量评估体系,对经过网络节点的流量大小、性能指标,评估网元设备的真实性能容量。

云网络资源性能容量评估,通过云网络资产的流量、业务流量对云计算资源进行性能容量评估、有利于提高云自研利用率,实现扩容有依据,建立资源投入回收闭环。

4.安全事件溯源取证

应对高级威胁攻击、0day等安全事件,通过全流量能溯源追踪攻击路径、结合云上安全防护策略及时阻断,同时快速评估受害面。

5.满足等保2.0要求

6.网络云上云下统一监控

传统物理网络通过关键路径交换机镜像,云网络通过Agent方式获取原始数据,通过构建云上云下网络架构及关联流量数据,实现从广域网、外联、互联网、数据中心核心网络、云网络一体化的云上云下监控能力。

7.应用拓扑画像

基于流量特征实现应用识别,通过业务关联信息,自动绘制出应用调用关系及拓扑画像。了解应用真实调用关系,当业务异常时,快速感知异常及定位根因。

8.应用全链路监控

结合纵向网络路径链,构建应用/网元全链式监控能力,从而实现业务异常快速接界定网络、应用、系统问题,构建应用全链观测路径,实现应用云上云下一体化监控。

9.故障根因定位

通过智能基线及根因推导模型,结合知识库,实现智能根因定位。

10.统一事件平台

集告警接入、告警通知、告警处理、告警分析为一体,能够在事前发现、事中处理、事后审计的告警处置闭环。

11.业务赋能

业务数据解码:从数据报文提取业务相关的核心字段,为业务数字化转型提供数据基础;

业务树画像:对核心业务从:业务系统、应用、接口、功能逐层进行精细化展示和数据分析;

用户体验数据分析:成功率、响应时间、响应率;

业务数据获取与分析:业务敏捷迭代提升提供可观测依据。

六、项目成效

1.云上云下一体化

将传统网络、云上虚拟网络基础架构、网络、业务等监控数据清洗与整合,满足云上云下一体化监控需求。轻松应对企业用户网络规模扩张与业务复杂化带来的运维考验。

2.降低成本

通过全流量监控能力,精准有效实现资源扩容评估、资源回收闭环,避免无效投入和资源滥用。

精准扩容评估:当业务需要大规模扩容时,能够有效评估主机资源和业务用量和质量数据,推断评估合理的扩容数量。

精准资源回收:根据通讯行为,确定无业务运行的主机,实现精准资源回收,减少无效投入。

3.低门槛零配置

智能监控产品,仅需简单初始化,即可实现零配置的全网一体化智能监控,大大降低运维人员的使用成本。

4.智能精准告警

在分钟级数据基础上,通过多条动态基线学习算法,进行交叉验证,实现“开箱即用”精准告警。

5.提高运维效率

原始流量数据为故障定位的最终手段,是各部门认可的数据,业务出故障时,通过原始流量数据,作为故障定位沟通桥梁,有效提高各部门故障分析协作效率。

同时全流量能够全面分析业务、网络、主机、安全等导致业务异常问题,定位效率高。

6.坚实防线

安全兜底:溯源分析是任何IT部门中网络运营的一道坚实防线,当网络数据泄露、0Day安全攻击等等,无法保证安全设备能够%防御,当出现APT攻击时,全流量溯源追踪攻击路径、结合云上安全防护策略及时阻断,同时快速评估受害面。

运维兜底:当出现未知故障时,全流量作为兜底分析能力,能够界定高级难度的故障定位(如云平台BUG、业务BUG、多技术栈关联故障等问题的根因定位)。

七、经验总结

顺德农商银行通过科来网络智能分析技术和云原生cbpfebpf技术,结合银行的网络分配情况,实现了对云上云下业务系统运行态势的自动智能感知、运行异常的主动预警的全面性能可视化管理,消除监控盲点。及时主动发现业务性能异常,快速定位分析问题点。使运维工作由原来的被动变主动的同时,也让复杂运维工作化繁为简,进一步提升顺德农商银行的运维效率、降低了运维成本。

更多金融科技案例和金融数据智能优秀解决方案,请登录数字金融创新知识服务平台-金科创新社案例库、选型库查看。




转载请注明:http://www.aierlanlan.com/rzfs/8980.html