来源:鑫智奖第四届中小金融机构数智化转型优秀案例评选
获奖单位:顺德农商银行
荣获奖项:云计算创新优秀案例奖
一、项目背景及目标
1.运维人力资源有限
目前行内大量人力资源投入到基础运维工作,但在数字化转型背景下,基础运维工作价值认同逐渐下降,基础运维的自动、智能化建设运维建设中,成为了降本增效的突破口。
2.业务逐步上云
随着业务上云步伐,在传统网络与云网络更迭阶段,异构网络架构突破传统网络运维认知,原有运维思路及故障根因定位经验失效,运维故障定位效率及难度大幅增加。
3.业务赋能
网络部门仅做基础运维、资源供给、日常监控及故障分析等工作,难以实现价值产出,应通过数字化技术寻求价值增值方向,实现业务赋能将是非常关键的方向。
4.科技创新及技术保鲜
传统网络技术已趋于成熟稳定,成为基础能力,新的创新技术对网络运维及业务价值探索成为部门价值的关键。
5.打造行业标杆
通过业务流数据,打通行内科技体系的数据壁垒,以塑造行业的标杆效应,通过自己的实践向同业输出优秀的金融科技解决方案。
短期目标:
云上云下网络流量、业务流量的全时全量监控,实现网络或应用故障一分钟告警准确率90%,十分钟故障范围定位60%。
最终目标:
一五十工程,即一分钟故障发现,五分钟根因定位,十分钟恢复;其次,结合智能算法,实现主动智能运维,为网络、应用、业务提供有价值的运维参考数据。
二、创新点
1.新型可观测技术,通过云原生ebpf技术,实现从网络、资源、进程获取性能KPI数据,同时能够实现旁路解密,实现数据采集多样性,真正打开端到端“最后一公里”的监控黑盒,实现全链式可观测,不在存在观测盲点。
2.通过智能基线及根因推导模块,实现精准故障预警,提高业务可靠性及可用性。
3.通过自动化工具,结合告警及积累的运维知识库,实现AIOps自动化运维目标。
三、项目技术方案
1.云下部署方案
当前架构
当前平台由4台探针搭建,其中10Gbps处理能力2台,5Gbps处理能力2台,以下简称为旧探针01、旧探针02、旧探针03、旧探针04,各个探针采集网络关键节点流量,由部署在跳板机上的软件控制台查看数据,当前部署架构不能将各个采集点动态关联,使用局限于抓包看包,难于满足当前高效运维需求,如下图:
当前架构
目标架构设计
所有区域流量通过TAP汇总,打标签处理后汇聚到科来探针,探针实时运算提取流量中的KPI指标,上报至管理中心,由管理中心实现集中配置、关联展示、分析。
目标架构
2.云上部署方案
在私有云业务ECS上部署流量采集Agent,将该ECS流量进行全时全量采集。采集到流量将发给TAP交换机,在由TAP交换机转发给到解析器,由解析器对原始流量进行解码,同时生产统计数据,将统计数据上传到分析器。
在AKSNode上通过Daemonset方式,在每一个Node上启一个POD用于部署流量采集Agent,对该Node中所有POD流量进行全时全量采集给TAP交换机,再由TAP交换机转发给到解析器,由解析器对原始流量进行解码,同时生产统计数据,将统计数据上传到分析器。
通过以上两种方式Agent,将对私有云、容器AKS的网络流量全部覆盖,实现云上无盲点。
四、项目过程管理
第一阶段:年9月--年12月,云下RAS+UPM全量覆盖,1个重点业务梳理。
第二阶段:年12月—年3月,RAS+UPM剩余重点业务梳理。
五、运营情况
1.网络全景画像
根据流量自动化绘制网络全景,用户可清晰的感知平台网元设备流量、云网络资产的东西、南北向流量情况,实现网络关键节点指标性能观测,快速定位异常发生的位置。
2.全链网元监控
整合云上云下,实现全栈全链路业务根因定位。实时分析业务质量、网络质量、资产性能,对比业务流路径中各节点网元设备健康状态,自动定位问题节点并提供问题原因分析。
3.性能容量分析
物理网络性能容量分析,通过流量建立网元设备性能容量、专线性能容量评估体系,对经过网络节点的流量大小、性能指标,评估网元设备的真实性能容量。
云网络资源性能容量评估,通过云网络资产的流量、业务流量对云计算资源进行性能容量评估、有利于提高云自研利用率,实现扩容有依据,建立资源投入回收闭环。
4.安全事件溯源取证
应对高级威胁攻击、0day等安全事件,通过全流量能溯源追踪攻击路径、结合云上安全防护策略及时阻断,同时快速评估受害面。
5.满足等保2.0要求
6.网络云上云下统一监控
传统物理网络通过关键路径交换机镜像,云网络通过Agent方式获取原始数据,通过构建云上云下网络架构及关联流量数据,实现从广域网、外联、互联网、数据中心核心网络、云网络一体化的云上云下监控能力。
7.应用拓扑画像
基于流量特征实现应用识别,通过业务关联信息,自动绘制出应用调用关系及拓扑画像。了解应用真实调用关系,当业务异常时,快速感知异常及定位根因。
8.应用全链路监控
结合纵向网络路径链,构建应用/网元全链式监控能力,从而实现业务异常快速接界定网络、应用、系统问题,构建应用全链观测路径,实现应用云上云下一体化监控。
9.故障根因定位
通过智能基线及根因推导模型,结合知识库,实现智能根因定位。
10.统一事件平台
集告警接入、告警通知、告警处理、告警分析为一体,能够在事前发现、事中处理、事后审计的告警处置闭环。
11.业务赋能
业务数据解码:从数据报文提取业务相关的核心字段,为业务数字化转型提供数据基础;
业务树画像:对核心业务从:业务系统、应用、接口、功能逐层进行精细化展示和数据分析;
用户体验数据分析:成功率、响应时间、响应率;
业务数据获取与分析:业务敏捷迭代提升提供可观测依据。
六、项目成效
1.云上云下一体化
将传统网络、云上虚拟网络基础架构、网络、业务等监控数据清洗与整合,满足云上云下一体化监控需求。轻松应对企业用户网络规模扩张与业务复杂化带来的运维考验。
2.降低成本
通过全流量监控能力,精准有效实现资源扩容评估、资源回收闭环,避免无效投入和资源滥用。
精准扩容评估:当业务需要大规模扩容时,能够有效评估主机资源和业务用量和质量数据,推断评估合理的扩容数量。
精准资源回收:根据通讯行为,确定无业务运行的主机,实现精准资源回收,减少无效投入。
3.低门槛零配置
智能监控产品,仅需简单初始化,即可实现零配置的全网一体化智能监控,大大降低运维人员的使用成本。
4.智能精准告警
在分钟级数据基础上,通过多条动态基线学习算法,进行交叉验证,实现“开箱即用”精准告警。
5.提高运维效率
原始流量数据为故障定位的最终手段,是各部门认可的数据,业务出故障时,通过原始流量数据,作为故障定位沟通桥梁,有效提高各部门故障分析协作效率。
同时全流量能够全面分析业务、网络、主机、安全等导致业务异常问题,定位效率高。
6.坚实防线
安全兜底:溯源分析是任何IT部门中网络运营的一道坚实防线,当网络数据泄露、0Day安全攻击等等,无法保证安全设备能够%防御,当出现APT攻击时,全流量溯源追踪攻击路径、结合云上安全防护策略及时阻断,同时快速评估受害面。
运维兜底:当出现未知故障时,全流量作为兜底分析能力,能够界定高级难度的故障定位(如云平台BUG、业务BUG、多技术栈关联故障等问题的根因定位)。
七、经验总结
顺德农商银行通过科来网络智能分析技术和云原生cbpfebpf技术,结合银行的网络分配情况,实现了对云上云下业务系统运行态势的自动智能感知、运行异常的主动预警的全面性能可视化管理,消除监控盲点。及时主动发现业务性能异常,快速定位分析问题点。使运维工作由原来的被动变主动的同时,也让复杂运维工作化繁为简,进一步提升顺德农商银行的运维效率、降低了运维成本。
更多金融科技案例和金融数据智能优秀解决方案,请登录数字金融创新知识服务平台-金科创新社案例库、选型库查看。