申万宏源证券:分层构建基于流量数据的运维平台探索
来源:2023鑫智奖第四届中小金融机构数智化转型优秀案例评选
获奖单位:申万宏源证券
荣获奖项:IT架构创新优秀案例奖
一、项目背景及目标
随着金融业务的发展,申万宏源证券规模的扩大,网络事件处置效率亟需提升,保障生产网络的稳定性、可靠性和安全性尤为重要申万宏源证券官网。因此,采用网络流量实时采集和全流量、多视角的可视化分析,以提高网络安全防御能力和异常事件快速响应能力,是申万宏源证券的当务之急。
为实现这一目标,采用了交换设备端口镜像、链路分光、虚拟化环境部署采集软探针等方式进行数据流旁路监测申万宏源证券官网。同时,在采集过程中对关键敏感信息进行脱敏处理,确保数据的安全性和隐私性。接下来,将采集到的流量进行统一的管理和调度,并根据不同的应用需求进行流量分析,包括网络性能分析、业务性能分析、网络安全分析、历史数据回溯、数据库审计等。
在过去的几年中,依托于原有业务在交换设备做端口镜像的方法存在诸多局限性,如流量切换操作频繁、风险较高等申万宏源证券官网。因此,在二期项目实施部署时,结合了TAP流量管理设备和科来流量分析设备,对多数据中心的生产网、采集网、分析网进行了重构,以提高网络事件及安全防御的快速响应能力。
在新的架构下,通过端口镜像、链路分光以及虚拟化环境软探针采集方式,在接入层、汇聚层、核心层以及防火墙前后、负载均衡设备前后端口进行流量实时旁路采集,确保流量的全面覆盖和准确性申万宏源证券官网。同时,还采用了三层架构设计,分别为:生产网、采集网、分析网,确保系统的可扩展性和灵活性。
通过以上措施和优化方案,实现生产网的全面监控和安全防御,为公司业务发展提供有力支撑申万宏源证券官网。
1.采集流量统一管理和调度
本平台将分布于北京、上海等5中心的流量采集点所采集的流量统一汇聚、处理后进行统一管理和按需分发调度,提供给数据分析层各个分析工具用于进行专项分析申万宏源证券官网。
展开全文
2.采集流量预处理
采集原始流量报文进入本平台后,按照五元组信息进行流量过滤转发,并按照分析工具需求进行流量复制和流量预处理,包括对采集重复的报文进行去重处理,对含有多层嵌套封装或特殊隧道封装的报文进行解封装操作,以及报文截短、关键字过滤等,使后端分析工具能够更高效的进行报文解析和业务分析申万宏源证券官网。
3.流量按需调配
平台依托网络分流产品,构建了生产网与分析网的中间层申万宏源证券官网。采集网承载生产网根据专项分析工作的需求,按照报文五元组、VLAN ID、MAC等信息进行按需过滤和转发,将分析工具所需要的报文从总量报文中有效的选取出来并进行有针对性的复制和转发。
4.关键敏感报文脱敏
平台采集到的生产网原始报文中,有部分报文内容包含一些交易数据、用户账户信息等隐私敏感数据,对这部分报文进行直接转发存在信息泄露风险,平台可以根据配置,对这部分信息进行掩码脱敏后再进行转发,保障金融信息安全申万宏源证券官网。
5.全网流量可视化
通过部署本系统对多数据中心进行全面分布式长期监控与实时分析,达到全网流量可视化的效果申万宏源证券官网。通过全网流量可视化可极大提高运维管理能力和安全管理能力,填补传统网络管理系统在流量分析方面的欠缺,使技术人员对网络事件和安全问题的应对能力大大提高,提高网络管理的主动性,从而能更好的保证业务的正常运行。
对全网所有关键节点流量可视性监控,实现网络流量与业务系统的关联分析,对网络流量成分进行分析,对网络流量中任意主机和通信对进行统计分析,了解各应用在网络中的流量分布和带宽占用情况,实时掌控业务流量特征和变化规律,实现对网络流量的精细化管理申万宏源证券官网。
6.围绕核心业务构建智能化网络性能管理
通过本平台的建设,可以实时获取生产网业务流量,分析带宽、丢包、时延、抖动、响应等网络性能指标,快速定位网络故障申万宏源证券官网。
在多数据中心的业务监控层面,系统实现网络及应用的全局监控,快速准确的展现应用和业务运行状态,同时实现对于应用路径的各个环节全路径监控申万宏源证券官网。当任意一点由于导致的异常现象,可以快速、准确的展现和警报,还可进行更细致的数据挖掘。最终实现对任何异常现象实现数据包的深度挖掘和分析,并对异常现象根因做出最准确的还原和分析。
在业务的质量监控方面,系统不能仅面向IT运维,还具备业务运行的支撑能力,能够实时反映业务的运行状态,对于交易成功率、交易时延、交易类别等等业务运行状态提供快速准确的监控报警能力,特别是在业务促销、大业务量突发等场景下具备实时监控能力申万宏源证券官网。相应的,流量分析系统在应用层面还具备业务交易路径的监控分析能力,通过采用性能基线监控和报警模式准确反映一个时间段内业务和应用的变化趋势,并对未来的业务和应用发展态势做出预测。
7.业务性能分析
平台提供了业务实时分析工具,通过实时呈现的业务数据和业务数据历史趋势分析了解金融业务实施情况,对交易数量、交易响应率、交易响应时延等进行分析和统计,及时发现并处理业务故障和业务瓶颈,为有效的业务决策提供重要的量化参考依据申万宏源证券官网。
8.故障场景回溯
通过建设本平台可以回溯历史流量场景,在进行故障分析时,实现报文级别的历史流量场景回溯,从而提高故障分析的准确性申万宏源证券官网。
9.为未来智能运维平台提供基础数据
Gartner定义的AIOps,即下一代智能运维平台申万宏源证券官网。它是将人工智能的能力与运维相结合的多层次技术平台,使用分析和机器学习技术,采集和分析来自于不同IT运维工具、设备的大数据,以实现故障根因的自动分析和定位,相应实时问题,使得IT运维工作通过自动化得到增强。
基于以上定义,可以发现新一代的智能运维管理平台是针对现有运维平台的提升,以大数据和机器学习为手段将现有多种监控数据和业务数据、事件加以整合,结合原有的人工运维操作包括故障根因判断和操作等,实现复杂能力的工具化,进而实现运维操作的自动化,并以此为基础,实现整个运维监控平台的不断进化申万宏源证券官网。而就整个智能运维平台的技术架构来说,其数据源不仅涵盖现有的监控数据源,如网络设备、操作系统、应用程序等等,还应当包含业务操作日志、变更管理、配置管理、设备管理等等,以大数据技术为手段,实现所有运维监控数据的计算、分析,以机器学习技术引导运维操作的不断进化,最终以可视化的方式实现系统状态、故障根因、排障操作的可视化、自动化。
当前,作为一个新生领域的智能运维平台还处于发展的初期,发现并收集有价值的数据是当务之急和首要问题申万宏源证券官网。而网络流量作为整个IT系统的基础,任何的系统间通信、业务处理都以网络流量为基础,任何故障也都必然以网络流量为表现,所有的运维操作也都以网络流量为手段实现,因此网络全流量数据是最为完整的数据源,对其进行采集和深度分析,可以作为智能运维平台的基础。同时,结合其他数据源,也是构建智能运维平台的最佳路径。
所以本系统可以为未来的智能运维平台打下夯实的基础申万宏源证券官网。通过全网核心节点进行流量监控,实现基于全路径的业务分析,最终实现基于数据包级的有效数据支持。
二、创新点
构建了分层次的、多方式组合的多数据中心网络检测与运维平台,进一步完善了主动、智能、高效的运维体系申万宏源证券官网。
1.建立流量侧的潜在故障监测发现体系
针对各类承载业务网络与业务应用差异性,基于系统NPM丰富性能指标数据建立比对基线,面对潜在业务异常与运维瓶颈,更清晰主动输出地告警,并利用业务流量可视化视图让运维人员快速定位问题原因申万宏源证券官网。同时,通过建立告警模型,可更明确地体现网络或业务应用运行情况,在问题发生时迅速定位问题,快速界定责任边界。
2.实现可视化运维质量监控
以网络应用为核心,基于关键应用系统梳理全网络、全路径服务访问关系可视化视图,更直观准确地展示整个网络、应用、业务视图,并以简洁、可自定义的方式叠加各项性能指标,最大限度实现业务运行质量情况可视化申万宏源证券官网。
3.构建围绕核心业务的智能化网络性能管理
通过项目建设实现了实时获取生产网业务流量,支持通过分析带宽、丢包、时延、抖动、响应等相关网络性能指标,运维人员能更快速定位网络故障申万宏源证券官网。
针对多数据中心的业务监控,系统能实现网络及应用的全局监控,快速准确展现其运行状态,乃至展现应用路径各个环节全路径监控申万宏源证券官网。同时还具备业务运行支撑能力,并对交易成功率、交易时延、交易类别等等业务运行状态提供快速准确监控报警能力,提供更具价值的业务质量监控。
三、项目技术方案
1.流量采集网的流量采集通过交换机镜像方式实现
交换机镜像遵从旁路、完备、可伸缩和不影响现有网络架构及网络性能为前提申万宏源证券官网。引流点的选择需遵循下面几个原则:
1)区域边界引流
2)区域核心引流
3)负载均衡设备、防火墙的两侧
4)关键服务器的前端
2.在流量采集层,该系统采用专业的“流量管理设备TAP”,对全网各个采集点的旁路流量进行过滤、汇聚、复制、负载均衡、报文去重、解封装、敏感数据脱敏等预处理操作申万宏源证券官网。这样就能够有效地处理海量的网络流量,并保证数据的完整性和准确性。在这里通过多种方式对所规划的流量采集节点进行了识别,包括VLAN、MAC等等方式的识别在TAP上进行了流量的精细化拆分。
3.数据分析层是本次规划的核心部分申万宏源证券官网。针对不同的业务分析需求,对生产网实时流量进行多视角分析,获取网络运行性能数据、业务运行性能数据、网络安全分析数据、数据库监控数据等,并实施多维度指标综合分析,从而有效的实施网络故障定位、指标劣化预警、重点业务保障、网络攻击检测与防御等,从而实现对我们申万宏源证券网络及业务系统运行态势的自动智能感知,提供业务系统的全面性能可视化管理,实现对业务系统运行异常的主动预警,及时主动发现业务性能异常,提供高效可视化分析能力,快速定位故障节点。
四、项目过程管理
2023年1月初至1月中旬 进行流量采集规划;
2023年3月中旬至今 进行项目实施申万宏源证券官网。
五、运营情况
该系统在实施后稳定可靠、运行效率高、易于管理,大幅度提高了申万宏源证券生产网的安全性、稳定性和可靠性申万宏源证券官网。此外,该系统还通过统一的管理和调度,有效节约了网络带宽费用。
综上所述,通过该系统的实施和运营,申万宏源证券成功提高了网络事件和安全防御能力和快速响应能力,提高了业务部门的工作效率和客户满意度,同时也为公司的业务发展提供了有力支撑申万宏源证券官网。
六、项目成效
申万宏源证券实现了网络流量实时采集和全流量、多视角的可视化分析,经过一段时间的实施和运营后,该系统已经取得了明显的成效和优异的运营情况申万宏源证券官网。
首先,在网络运行与安全方监测面,该系统能够快速响应网络和安全事件,帮助申万宏源证券在最短时间内定位并解决问题申万宏源证券官网。同时,通过对历史数据的回溯分析,该系统还可以为公司提供有效的安全防御策略和建议,进一步增强了网络安全防御能力。
其次,在业务性能分析方面,该系统能够实时获取业务数据,帮助业务部门发现网络故障和瓶颈,并快速排查处理,提高了业务部门的工作效率和客户满意度申万宏源证券官网。此外,该系统还支持数据库审计功能,保证了用户数据的安全和可靠性。
再次,在监控节点方面,该系统实现了生产网、采集网和分析网分离的三层架构,确保了系统的可扩展性和灵活性申万宏源证券官网。同时,通过多种手段结合的方式进行数据流旁路监测,确保了流量的全面覆盖和准确性。
七、经验总结
申万宏源证券在实现网络流量实时采集和全流量、多视角的可视化分析的过程中,不断探索创新并总结经验申万宏源证券官网。以下是我们的一些经验总结:
首先,在技术方面,我们采用了多种手段结合进行数据流旁路监测,增强了系统的稳定性和安全性,并确保了流量的全面覆盖和准确性申万宏源证券官网。此外,我们还引入了网络监控分层隔离的架构设计,提高了系统的可扩展性和灵活性。
其次,在管理方面,我们采用了统一的管理和调度策略,有效地节约了公司的网络带宽费用申万宏源证券官网。通过多维度数据的分析与调优,使得整个系统在运营中更加稳健和高效。
最后,在协同办公和沟通方面,我们建立了多部门联合工作机制,各部门之间紧密协作,为业务发展提供有力支持申万宏源证券官网。同时,我们对系统运行情况进行了即时监控和反馈,及时发现问题并解决问题,确保了系统的稳定性和可靠性。
总之,在创新实践中,我们始终坚持技术创新、管理创新和协同创新相结合的思路,注重实际效果和用户需求,不断探索创新并总结经验申万宏源证券官网。这些经验可以为其他企业在实现网络流量实时采集和全流量、多视角的可视化分析方面提供借鉴和参考。
更多金融科技案例和金融数据智能优秀解决方案,请登录数字金融创新知识服务平台-金科创新社案例库、选型库查看申万宏源证券官网。
评论