环球热点评!基于AI能力的智能运维建设实践
2023-09-09 15:29:25
原标题:基于AI能力的智能运维建设实践
来源:C114通信网
摘要:为减轻一线维护工作量,引入了数字化和AI手段提升网络运营效率。
基于故障树和AI能力,打造关键智能运维能力,从而解决各运维生产系统不具备故障自动定位和自动愈合的能力、跨专业故障定位难、排障周期长的问题。
实施从基础的规则梳理,到告警和资源的采集,再到指令平台的搭建,经过跨域和单域全场景的调试,最终构建起的关键能力全部投入生产应用并取得显著效果。
0
引言
当前,在数字化转型背景下,随着网元数量的不断增加,业务也越来越复杂,网络运营系统面临排障效率低、跨专业故障定位困难、排障周期长等诸多问题,越来越不能够满足智能运维的需要。
为减轻一线维护人员的工作量,提升网络智能化运维水平,打造智能排障创新能力,显得尤为重要。
1
关键能力打造
根据智能运维建设需求,智能运维创新能力由一系列关键网络能力构成,需要打造网络拓扑还原、跨域故障定位和故障自愈等关键能力。
1.1 拓扑还原能力
拓扑还原即还原网络中设备间的物理连接关系,以及以此为基础的业务真实路径和流向。
通过探针自动采集和准确还原全网跨域物理拓扑、业务路径,提供拓扑数据服务,支撑网络和业务可视化,提高维护与故障分析效率和准确率,缩短故障处理时长。
拓扑还原算法如图1所示。
图1 拓扑还原算法结合实际的网络情况,采用OSS上单域链路解析、IP+MASK计算、带约束条件的最短路径计算、环路识别计算等算法。
a)OSS单域链路解析:从设备网管上获取单域,比如IPRAN、DWDM组网的内部物理连接信息、电路配置信息等,并解析入库。
b)IP+MASK计算算法:基于TCP/IP协议,三层IP网络中互连的一组三层接口,只有处于同一IP子网中时,报文才能转发互通。
通过对接口配置的IP地址及对应的子网掩码进行“二进制相与计算”,可以得到每个接口对应的IP子网号,若两边子网号一致,则可以认为它们三层互连。
c)最短路径计算算法:对于L3 VPN、VPLS、Native IP组网下的动态网络,设备通过IGP的最短路径进行路由计算,运维人员在手动创建业务时,一般选定最短路径进行业务创建,以节省网络资源的占用。
通过模拟系统自动创建业务或运维人员手动创建业务,系统自动判断或手动选择业务的源宿节点,用带约束条件的最短路径算法(如Dijkstra算法)完成现网业务的最短路径推导计算。
约束条件基于设备类型、源宿网元列表、设备名称关键字、VPN Peer、基站和网关等进行设定。
d)环路识别计算算法:结合通信组网特点,将其综合融入到深度优先搜索算法(Depth First Search,DFS)中,通过网络分层后,进行图集抽取,并结合深度优先搜索算法,识别环链,过滤重复环后,识别最小环。
1.2 跨域故障定位能力
现网中,有很多故障是由于其他专业引起的关联故障,需要跨域诊断定位根因派单,否则简单按各专业的告警派单会出现较多的重复派单。
比如某日某基站机房报市电故障,导致机房关联的1个IPRAN退服,4个基站退服。
故障所关联的3个专业(传输、动环、无线)派发故障工单3张,而实际故障根因是动环专业停电。
跨域诊断定位根因派单如图2所示。
图2 跨域诊断定位根因派单因此,如何定位由于其他专业引起的跨域故障定位问题,分析故障产生原因和故障处理显得尤为重要。
故障定位基于拓扑建模,依赖故障时空类、根因推导算法,可实现跨域故障根因的快速定位,流程如图3所示。
图3 跨域故障定位流程跨域故障定位,涉及拓扑建模技术,从空间维度将传输网络用数学拓扑模型描述并供跨域模块调用处理,从基站开始,分段建立传输拓扑。
跨域故障定位主要步骤如下。
a)抽取通用TOPO路径表(link)数据,计算TOPO二层资源模型。
b)RCA引擎调用Redis高速缓存中的TOPO二层资源数据。
c)筛选需要进行根因分析的告警信息。
d)抽取告警字段中的值组成资源模型ID,如该字段在资源库中存在,则建立告警和TOPO资源模型的映射关系。
e)标注TOPO路径中受影响的资源节点。
f)分析受影响的资源节点是否出现对应的告警。
g)将关联结果回写到告警的字段。
根据平时处理故障的经验积累,将专家经验转化为平台自动化诊断能力。
比如:以前需要人工凭经验对同一时间、同一区域、同一机房等资源和告警信息进行拓扑关联分析定位告警,现在将专家经验规则统一梳理汇总,利用系统AI能力生成动力、无线、传输跨域关联场景自动诊断逻辑规则。
系统根据告警类别自动适配诊断场景规则,自动发起诊断指令,根据诊断查询结果自动进行逻辑判断,智能定位故障根因,并快速呈现给一线维护人员,实现对故障精准定位,提高故障处理效率。
1.3 故障自愈能力
基于集团架构进行研发,北向告警对接集团智能监控,南向由统一指令平台对接网管监控中心,分析基站侧和射频单元的主告警与子告警之间关联信息,以及参数阈值等性能类异常的故障信息。
统一指令平台通过CLI、MML、NETCONF等接口对可以复位恢复的故障下发相应的修复指令,实现无线单域故障自愈,减少维护人员上站次数,缩短故障历时。
故障自愈能力流程如图4所示。
图4 故障自愈能力流程2
平台框架设计
平台遵循集团OSS集约化框架,按照模块化结构设计,由采集层(告警和资源采集探针)、业务处理层(RCA分析模块、告警诊断模块、算法库、流程策略处理模块)和数据展现层(数据标准化装配及转发)构成,平台框架如图5所示。
智能排障平台各功能模块与统一指令平台、资源平台、EMS(网管系统)、智能监控系统和沃工单系统通过专用接口进行数据交互和协同,实现网络告警自动采集、自动化分析处理和结果输出。
其主要工作机制流程包括通过告警采集探针(Socket协议)与ESB对接,接收智能监控转发的实时告警;跨域自动诊断模块通过从资源管理平台采集资管数据,还原出业务路径和告警采集探针接收的告警,并进行跨域根因定位;故障自动愈合模块通过告警触发诊断流程,通过指令探针与指令平台对接,将指令下发至各个专业网管,实现故障诊断和故障自愈等功能。
图5 平台框架通过挖掘算法进行分析,实现对故障预处理流程的智能发现,形成故障处理规则库,根据规则库实现故障自动诊断。
基于故障树、AI诊断结果分析出的故障原因,评估是否可进行远程自愈恢复,对于可以进行远程自愈的设备告警,通过下发指令到设备,查询设备软硬件状态、配置信息、License等信息后,定位出故障原因。
对无线3G/4G/5G设备下发指令(如重启设备、修改配置信息等)进行远程故障恢复,达到故障自动诊断和自动恢复的效果。
3
方案实施案例
3.1 环路自动识别能力实施案例
在传送网故障中,之前只是采集告警信息来自动派发工单。
工单到达维护人员手中时,只有散乱的数个工单,其中包含一堆散乱的告警信息,没有用来判断告警之间逻辑关系的网络拓扑信息,无法定位故障。
因此必须由人工将告警信息与拓扑图进行比对分析后,推断告警间的逻辑关系,定位出故障的根因告警再进行人工派单。
具备环路自动识别能力后,系统根据资源信息自动识别出传输环路,进而生成告警间的关联关系,按根因告警自动压缩派单,并自动定位故障点。
以XX/YY设备离线为例,在实施前,通过人工定位环路情况,手工派发1张传送故障工单,且无线自动派发11张故障工单。
实施后,系统自动判断根因是1环断2点:2020-07-11 21:31:16,XX-ATN950B-CSG和YY-ATN950B-CSG 报设备离线,导致环上8个IPRAN退服,27个基站退服,自动派发1张故障工单。
通过环路自动识别,对故障根因进行分析后,只派出1张故障工单,这不仅压缩了无效工单,减少了维护人员工作量,而且由人工派单人工定位改为自动派单自动定位,大大提升了故障处理效率。
同时,实现环路自动识别也是后续实现拓扑还原(故障工单中包含除传送网外还有无线、动环、数据等专业网络的拓扑信息)、多专业跨域关联分析及故障拓扑可视化(故障工单中呈现拓扑图及端到端路由)等重要功能的前提和基础。
3.2 跨域关联告警能力实施案例
以跨域关联告警为例,方案实施前,传输人工定位故障环路情况,手工派发11张故障工单,并且无动力相关信息。
方案实施后,结合无线、传输、动环3个专业的告警信息,成功诊断某基站机房报动环电源告警,导致5个IPRAN断链,10个基站退服。
通过跨域关联告警能力识别,成功定位根因是由于承载网管系统告警,网元断链信号丢失(LOS),导致汇聚节点及其关联的传输16个IPRAN退服,83个基站退服,最后将320条告警压缩至1张工单。
3.3 故障诊断、压缩故障时长实施案例
以定位诊断、压缩故障时长为例,从多条网管告警判定出根因告警为CPRI接口异常告警,诊断指令逐步排除电源和单板自身问题,最后定位为光模块故障,从而减少人力投入,压缩故障时长。
3.4 故障自愈、减少上站次数案例
通过基于机器学习+专家经验生成故障分析树,系统自动诊断并下发修复指令,实现故障自愈,从而减少上站次数。
2020年11月11日09点52分,某小区出现小区不可用主告警及多条衍生告警,经过系统诊断和复位自愈处理,09点59分告警清除。
4
实施效果
从第3章试点效果案例分析可见,基于AI能力的智能运维创新平台对故障定位、根因分析、故障自愈方面具有显著成效,在提升效率、支撑市场和提升网络能力这3个方面取得了显著成效。
4.1 提升效率
建设智能运维创新能力积极响应了数字化转型要求,提升了网络智能化运营水平,并推动了网络智能化应用工具在网络运营生产中的使用。
该创新平台最早实现功能达标上线,无线基站智能诊断实现从零到全覆盖,覆盖率达100%(超出中国联通集团要求指标15%),故障诊断方式实现从人工到自动,诊断成功率为94%(超出中国联通集团要求指标14%),跨域工单和告警压缩率达到87%,告警准确性为99.5%,故障修复时长下降12%,在行业内处领先地位。
4.2 支撑市场
通过将环路识别、诊断自愈等创新手段应用于单域19类、跨域8类网络生产故障场景,提升一线支撑和一线经验指导水平,取得支撑市场、赋能一线的良好效果,系统功能实用性突出。
4.3 提升网络能力
通过智能运维故障工单压缩,提升工单压缩率,工单量减少15%~20%,年均减少维护成本650万元。
试点可自动定位故障根因,故障诊断成功率已达到94%,减少故障修复时长10~20 min。
结合智能监控和指令平台的运用,实现单域故障自愈,对小区、断站、射频单元告警进行自动愈合,自愈率达到5%,减少上站耗时2 592 h。
整体试点效果如表1所示,故障派单从最基础的自动化—告警—工单模式,通过智能运维平台,实现了智能化—故障—工单模式,具有故障智能定位以及原因分析的能力。
表1 整体试点效果
5
结 论
目前,智能运维系统经过建设完善,一直稳定运行。
年处理告警量达150余万次,覆盖网元达8万余个,涉及资源量达24万条,基站设备54 000余个、传输端口143 000余个、传输拓扑21 000 余条、动力机房30 000多个,涉及算法和关联规则共53条。
后续计划拓展覆盖更多专业域、丰富完善专家经验规则,通过不断迭代优化智能排障和智能监控关联规则,从网络拓扑、时空方面进一步深化告警关联逻辑、压缩工单,逐步达到故障智能诊断和根因定位的全专业覆盖,实现智能化一故障一工单模式,对最终实现故障工单全流程自动闭环管控、网络态势感知自动预测、故障隐患自动发现处理和业务服务等级协议(SLA)端到端可视等网络自智能力,构建网络智慧运营体系有着重要意义。
▍参考文献:
[1] 许力,丁男,高焕博,等. 应用智能运维实践[M]. 北京:电子工业出版社,2021.
[2] 汤滨. 大数据定义智能运维[M]. 北京:机械工业出版社,2019.
[3] 吴东,郭春,申国伟. 一种基于多因素的告警关联方法[J]. 计算机与现代化,2019(6):30-37.
[4] 程教育. 基于机器学习的智能化运维系统研究[J]. 信息与电脑(理论版),2019(4):151-152.
[5] 窦中兆,雷湘. WCDMA系统原理与无线网络优化[M]. 北京:清华大学出版社,2009.
[6] 陈真,王雅志. 基于人工智能的运维系统建设研究与应用[J]. 常州工学院学报,2021,34(3):35-40.
李红霞,高级工程师,硕士,主要从事网络创新及数字化运营相关工作;
杨洁艳,高级工程师,硕士,主要从事网络数字化运营相关工作;
肖琦,高级工程师,学士,主要从事网络监控及智能化运维工作。
本文《基于AI能力的智能运维建设实践》介绍到此结束,感谢阅读。