深度解析 3GPP TR 21.916:21.1.4~8 高级管理特性 (OAM架构与SLS保障)
本文将基于3GPP TR 21.916 V16.2.0 (2022-06) Release 16规范,合并解读第21.1.4至21.1.8节中关于5G高级管理架构的核心内容。我们将深入剖析5G网络管理系统如何进行了一次深刻的“自我革命”,从一个僵化的、面向网元的“烟囱式”架构,演进为一个开放、智能、面向服务的“平台化”新体系,从而为实现“自动驾驶网络”的终极愿景奠定坚实的基石。
引言:从“修车工”到“车队设计师”,5G运维的“升维”之路
在之前的章节中,我们已经见证了5G OAM(运营、管理与维护)系统如何通过心跳机制、能效管理、融合网络监控等“术”层面的增强,获得了更强的“感知”能力。然而,要真正驾驭5G这座日益庞大和复杂的“超级城市”,仅仅拥有灵敏的“传感器”是远远不够的,更需要一次**“城市规划”理念(即管理架构)**的根本性变革。
为了身临其境地感受这场“架构革命”,让我们再次请回我们的老朋友——首席网络架构师克拉拉(Clara)。她所在的运营商“FutureNet”,正在全力推进其下一代“自动驾驶网络(Autonomous Network, AN)”的宏伟计划。克拉拉深知,传统的OAM系统,如同一个个独立的“修车铺子”,每个“师傅”(网管系统)都只懂自己那一亩三分地(如无线网管、核心网管、传输网管),他们使用着不同的“工具”(私有接口、命令行),讲着不同的“行话”(异构模型)。这种“烟囱林立”的模式,在面对5G端到端的、跨域的网络切片业务时,显得笨拙、低效且昂贵。
克拉拉需要的,不再是一堆“修车铺子”,而是一个能够统一规划、设计、部署和运营整个“智慧车队”(5G网络即服务)的**“中央设计与调度平台”**。这个平台必须具备三大核心特征:
-
统一的“蓝图语言” (Methodology & NRM): 无论是设计一辆“赛车”(URLLC切片)还是一辆“公交车”(eMBB切片),都必须使用标准化的建模语言。
-
自动化的“流水线” (Closed loop SLS Assurance): “车辆”一旦投入运营,平台必须能够自动监控其“运营指标”(SLS),并在出现性能偏差时,自动进行调整和修复。
-
开放的“生态接口” (SBMA & Streaming): 平台的监控数据和管理能力,需要能够以现代化的、流式的方式,开放给第三方“合作伙伴”(如AI分析平台、企业客户),共同创造价值。
克拉拉的这份“平台化”愿景,正是Rel-16在21.1.4至21.1.8这几个章节中所要构建的蓝图。我们将跟随她的视角,深入探索5G OAM架构的“升维”之路。
1. 统一的“蓝图语言”:方法论与模型 (21.1.4 & 21.1.8)
要构建一个统一的管理平台,首先需要统一“语言”。Rel-16为此从两个层面进行了标准化。
21.1.4 Methodology for 5G management specifications (方法论)
This work item documents the methodology used to document the various specification artefacts, such as requirements and solutions, of the network management services… The methodologies include template(s) and network resource model repertoire.
这个看似枯燥的“方法论”章节,其意义却如同为建筑行业制定了统一的“建筑规范”和“图纸标准”。它规定了所有5G管理服务的解决方案,都必须遵循统一的**模板(template)来描述,并且所有被管理的网络资源,都必须在统一的网络资源模型库(NRM repertoire)**中有据可查。
克拉拉的视角:
这解决了她最大的烦恼——“厂商方言”。以前,A厂商的基站模型叫gNodeBFunction,B厂商可能叫NR_BTS。现在,所有厂商都必须遵循3GPP定义的统一NRM(网络资源模型)。这意味着,克拉拉的自动化编排平台,可以用同一种语言、同一种数据模型,去理解和配置来自不同厂商的设备,真正实现了“书同文、车同轨”,这是实现跨厂商自动化管理的前提。
21.1.8 Network Resource Model (NRM) enhancement (NRM增强)
This Work Item extends the 5G Network Resource Model to support the Service-Based Architecture (SBA) of 5G Core (5GC) and several new features of NG Radio Access Network (NG-RAN)…
在统一了“语言”之后,Rel-16进一步丰富了这门语言的“词汇表”,以使其能够描述5G所有的新功能。
-
支持SBA:
In the Rel-16 NRM, ManagedNFService InformationObjectClass (IOC) is introduced to represent a Network Function (NF) Service…
NRM现在可以**精细到对核心网的每一个“微服务”(ManagedNFService)**进行建模和管理。克拉拉不仅可以管理一个AMF“进程”,更可以独立地管理AMF所提供的“接入服务”、“移动性服务”等。
-
支持RAN新特性: NRM新增了对远程干扰管理(RIM)、QoS监控、共享无线资源(RAN Slicing)等Rel-16新功能的模型,使得这些新功能从诞生之初,就具备了“可管理、可配置”的基因。
-
拥抱模型驱动与SBMA:
To align with the Service Based Management Architecture (SBMA)… configurable Performance Management (PM), Fault Management (FM), TM (Trace Management), etc., are introduced to fully support a model driven approach.
NRM的设计全面转向模型驱动,并与**SBMA(基于服务的管理架构)**对齐。这意味着,所有管理操作(如性能监控、告警订阅),都变成了对“模型”的操作,而不是对设备的直接命令,实现了管理意图与设备实现的解耦。
2. 自动化的“流水线”:闭环SLS保障 (21.1.5)
有了统一的“蓝图”,克拉拉现在可以开始构建她的自动化“流水线”了。其核心目标,是实现**网络切片服务等级保障(SLS Assurance)**的闭环自动化。
This work item specifies a closed loop assurance solution that helps an operator to continuously deliver the expected level of communication service quality. The closed loop assurance solution allows an operator to create a closed loop management service that automatically adjusts and optimizes the services provided by NG-RAN and 5GC based on the various performance management and QoE input data…
2.1 闭环的核心理念:“感知-分析-决策-执行” (OODA Loop)
闭环SLS保障,本质上是在OAM系统中,实现一个快速循环的“OODA”决策环:
-
感知 (Observe):
describe important data and enable efficient data collection… from NG-RAN and 5GC (includes NWDAF information)…
自动化平台持续地、近乎实时地从RAN和5GC采集海量的性能数据(PM)、用户体验数据(QoE)以及来自NWDAF的“智能分析”数据。
-
分析 (Orient):
placement and role of management analytics functions in the OAM framework.
平台内置的管理分析功能(Management Analytics Functions),会对采集到的数据进行实时分析,判断当前切片的“健康度”是否偏离了其承诺的SLS目标(例如,URLLC切片的时延超过了5ms)。
-
决策 (Decide):
key management control loops in SLS assurance, key entities in the loops (e.g. MDAS)
一旦发现偏差,决策引擎(如MDAS - Management Data Analytics Service)会根据预设的策略,快速生成一个或多个调整“处方”,例如“调整切片资源占比”、“修改QoS调度权重”、“为特定用户切换波束”等。
-
执行 (Act):
describe coordination and management of the management functions involved in SLS assurance loops.
决策结果会自动地转化为对NRM模型的修改请求,通过编排器(Orchestrator),下发给网络中的RAN和5GC执行。
2.2 场景解读:克拉拉的“自动驾驶”切片
克拉拉为一家自动驾驶汽车公司,提供了一个保证端到端时延<10ms的URLLC切片。
-
感知: 闭环监控系统发现,在下午5点的高峰期,该切片在城市A区域的平均时延,开始攀升到了12ms。
-
分析: 分析引擎发现,原因是该区域内eMBB用户流量激增,抢占了部分无线资源,导致URLLC切片的调度等待时延增加。
-
决策: 决策引擎立即生成策略:“将A区域URLLC切片的无线资源预留比例(RMP),从20%提升到30%”。
-
执行: 该策略被自动下发给A区域的gNB。gNB调整其调度器,为URLLC切片分配了更多的资源。几秒钟后,监控系统显示,该切片的时延重新回落到了8ms。
整个过程,完全无需人工干预。这正是“自动驾驶网络”的雏形。
3. 开放的“生态接口”:SBMA与流式报告 (21.1.6)
克拉拉的自动化平台,不仅要“对内”实现闭环,更需要“对外”实现开放,与更广阔的IT和AI生态进行数据与能力的交互。Rel-16为此引入了两大关键技术。
21.1.6 Trace Management in the context of SBMA and Streaming Trace reporting (SBMA与流式Trace)
传统的Trace(信令跟踪)功能,如同飞机的“黑匣子”,数据被采集后,以文件的形式离线存储在网元上,需要运维人员手动去拉取和分析,时效性极差。
The combination of the 3GPP Rel-16 Trace features… transformed the legacy, partially outdated trace functionality into a modern flexible and powerful toolset… The new Streaming data reporting MnS has been fully specified in TS 28.532… it includes a RESTful HTTP based solution set for streaming connection establishment… and an efficient protocol stack for high volume/high speed streaming data reporting based on WebSockets.
Rel-16对Trace进行了革命性的改造:
-
与SBMA融合: Trace的激活和管理,不再通过老旧的私有接口,而是完全融入了SBMA。克拉拉的平台,可以通过标准的、基于服务的接口,去创建一个“Trace任务”的管理对象(MOI),就像在云平台上创建一个虚拟机一样简单。
-
引入流式报告 (Streaming): 最核心的变革是,Trace数据不再是“死”的文件,而是可以像视频流一样,通过WebSocket协议,实时地从网络设备上“流”向任何一个经过授权的订阅者。
克拉拉的视角:
克拉拉现在可以为她的AI故障分析平台,订阅一个实时的、针对全网切换失败信令的“Trace流”。每当网络中发生一次切换失败,相关的详细信令就会在毫秒内被推送到AI平台。AI平台可以立即对这些“新鲜”的数据进行关联分析,在故障发生后的几秒钟内,就定位出根源,并自动生成修复建议。这实现了从“T+1”的离线分析,到“T+0”的实时诊断的飞跃。
21.1.7 Management of QoE measurement collection (QoE测量的管理)
这项技术将OAM的触角,从网络侧的KPI,延伸到了终端侧的用户体验(QoE)。
This work item specifies the function Management of QoE measurement collection for a specified area in UMTS and LTE. An operator or an automated management function can request that DASH or MTSI measurements are collected… and send them to a specified collection entity…
OAM系统现在可以主动地发起“QoE测量任务”,指令特定区域内、支持该功能的UE,上报其DASH(流媒体)或MTSI(音视频通话)应用的真实体验指标,如视频卡顿率、初始缓冲时延、MOS分等。
克拉拉的视角:
克拉拉终于有办法直接量化“用户体验”了。她可以发起一个任务:“收集今晚8点到10点,在市中心体育场区域,所有正在观看世界杯直播的用户的视频卡顿率”。这些来自成千上万个终端的“第一手”体验数据,与网络侧的KPI数据相结合,将为她的闭环优化系统,提供最真实、最精准的“感知”输入。
总结
通过对21.1.4至21.1.8节的合并解读,我们见证了5G OAM系统如何完成了一次深刻的“自我进化”。它不再满足于做一个被动的“监控器”和“配置工具”,而是正在演变为一个平台化、自动化、智能化的“网络大脑中枢”。
-
通过统一的方法论和NRM,它为跨厂商、跨域的自动化,构建了坚实的“语言基础”。
-
通过闭环SLS保障,它将“感知-分析-决策-执行”的智能循环,内建为网络的核心能力,吹响了“自动驾驶网络”的号角。
-
通过SBMA的全面拥抱和流式报告的引入,它打破了传统OAM的封闭壁垒,以开放、现代的姿态,融入了更广阔的IT和AI生态。
对于克拉拉而言,Rel-16的这些高级管理特性,为她提供了设计和运营下一代“零接触、零等待、零故障”网络的“方法论”与“工具箱”。这场从“运维”到“运“营”再到“运“慧”的升维之路,虽然“藏”在幕后,却深刻地决定着5G这座“超级城市”的未来发展高度与运行效率。
FAQ环节
Q1:SBMA(基于服务的管理架构)和SBA(基于服务的核心网架构)有什么关系?
A1:它们是同一设计哲学在不同领域的应用。SBA是5G核心网运行面(Runtime)的架构,它将AMF、SMF等网络功能,解耦为一个个相互调用的“微服务”。而SBMA是5G**管理面(Management)**的架构,它将性能管理(PM)、故障管理(FM)、配置管理(CM)等OAM功能,也解耦为一个个符合SBA原则的、可被外部系统(如OSS、BSS)调用的“管理微服务”。两者共同构成了5G端到端“全面服务化”的理念。
Q2:闭环SLS保障和之前介绍的NWDAF有什么区别?
A2:它们是“大脑”与“神经反射弧”的关系。NWDAF是5G核心网内生的“分析大脑”,它负责从网络运行时数据中,产生智能洞察和预测。而闭环SLS保障,则是OAM系统中构建的一个完整的“决策与执行闭环”。这个闭环可以消费NWDAF产生的分析结果作为其“感知”输入之一,然后做出更高阶的、跨域的、面向商业意图的管理决策,并最终执行。NWDAF提供了“是什么”和“将会怎样”,而SLS闭环则决定了“应该怎么办”。
Q3:流式Trace(Streaming Trace)相比传统的文件式Trace,最大的优势是什么?
A3:最大的优势是实时性。传统文件式Trace,数据从产生到可被分析,中间有分钟级甚至小时级的延迟,只能用于事后排障。而流式Trace通过WebSocket等技术,将延迟缩短到了毫秒级。这意味着,运维人员或AI平台,可以像看“现场直播”一样,实时地监控网络中发生的每一个信令事件,从而实现故障的实时诊断、性能瓶颈的即时发现、以及安全异常的瞬时响应。
Q4:为什么OAM要关心QoE(用户体验质量)?监控网络自身的KPI(如带宽、时延)不够吗?
A4:不够。网络KPI(服务质量QoS)和用户QoE之间,存在着一道复杂的、非线性的“鸿沟”。例如,即使网络KPI显示带宽和时延都达标,但用户的视频依然可能因为播放器缓存策略不当、内容服务器响应慢等原因而卡顿。通过直接采集终端上的QoE数据,运营商可以打通这“最后一公里”,获得对用户真实体验的端到端视图,从而更精准地判断问题根源——究竟是“路”(网络)的问题,还是“车”或“货”(终端或应用)的问题。
Q5:这些高级OAM特性,最终会完全取代像小王这样的运维工程师吗?
A5:不会完全取代,但会深刻地重塑他们的角色。未来的运维工程师,将从繁琐的、重复性的“告警处理”、“手工配置”等“蓝领”工作中解放出来。他们的角色,将更多地转变为**“AI训练师”(负责优化和训练自动化策略)、“数据科学家”(负责从海量数据中挖掘新的洞察)和“服务架构师”**(负责设计和编排新的网络服务)。他们将从“修车工”,真正升级为“车队的设计师和运营策略师”。