深度解析 3GPP TR 21.917:18 Standalone Management Features (5G网络的“智能运维大脑”)

本文技术原理深度参考了3GPP TR 21.917 V17.0.1 (2023-01) Release 17规范中,关于“18 Standalone Management Features (独立管理功能)”的核心章节。本章是5G网络从“自动化”迈向“自治化”的“中央处理器”,旨在为读者全面揭示,Rel-17如何通过构建一个集感知、分析、决策、执行于一体的“智能运维大脑”,彻底革新5G网络的管理和运营模式。

1. “救火队长”的终极困境:当5G网络的复杂性超越人类极限

在“滨海智慧新区”的网络运营中心(NOC),总工程师欧阳慧正经历着她职业生涯中最深刻的一次“认知危机”。作为一名顶级的网络优化专家,她过去引以为傲的“救火”能力,在庞大而复杂的5G网络面前,正显得越来越“杯水车薪”。

她的团队,如同城市里最优秀的消防队,总能在告警(火情)发生后,以最快的速度赶到现场,凭借丰富的经验和精湛的技艺“灭火”。但现在,火情变得越来越诡异和频繁:

  • “金融街”的SLA警报:为新区证券交易所定制的“超低时延”网络切片,运营合同上签的是“99.999%的时间,端到端时延低于5ms”。但每周总有那么几次,时延会莫名其妙地“抖动”一下,持续几秒钟,虽然没有造成交易中断,但SLA的告警邮件,已经让欧阳慧的邮箱不堪重负。她知道,这背后一定有“火种”,但她看不见。

  • “大学城”的体验黑洞:数万名学生在宿舍楼内集中使用AR/VR应用,导致网络体验急剧下降。运维团队紧急扩容,但效果甚微。他们无法量化地知道,体验的瓶颈,究竟是无线覆盖不足、核心网处理能力不够,还是App服务器本身的问题。他们如同在浓雾中,对着一个看不见的敌人胡乱开枪。

  • “新基站”的漫长旅程:每当网络需要新增一个NF(网络功能)实例,例如,为了应对演唱会而临时增加一个AMF,从设备的物理上架,到最终配置完成、融入网络提供服务,整个过程需要多个部门、数天时间的协同。这在追求“敏捷”的云原生时代,显得过于笨重。

“我们不能再满足于当一个‘救火队长’了。”欧阳慧在NOC的战略会议上,语气沉重,“我们需要一个‘防火系统’,一个能够预测火情、分析火种、甚至自动灭火的智能系统。我们需要为我们的5G网络,安装一个真正的‘大脑’!”

欧阳慧的呼唤,正是3GPP Rel-17在第18章“独立管理功能”中所要构建的宏伟蓝图。这一章,是5G O&M(运维管理)领域的一次范式革命。它不再是零散的功能点增强,而是系统性地定义了5G“智能运维大脑”的各个核心“脑区”。

2. “大脑”的核心功能区:解构Rel-17的管理新范式

周毅(RAN研发总工)的团队为5G构建了强健的“躯体”(物理层),而欧阳慧的任务,则是为这具躯体注入“灵魂”(管理面)。TR 21.917的第18章,就是这颗“灵魂”的设计图纸。让我们逐一剖析它的核心功能区。

2.1 “承诺守护者”:闭环SLA保障 (18.2 eCOSLA)

“金融街”的SLA警报,是欧阳慧最头疼的问题。她需要的不是事后解释,而是事前预防事中自愈

18.2 Enhanced Closed loop SLS Assurance (eCOSLA)

This Work Item added enhancements to the Closed loop SLS Assurance solution… The enhancements add more advanced monitoring solutions that helps an operator to continuously deliver the expected level of communication service quality when deploying a NetworkSlice or a NetworkSliceSubnet.

【深度解读】

eCOSLA,可以被理解为5G大脑的“小脑”和“自主神经系统”,它负责维持业务的“动态平衡”。其核心是“闭环(Closed Loop)”:

  1. 感知 (Monitoring):系统持续不断地监控着“金融街”切片的端到端时延。

  2. 分析 (Analysis):后台的AI大脑(如NWDAF)在分析历史数据后发现,每当下午2:59(收盘前一分钟),交易量激增,时延都有95%的概率会“抖动”。

  3. 决策 (Decision):基于这个预测,系统自动生成一个策略:“在每天的2:58,预先为该切片增加10%的无线和UPF处理资源。”

  4. 执行 (Execution):在2:58,管理系统自动向RAN和UPF下发了资源调整指令。

A closed control loop automatically adjusts and optimizes the services provided over an NG-RAN and 5GC network based on the various performance management, QoE input data, and the state of the 5G network, using data analytics.

【深度解读】

下午2:59,交易洪峰如期而至,但这一次,时延曲线稳如泰山。eCOSLA,通过“监控-分析-预测-决策-执行”这个永不停歇的闭环,将SLA保障从一种“被动的承诺”,变成了一种“主动的、自我调节的”生命体征。欧阳慧的SLA告警邮箱,终于恢复了平静。

2.2 “用户体验翻译官”:QoE测量管理 (18.3 eQoE)

“大学城”的“体验黑洞”,源于运维团队无法“读懂”用户的真实感受。

18.3 Enhancement of QoE Measurement Collection (eQoE)

This work item specifies Quality of Experience (QoE) measurement collection in UMTS, LTE and 5G networks. It extended eQoE to support NR. It also added Signalling Based Activation (SBA)…

【深度解读】

我们在12.2节已经了解了QoE测量的基本原理。而18.3节,则是从管理面(SA5) 的视角,定义了欧阳慧如何去“发起”和“管理” 这些测量任务。

  • 管理面激活 (Management Based Activation, MBA):欧阳慧现在可以在她的网管系统上,像“画地图”一样,圈出“大学城宿舍区”,然后下发一个任务:“对该区域内所有正在使用‘元境’AR应用的白金用户,进行为期一周的QoE数据收集。”

  • 信令面激活 (Signalling Based Activation, SBA):运维系统可以与核心网联动,实现更动态的触发。例如,“当某个用户的视频业务QoS流发生降级时,自动触发一次QoE测量,并将结果与当时的无线环境数据(MDT)进行关联。”

通过eQoE的管理功能,欧阳慧的团队,终于获得了“用户体验的量化数据”。他们发现,“大学城”的瓶颈,并非覆盖,而是特定几栋楼内,由于用户密度过高导致的上行干扰,使得AR应用所需的稳定上行小包传输受阻。有了这个精准的诊断,他们得以对症下药,通过调整干扰协调参数,而不是盲目扩容,彻底解决了问题。

2.3 “即插即用”的艺术:网络功能的自动部署 (18.4 PACMAN)

“新基站”的漫长旅程,是云原生时代无法容忍的“低效率”。

18.4 Plug and connect support for management of Network Functions (PACMAN)

This work item specifies Plug and Connect support for NFs. It extended Plug and Connect (PnC) to support Service Based Architecture (SBMA). It added support of IPv6, DHCPv6 and Dual stack and extended PnC to be useful for all generations of NEs, e.g., NR and LTE.

【深度解读】

PACMAN,旨在实现网络功能(NF)的“上电即上线”。

  • 传统流程:一个新的AMF实例上架后,需要人工为其配置IP地址、网关、安全证书、OMC(运维中心)地址等海量参数。

  • PACMAN流程

    1. 新的AMF实例上电,它像一台新电脑一样,一无所知。

    2. 它会自动发出一个DHCPv6广播,在网络中寻找“引路人”——PnC服务器。

    3. PnC服务器响应后,会像安装操作系统一样,自动地为这个新的AMF,下发所有必要的初始配置信息。

    4. AMF获取配置后,再自动地向NRF(NF仓库功能)进行注册,正式“宣告”自己的存在,开始对外提供服务。

PACMAN将数天的人工操作,压缩到了几分钟的自动化流程,为5G网络的敏捷部署和弹性伸缩,提供了基础。

2.4 “数字孪生”的基石:管理、发现与意图 (18.5 ~ 18.15)

剩余的章节,共同构筑了5G“智能运维大脑”的“数据基座”和“认知模型”。

  • 18.5 (e_5GMDT), 18.6 (MANS), 18.14 (MADCOL):这些章节都在强化“大脑”的“数据感知”能力

    • e_5GMDT:增强了在RAN split(CU/DU分离)、MR-DC(多无线双连接)等复杂架构下的MDT数据收集。

    • MANS:定义了在网络共享(MOCN) 场景下,如何区分和管理来自不同运营商的数据。

    • MADCOL:引入了更智能的数据收集方式,运维人员可以不再是“全量订阅”,而是可以提出更“语义化”的请求,例如:“请收集‘滨海大道’上,所有属于‘车联网’切片的、用户面上行时延超过20ms的数据。”

  • 18.7 (5GDMS), 18.11 (adNRM), 18.10 (NSA support):这些章节在构建“大脑”的“世界模型”。

    • 5GDMS & adNRMNRM(网络资源模型) 是整个网络在管理面的“数字孪生”。adNRM不断地为这个“数字模型”增加新的细节(如EASDF、NSACF等新网元)。而5GDMS(管理服务发现) 则定义了,在这个庞大的数字世界里,一个管理应用(如eCOSLA),如何能发现调用另一个管理服务(如eQoE)。

    • NSA support in SBMA:解决了“历史遗留问题”,确保了这套先进的、基于服务的管理架构(SBMA),也能够兼容和管理老旧的NSA部署场景。

  • 18.8 (Tenant Concept) & 18.9 (Intent driven management):这是“大脑”对外交互的“高级用户界面”。

    • Tenant Concept(租户概念):为“金融街”的券商这样的企业客户(租户),提供一个专属的“驾驶舱”。他们可以在这个门户上,实时看到自己所购买的切片的性能数据、告警信息,甚至在一定权限内,进行策略的自定义。这让网络切片,从一个运营商的“产品”,变成了企业客户可以“参与管理”的服务。

    • Intent Driven Management(意图驱动管理):这是通往ANL L5的终极形态。

      An intent driven system will be able to learn the behaviour of networks and services and allows a customer to provide the desired state as intent (an intent specifies the expectations including requirements, goals and constraints…), without detailed knowledge of how to get to the desired state.

      【深度解读】 欧阳慧不再需要关心具体的参数和策略。她只需要向系统下达一个高层级的“意图”:“在马拉松比赛期间,保障赛道沿线所有‘媒体直播’切片用户的上行速率不低于50Mbps”。而“智能运维大脑”则会自主地将这个“意图”,分解为一系列的资源调度、参数调整、负载均衡等具体操作,并持续地自我优化以达成这个目标。

5. 总结:O&M的终结,A&O的开端

TR 21.917的第18章,如同一部宏大的史诗,描绘了5G网络管理从“人工运维(O&M)”走向“自治运营(A&O, Autonomous Operations)”的完整进化路径。

欧阳慧,这位经验丰富的“救火队长”,也在这场变革中,完成了自身的“升维”。她的角色,不再是那个盯着告警、修改参数的工程师,而是这个强大“智能运维大脑”的训练师、监督者和意图定义者

  • eCOSLAeQoE,为大脑提供了“闭环控制”和“共情理解”的能力。

  • PACMANFIMA,为大脑提供了“强健的四肢”,实现了敏捷的部署和高效的数据交换。

  • MDT/MANS/MADCOL,为大脑提供了“敏锐的五官”,构建了全方位的数据感知网络。

  • NRM/5GDMS/SBMA,为大脑构建了“神经网络”和“世界观”,使其内部能够协同工作。

  • Tenant ConceptIntent Driven Management,则为大脑提供了与人类“对话”的、更高级的语言。

Rel-17的这一系列管理增强,共同吹响了网络运维领域一场深刻革命的号角。它要解放的,是成千上万像欧阳慧一样的网络工程师,让他们从繁琐、重复、被动的“救火”工作中解脱出来,去从事更具创造性的、定义未来网络“智慧”的工作。


FAQ

Q1:什么是闭环SLA保障(eCOSLA)?它和传统的告警监控有什么不同?

A1:传统的告警监控是“被动响应”:SLA指标恶化 产生告警 人工分析处理。而eCOSLA是“主动保障”和“自动闭环”:它会持续监控SLA指标,利用AI预测未来的趋势,在指标即将恶化之前,就自动地做出决策并执行网络调整(如扩容、重路由),从而预防告警的发生。它是一个“监控-分析-决策-执行”的自动化闭环系统。

Q2:意图驱动管理(Intent Driven Management)听起来很科幻,它离我们有多远?

A2:它代表了网络自治的终极目标(ANL L5),但其基础已经开始落地。Rel-17定义了意图驱动管理的框架、信息模型和API。在初期,它可能只应用于一些相对简单的场景,例如,运维人员下达一个“节能优先”的意图,网络会自动调整小区的休眠策略。要实现更复杂的、跨域的意图(如“保障VIP用户的端到端游戏体验”),还需要在AI模型、数据协同、跨域编排等方面进行更深入的研究,这将是Rel-18及以后版本持续演进的核心方向。

Q3:租户(Tenant)概念对我们企业客户有什么实际好处?

A3:有巨大的商业价值。它让网络切片不再是一个对企业客户不透明的“黑盒”。通过“租户门户”,企业客户可以:1)实时可视:看到自己所购买的切片的实时性能(时延、带宽、用户数等),如同拥有一个专属的“网络仪表盘”。2)自助服务:在运营商授权的范围内,进行一定程度的自主管理,例如,临时提升某个应用的QoS,或者为新加入的员工开通切片访问权限。这大大提升了企业客户的掌控感和业务敏捷性。

Q4:5G网络的管理服务发现(5GDMS)和核心网的服务发现(NRF)有什么区别?

A4:两者都是服务发现,但服务的“领域”不同。NRF(网络功能仓库功能)5G核心网控制面的服务发现中心,它帮助一个NF(如SMF)去发现另一个NF(如PCF)。它服务的是“网络业务”。而5GDMS(管理服务发现) 则是5G管理面的服务发现中心,它帮助一个管理功能(MnS consumer,如SLA保障应用)去发现另一个管理服务(MnS producer,如性能数据采集服务)。它服务的是“网络运维”。

Q5:有了这些强大的管理功能,未来还需要网络运维工程师吗?

A5:需要,但角色将发生根本性转变。未来的网络运维工程师,将不再是那个深夜里被告警电话叫醒,去敲命令行的“救火队员”。他们的工作将“升维”为:1)数据科学家:分析海量数据,训练和优化驱动“大脑”运行的AI模型。2)意图架构师:将复杂的商业需求,翻译成网络能够理解和执行的“意图”。3)流程编排师:设计和优化各种自动化、闭环的运维策略和工作流。4)系统监督者:作为最终的专家,处理AI无法解决的疑难杂症,并监督整个自治系统的健康运行。