深度解析 3GPP TR 21.917:9.4 自组织/自治网络 (为5G网络注入“自我进化”的灵魂)

本文技术原理深度参考了3GPP TR 21.917 V17.0.1 (2023-01) Release 17规范中,关于“9.4 Self-Organizing (SON)/Autonomous Network (自组织/自治网络)”的核心章节。本章是5G网络迈向“智能化”和“自动化”的纲领性文件,旨在为读者揭示Rel-17如何通过定义自治等级、增强数据感知、强化分析大脑,为5G网络构建一个能够自我感知、自我诊断、自我优化甚至自我进化的“生命体”。

1. O&M总工的“不眠之夜”:当“老师傅”的经验遇上5G的复杂性

欧阳慧,是“滨海智慧新区”移动网络运营维护中心(NOC)的总工程师。她是一位在通信行业奋斗了二十年的“老兵”,亲手优化过2G、3G、4G的每一张网络。在她的经验里,网络优化是一门“手艺活”:带着路测设备(Drive Test)去“扫街”,分析密密麻麻的信令log,像一位老中医一样,“望、闻、问、切”,凭借丰富的经验和直觉,手动调整几百上千个小区参数。

然而,随着智慧新区5G网络的全面铺开,欧阳慧和她的“老师傅”团队,第一次感到了力不从心。告警工单如雪片般飞来:

  • “幽灵故障”:新开通的地铁17号线,总有用户投诉在“智慧港”站出站的瞬间,视频通话会卡顿或中断,但工程师到现场复测时,信号却总是满格。

  • “潮汐难题”:嘉年华期间,主会场周边的基站一到晚上就拥塞告警,而几百米外的办公区基站却门可罗雀,流量的“潮汐效应”让传统的负载均衡策略捉襟见肘。

  • “电费黑洞”:财务部门发来警告,5G基站的电费开支远超预期,尤其是在夜间业务低谷时段,大量的Massive MIMO设备依然在“空转”,耗电惊人。

“5G的复杂性,已经超出了人类经验的极限。”欧-阳慧在NOC的作战室里,对着巨大的网络拓扑图喃喃自语,“上万个小区、数百万个参数、动态变化的切片、EN-DC双连接… 我们不能再用‘手工作坊’的方式,去维护这座‘超大型城市’了。我们需要网络拥有自己的‘大脑’,学会‘自我进化’。”

她的这番话,精准地概括了5G O&M的根本性变革。而3GPP Rel-17的第9.4章,正是为欧阳慧的困境,提供的系统性解决方案。它不再是过去SON(自组织网络)的小修小补,而是第一次将自治网络(Autonomous Network) 的宏伟蓝图,分解为了可执行的“三步走”战略:明确目标(9.4.2)、强化感知(9.4.1)、升级大脑(9.4.3)

2. 目标:通往“L5无人驾驶网络”的阶梯 (9.4.2 Autonomous network levels)

在启动“智能网络优化”专项行动前,欧阳慧首先向团队展示了一张表格,她称之为“通往网络自治的进化阶梯”。这张阶梯,正是源自于9.4.2节的核心——ANL(Autonomous Network Level,自治网络等级) 框架。

Autonomous network is a telecommunication system (including management system and network) with autonomy capabilities which is able to be governed by itself, with minimal to no human intervention. ANL is used to describe the level of autonomy capabilities in the autonomous network. A framework approach for evaluating ANL is as follows:

【深度解读】

这段话为“自治网络”下了定义:一个具备自治能力、能够自我治理、仅需极少甚至无需人工干预的电信系统。而ANL,就是衡量这种“自治能力”成熟度的“等级标准”,如同自动驾驶的L1-L5。

现在,让我们一同审视这张由欧阳慧根据规范绘制在白板上的、至关重要的ANL等级表:

| Autonomous network level | Task categories
Execution | Awareness | Analysis | Decision | Intent handling |

| :--- | :--- | :--- | :--- | :--- | :--- |

| L0 Manual operating network | Human | Human | Human | Human | Human |

| L1 Assisted operating network | Human & Telecom system | Human & Telecom system | Human | Human | Human |

| L2 Preliminary autonomous network | Telecom system | Human & Telecom system | Human & Telecom system | Human | Human |

| L3 Intermediate autonomous network | Telecom system | Telecom system | Human & Telecom system | Human & Telecom system | Human |

| L4 Advanced autonomous network | Telecom system | Telecom system | Telecom system | Telecom system | Human & Telecom system |

| L5 Full autonomous network | Telecom system | Telecom system | Telecom system | Telecom system | Telecom system |

【场景化解读ANL】

欧阳慧指着这张表,向团队描绘了网络优化的“过去、现在与未来”:

  • L0 (人工驾驶):这就是十几年前的她。开着路测车,用笔记本记录数据,回到办公室,花几天时间分析,然后手动下发一条参数修改指令。所有环节都是人

  • L1 (辅助驾驶):网络开始提供一些基础的告警和性能报表(Awareness by Telecom system),工程师可以基于这些报表进行分析和操作(Execution by Human)。系统提供了“仪表盘”,但“方向盘”和“油门”还完全在人手里。

  • L2 (部分自动驾驶):网络能够自动执行(Execution by Telecom system)工程师的指令,例如,批量下发参数。同时,系统开始提供一些初步的根因分析建议(Analysis by Human & Telecom system)。“方向盘”还在人手里,但有了“定速巡航”。

  • L3 (有条件的自动驾驶)这是我们当前的目标! 系统能够基于数据自动分析提出决策建议Decision by Human & Telecom system),例如:“根据MDT数据分析,建议将地铁口A小区的切换门限降低3dB”。欧阳慧作为专家,只需要审核这个建议,然后点击“批准”。系统接管了“方向盘”,但人类驾驶员必须时刻监控。

  • L4 (高度自动驾驶):系统能够自动做出决策并执行Decision by Telecom system),但在遇到非常规问题或策略冲突时,会请求人类介入。系统在“高速公路”上可以完全自动驾驶,但在复杂的“城市道路”还需要人类监督。

  • L5 (完全自动驾驶):网络的“终极形态”。人类只需要向系统下达一个意图(Intent),例如:“保障滨海马拉松赛道全程VIP用户500Mbps体验速率”。网络会自主地完成所有的分析、决策、资源调度和参数优化,并持续地自我调整以维持这个意图的达成。

ANL框架的提出,其意义是革命性的。它第一次为网络自动化的发展,提供了一个业界公认的、清晰的、可衡量的演进路径。欧阳慧的团队,也因此有了明确的奋斗目标:用Rel-17的技术,让滨海新区的网络,率先达到L3自治水平!

3. 感知:为“大脑”提供“五感”——数据收集增强 (9.4.1)

要实现L3自治,网络“大脑”首先需要拥有敏锐的“感官”,能够全面、精准地感知网络中发生的一切。9.4.1节“Enhancement of data collection for SON/MDT in NR and EN-DC”,正是为这个“大脑”安装“超级传感器”的工程。

This work item introduces enhancement of SON and MDT features support in NR standalone and MR-DC, including CCO, inter-system inter-RAT energy saving, inter-system load balancing, 2-step RACH optimization, mobility enhancement optimization, PCI selection, energy efficiency (OAM requirements), Successful Handovers Reports, UE history information in EN-DC…

【深度解读】

这段话列出了一系列新增或增强的“数据源”。让我们看看它们是如何帮助欧阳慧解决她的难题的。

3.1 解决“幽灵故障”:从“失败学”到“成功学”的转变

地铁口的“幽灵”掉话问题,困扰了团队很久。传统的MRO(移动性鲁棒性优化)只会记录失败的切换,但工程师无法知道,一次“完美的切换”应该是什么样的。

Successful Handovers Reports

Successful Handovers Reports is reported by the UE to detect failure events happened during successful handovers.

【深度解读】

这个看似矛盾的描述,背后是一个深刻的逻辑转变。Rel-17引入的“成功切换报告”,要求UE在每一次成功切换后,都上报一份详细的“体检报告”,内容包括:

  • 触发切换前,源小区的信号质量。

  • 切换过程中,目标小区的信号质量。

  • 切换完成后,新小区的信号质量。

当成千上万份这样的“成功案例”被收集起来后,AI“大脑”(NWDAF)就可以通过机器学习,描绘出一幅清晰的“成功画像”:“在地铁口这个场景,当源小区RSRP低于-105dBm,且目标小区RSRP高于-98dBm时,切换成功率最高。”

现在,当一个用户的切换失败时,系统就可以通过对比失败案例与“成功画像”的差异,快速定位根因:“哦,这次切换失败,是因为源小区RSRP掉到了-115dBm才触发,太晚了!” 从而精准地提出优化建议。这是一种从“失败学”(只看坏案例)到“成功学”(学习好案例)的认知飞跃。

3.2 解决“电费黑洞”:会呼吸的“节能网络”

Inter-system inter-RAT energy saving

The solution builds upon the possibility for the NG-RAN node owning a capacity booster cell to autonomously decide to switch-off such cell to dormant state. The decision is typically based on cell load information…

【深度解读】

这是为解决“电费黑洞”而设计的。在智慧新区,网络通常采用4G/5G双层网部署:4G(如1.8GHz)作为基础覆盖层,5G(如3.5GHz Massive MIMO)作为容量和体验层(Capacity booster cell)。

Rel-17增强的节能机制,允许5G容量小站在夜间业务量极低时,可以自主地进入“深度睡眠”(dormant state),只保留4G网络提供基础的语音和低速数据服务。当系统监测到有用户进入该区域,或业务量开始回升时,再快速“唤醒”5G小站。这种“会呼吸”的网络,极大地降低了网络的闲时功耗。

3.3 其他“感官”

  • NR CCO (Coverage and Capacity Optimization):解决了新住宅区的覆盖空洞问题。它允许基站根据收集到的UE测量报告,自主地在几套预配置的无线参数模板(如不同的天线权值、发射功率)之间进行切换,动态优化覆盖。

  • Inter-system load balancing:解决了“潮汐难题”。它增强了4G与5G网络之间的负载信息交互,使得网络可以更智能地将用户从拥塞的5G小区,引导到相对空闲的4G小区,实现跨系统、跨频段的负载均衡。

通过9.4.1的这些增强,网络拥有了前所未有的“自我感知”能力。它不再是一个“盲人”,而是拥有了能够洞察覆盖、负载、移动性、能耗等全方位信息的“千里眼”和“顺风耳”。

4. 大脑升级:NWDAF的进化——从“统计员”到“AI分析师” (9.4.3)

有了丰富的“感官”数据,就需要一个强大的“大脑”来进行分析和决策。这个大脑,就是5G核心网的NWDAF(网络数据分析功能)。9.4.3节“Enhancements of Self-Organizing Networks (SON)”的核心,正是对这个大脑的“智能升级”。

In addition to NWDAF related work initiated in Rel-15 and Rel-16, this WI (eNA_Ph2) further specify framework enhancements and define extensions to existing Nnwdaf service for supporting network automation.

Logical function decomposition of NWDAF (Model Training logical function, Analytics logical function)

【深度解读】

Rel-17对NWDAF最革命性的增强,是将其逻辑上分解为了两个功能实体:

  • MTLF (Model Training Logical Function)模型训练逻辑功能。可以把它想象成一个离线的“AI训练师”。它的任务,是收集海量的历史数据(来自9.4.1的所有“感官”信息),利用这些数据,训练出各种机器学习(ML)模型。例如,训练出一个“切换成功率预测模型”,或者一个“小区负荷预测模型”。

  • AnLF (Analytics Logical Function)分析逻辑功能。可以把它想象成一个在线的“实时分析师”。它的任务,是加载MTLF训练好的模型,并利用这些模型,对实时的网络数据流进行分析、推理和预测。例如,它会实时地分析某个UE的测量报告,输入到“切换成功率预测模型”中,得出“该UE在3秒后掉话的概率为98%”这样的洞察(Analytics)

规范中的“Figure 1 Trained ML Model Provisioning architecture”清晰地展示了MTLF训练模型,并将其“部署(Provisioning)”给AnLF使用的流程。

  • Increasing efficiency of data collection;
  • Trained data model sharing between multiple NWDAF instances…
  • UE data as an input for analytics generation (via AF);
  • User consent for UE data collection/analysis;

【深度解读】

除了逻辑分解,Rel-17还为NWDAF带来了其他重要“超能力”:

  • 模型共享:允许在不同区域的NWDAF实例之间,共享和复用训练好的ML模型。

  • 引入UE数据:这是一个巨大的突破。在获得用户同意(User Consent) 的前提下,网络可以通过AF(应用功能,如手机App的后台),获取到应用层的体验数据(如视频卡顿率、游戏时延)。这将网络优化的维度,从“无线信号好不好”,第一次提升到了“用户体验好不好”的全新高度。

通过这些增强,NWDAF不再是Rel-16里那个只能做简单统计分析的“统计员”,而是进化成了一个具备模型训练和实时推理能力的、真正的“AI分析师”。

5. 闭环:当“感官”遇上“大脑”,自治网络开始运转

现在,让我们回到地铁口的“幽灵故障”场景,看看欧阳慧的L3自治网络是如何自动解决这个问题的。

  1. 感知 (9.4.1):网络通过“成功切换报告”和MDT(最小化路测),收集了数千次在该站点的成功与失败切换数据。

  2. 训练 (9.4.3 MTLF):离线的MTLF“学习”了这些数据,训练出了一个高精度的“地铁口切换优化模型”。

  3. 分析 (9.4.3 AnLF):在线的AnLF加载了该模型。当又一列地铁进站时,AnLF实时分析车上用户的测量报告,模型预测出“按照当前参数,将有15%的用户在出站瞬间切换失败”。

  4. 决策 (9.4.2 L3):AnLF生成了一个分析洞察并上报给管理系统。管理系统根据预设的“意图”(保障地铁口切换成功率>99%),自动生成了一个决策建议:“将小区XYZ的timeToTrigger参数从320ms调整为160ms”。

  5. 执行 (9.4.2 L3):这条建议,推送到了欧阳慧的审批界面上。她审阅了系统给出的分析依据,确认无误后,点击了“执行”。

一个困扰团队数周的“幽灵故障”,就在这个“感知-分析-决策-执行”的自动化闭环中,被精准、高效地解决了。

6. 总结:SON/AN,5G网络演进的必然归宿

TR 21.917的第9.4章,为我们系统地描绘了5G网络从“手动”走向“自动”,再从“自动”走向“自治”的宏伟蓝图。它不再是零散的SON功能点的堆砌,而是第一次从目标、感知、大脑三个维度,构建了一套完整的、面向AI-Native的自治网络理论框架。

  • ANL(9.4.2),为这场伟大的“自我进化”之旅,树立了清晰的里程碑

  • 数据收集增强(9.4.1),为这具即将拥有智慧的“躯体”,安装了敏锐的五官和神经

  • NWDAF增强(9.4.3),则为这具躯体,注入了能够学习和思考的“灵魂”

对于欧阳慧和全球所有的网络运维工程师来说,这既是挑战,更是解放。他们的角色,将从一个“救火队员”和“参数调优师”,逐步转变为一个定义“意图”的“网络架构师”和训练“AI大脑”的“数据科学家”。而5G网络本身,也终将进化成一个有感知、会思考、能进化的“高级生命体”。


FAQ

Q1:自治网络(Autonomous Network)和我们常说的SON(自组织网络)有什么区别?

A1:SON是自治网络的一个子集和初级阶段。传统的SON更多关注的是网络部署和邻区关系、PCI等参数的局部、单点自动化。而自治网络是一个更宏大的概念,它追求的是端到端的、跨域的、基于AI和大数据分析的、具备闭环能力的全局智能。如果说SON是“自动挡汽车”,那么自治网络的L5终极目标就是“无人驾驶汽车”。

Q2:ANL(自治网络等级)是谁提出来的?它有什么权威性?

A2:ANL框架最初由TM Forum等行业组织提出,3GPP在Rel-17中将其正式引入并标准化(如TS 28.100)。它现在已经成为全球电信行业衡量网络自动化和智能化水平的事实标准。各大运营商和设备商,都在围绕这个“等级阶梯”来规划自己的技术演进和产品路线图。

Q3:NWDAF是5G核心网的一个必选功能吗?

A3:在Rel-15/16中,NWDAF是一个可选功能。但随着网络复杂性的增加和自治网络理念的深入,它在Rel-17及以后的版本中,战略地位变得越来越重要。要实现高级别的网络自治(如ANL L3及以上),一个强大的NWDAF几乎是必不可少的“大脑”。可以说,NWDAF是实现5G-Advanced智能化愿景的核心引擎。

Q4:“成功切换报告”听起来很多余,为什么它对网络优化很重要?

A4:这一点非常关键。传统的网络优化,很多时候依赖于分析“坏的案例”(如掉话、切换失败),是一种“失败驱动”的模式。但这往往只能告诉我们“什么不行”,却很难告诉我们“怎样才行”。而“成功切换报告”为AI系统提供了海量的“好的案例”作为训练数据。通过学习成千上万次成功切换的共同特征,AI可以构建起一个“成功模型”,从而在问题发生前进行预测和预防,或者在问题发生后给出最接近“成功范本”的优化建议。这是一种更主动、更精准的优化范式。

Q5:网络为了优化,会收集我的个人数据吗?我的隐私如何保证?

A5:3GPP在设计之初就充分考虑了用户隐私。首先,大部分用于网络优化的数据(如MDT、切换报告)都是匿名的、统计性的,它们只关心某个区域的无线环境,而不关心具体是哪个用户。其次,对于可能涉及应用层体验等更敏感的数据,Rel-17明确引入了“用户同意(User Consent)”机制。只有在用户明确授权的情况下,网络才能通过AF(应用功能)收集相关数据。所有的隐私数据收集,都必须遵循GDPR等全球各地严格的隐私保护法规。