好的,我们继续跟随5G基站工程师小雷,深入探索NG接口上那些为保障网络稳定运行、提升资源利用效率而设计的关键功能。这一次,我们将聚焦于一个在多核心网元部署场景下至关重要的话题——AMF负载均衡。

深度解析 3GPP TS 38.410:5.14 AMF Load Balancing function (AMF负载均衡)

本文技术原理深度参考了3GPP TS 38.410 V18.2.0 (2024-06) Release 18规范中,关于“5.14 AMF Load Balancing function”的核心章节,并结合其在核心网(TS 23.501/502)和NGAP协议(TS 38.413)中的具体实现,为读者完整呈现5G网络中,核心网AMF与基站gNB之间,如何通过NG接口协同工作,实现AMF池内的智能负载均衡。

引言:避免“忙的忙死,闲的闲死”的“智能派位”

我们的主角,基站工程师小雷,所负责的gNB连接到了一个由三台AMF(AMF-01, AMF-02, AMF-03)组成的AMF Pool(AMF池)。这种“池化”部署,是5G核心网高可用性和可扩展性的基石。

现在,一个新的挑战摆在了小雷的gNB面前。当成百上千个新的UE(用户设备)涌入它的覆盖范围并发起接入请求时,gNB的**NAS节点选择功能(5.7节)**需要为每一个UE,从这三台AMF中,选择一台来为它服务。

如果gNB只是简单地“轮询”或者“随机”分配,就很容易出现一种灾难性的情况:大量的UE被集中分配到了AMF-01上,导致AMF-01不堪重负、响应缓慢甚至宕机;而AMF-02和AMF-03却门可罗雀、资源大量闲置。这种“忙的忙死,闲的闲死”的局面,严重影响了网络性能和用户体验。

第5.14节“AMF负载均衡功能”,正是3GPP为破解这一难题而设计的“智能派位系统”。它建立了一条从AMF到gNB的“实时状态反馈通道”,让gNB在做“派位”决策时,不再是“盲人摸象”,而是能够充分掌握每个AMF的“繁忙程度”,从而做出最智能、最均衡的路由选择。


1. “智能派位”的使命:实现AMF池内的负载均衡

5.14 AMF Load Balancing function

The NG interface supports the indication by the AMF of its relative capacity to the NG-RAN node in order to achieve load-balanced AMFs within the pool area.

深度解读:

这句话清晰地定义了AMF负载均衡功能的核心机制和目标:

  • 核心机制 (the indication by the AMF of its relative capacity):AMF主动向gNB通告其“相对容量”。这个“相对容量”是一个抽象的、归一化的数值,代表了AMF当前的“空闲程度”或“可接纳新用户的能力”。
  • 最终目标 (to achieve load-balanced AMFs): 目的是为了实现AMF池内的负载均衡

这意味着,AMF不再是一个被动等待gNB分配任务的“黑盒子”。它会周期性地、或者在负载发生显著变化时,主动地向所有与它连接的gNB“喊话”:“我现在很忙,请少给我派点活儿!”或者“我现在很闲,快把用户都送过来!”


2. “状态喊话”的实现:AMF CONFIGURATION UPDATE 流程

AMF的这种“状态喊话”,在NG接口上主要是通过一个通用的接口管理流程——AMF CONFIGURATION UPDATE来实现的。

场景设定: 小雷的gNB同时与AMF-01, AMF-02, AMF-03建立了NG连接。起初,三台AMF的负载都很低。突然,由于邻近区域的一台AMF发生故障,大量用户被重定向到了AMF-01上,导致其负载急剧攀升。

第一步:AMF自我感知与“状态更新”

  1. AMF-01自我监控: AMF-01内部的监控模块,实时地监测着自身的CPU占用率、内存使用率、已注册用户数、信令处理队列长度等关键性能指标(KPI)。
  2. 计算“相对容量”: AMF-01根据这些KPI,通过一个内部算法,计算出自己当前的“相对容量(Relative AMF Capacity)”。这是一个介于0到255之间的整数。
    • 255 代表“完全空闲”,火力全开,欢迎所有新用户。
    • 0 代表“完全过载”,已经不堪重负,请不要再给我任何新用户。
    • 中间值则代表了不同程度的繁忙。
  3. 触发更新: AMF-01发现自己的负载已超过高位阈值,它将自己的“相对容量”值,从初始的255,下调到了50。

第二步:AMF向gNB广播“繁忙指数”

NGAP Procedure: AMF CONFIGURATION UPDATE NGAP PDU: AMF CONFIGURATION UPDATE (AMF gNB)

AMF-01会立即向所有与它建立了NG连接的gNB(包括小雷的gNB),发送一条AMF CONFIGURATION UPDATE消息。

核心内容:

  • Relative AMF Capacity: 50。

与此同时,AMF-02和AMF-03因为负载没有变化,它们或者不发送更新,或者发送的更新消息中,Relative AMF Capacity值仍然是较高的数值(如200)。

第三步:gNB的“智能派位”决策

小雷的gNB收到了来自AMF-01的“降容”通知。它会立即更新其内部维护的一张“AMF Pool状态表”。这张表现在看起来可能是这样的:

AMFRelative AMF CapacityWeight Factor (权重)
AMF-0150(计算得出,较低)
AMF-02200(计算得出,较高)
AMF-03200(计算得出,较高)

现在,一个新的UE发起了初始接入请求,gNB的NAS节点选择功能(5.7节)需要为它选择一台AMF。此时,它不再是随机选择,而是会根据这张“状态表”进行加权选择

  • gNB会根据每个AMF的Relative AMF Capacity值,计算出一个权重因子(Weight Factor)
  • 然后,它会以这个权重为概率,来随机选择一台AMF。
  • 在这个例子中,AMF-02和AMF-03被选中的概率,将远高于AMF-01。

通过这种方式,新的用户流量被智能地、自动地引导到了负载较低的AMF上,从而实现了整个AMF Pool的负载均衡。AMF-01的压力得到了缓解,避免了过载风险。

第四步:“警报”解除与负载恢复

当AMF-01的负载高峰过去,其内部监控模块发现资源占用率回落到正常水平。它会再次计算自己的“相对容量”,可能恢复到了200。

于是,它会再次向所有gNB发送一条AMF CONFIGURATION UPDATE消息,将自己的新状态(Relative AMF Capacity = 200)通告出去。

小雷的gNB收到后,更新其“AMF Pool状态表”。现在,三台AMF的权重变得接近,新的用户流量又会开始被均衡地分配到这三台AMF上。


3. 负载均衡与NG Setup的结合

除了动态的AMF CONFIGURATION UPDATE,AMF的“相对容量”信息,也会在NG接口建立的初始阶段就被交换。

回顾5.8节的NG Setup流程:NG SETUP RESPONSE消息中,AMF就会将其初始的Relative AMF Capacity值告知gNB。

这意味着,小雷的gNB在与AMF Pool“初次见面”时,就已经对每个成员的“初始健康状况”有了一个基本的了解,为其后续的“智能派位”提供了第一份参考数据。


总结:从“各自为政”到“协同调度”的智慧

通过对5.14节“AMF负载均衡功能”的深度剖析,我们看到了5G网络在应对大规模用户接入、保障核心网稳健性方面的又一重智慧——负反馈协同调度

  • 实时状态反馈: 建立了一条从AMF到gNB实时负载状态反馈通道,打破了gNB在选择AMF时的“信息孤岛”。
  • RAN侧智能决策:最终的路由决策权保留在了gNB侧(NAS节点选择功能),使得gNB可以综合来自多个AMF的负载信息,以及自身的其他策略(如切片信息、拓扑信息等),做出最全局最优的决策。
  • 简单高效的协议: 通过一个简单的Relative AMF Capacity参数和通用的AMF CONFIGURATION UPDATE流程,以极低的信令开销,实现了一个高效、动态的负载均衡系统。

对于基站工程师小雷来说,AMF负载均衡功能是他网络稳定运行的“幕后英雄”。他不需要手动去干预AMF的选择,这套自动化的“智能派位系统”,会悄无声息地将业务洪峰“削平”,将负载压力“化整为零”,确保他所连接的每一台AMF都能在健康的负载水平下运行。这正是5G网络相比于前代网络,在弹性、稳健性和自动化运维方面,迈出的一大步。


FAQ

Q1:gNB的NAS节点选择功能,除了考虑AMF的负载,还会考虑什么? A1:NAS节点选择功能是一个复杂的决策过程。除了AMF的Relative AMF Capacity,它至少还会考虑:

  1. UE的GUTI: 如果UE是一个已经注册过的用户,它的临时ID(GUTI)中就包含了之前为它服务的AMF的信息。gNB会优先将该UE路由回原来的AMF,以保证上下文的连续性。只有在需要负载均衡或原AMF不可用时,才会考虑重选。
  2. 网络切片信息 (NSSAI): 如果UE请求的服务属于某个特定的网络切片,gNB必须选择一个支持该切片的AMF。
  3. 地理位置/拓扑关系: 在某些部署中,可能会优先选择一个与gNB地理位置更近或网络拓扑上延迟更低的AMF。

Q2:AMF的“相对容量”是如何计算的?有统一的标准吗? A2:没有统一的标准Relative AMF Capacity的计算方法,完全由AMF的设备商自行实现。不同的厂商可能会采用不同的算法,综合考虑CPU、内存、用户数、信令速率等多种内部指标,并设置不同的高低负载阈值。3GPP标准只定义了这个参数的“语义”(0=满载, 255=空闲)和传递方式,而将“如何计算”这个复杂的实现细节,留给了厂商去创新和优化。

Q3:如果一个小雷的gNB因为网络故障,长时间没有收到某个AMF的配置更新,会怎么样? A3:gNB内部通常会为每个AMF的Relative AMF Capacity值,维护一个“老化定时器”。如果在指定的时间内(例如,几分钟),gNB没有收到某个AMF的任何更新消息,它可能会认为该AMF的状态“未知”或“陈旧”。此时,gNB在进行NAS节点选择时,可能会暂时降低这个“失联”AMF的权重,或者将其暂时从负载均衡池中移除,以避免将用户路由到一个状态不确定的AMF上。

Q4:AMF负载均衡和我们之前讲的AMF故障恢复,有什么关系? A4:它们是5G核心网高可用性的“一体两面”,共同保障AMF Pool的稳定。

  • 负载均衡是“事前预防”,它通过主动的流量引导,避免任何一台AMF因为负载过高而陷入过载甚至宕机的境地。
  • 故障恢复是“事后补救”,它是在负载均衡失效或AMF因其他原因已经发生故障后,快速地将受影响的用户迁移出来,恢复服务的机制。 一个健康的AMF Pool,需要同时具备这两种能力。

Q5:这个功能只适用于AMF吗?核心网其他网元(如SMF, UPF)有类似的负载均衡机制吗? A5:核心网的其他网元也有类似的机制,但实现方式不同。例如,SMF的选择,是由AMF根据UE请求的DNN、切片信息、以及从NRF获取的SMF负载状态等信息来决定的。UPF的选择,则是由SMF根据UE的地理位置、业务类型、UPF的负载和能力等因素来决定的。虽然具体流程不同,但其核心思想是一致的:通过实时的状态反馈智能的路由选择,将负载均衡地分布在整个网络功能池中。5.14节专门定义了RAN与AMF之间的负载均衡,是因为gNB是新用户接入的“第一入口”,是流量分配的“总龙头”,其路由决策对整个核心网的负载均衡起着至关重要的作用。