好的,我们继续解读TR 21.918的后续章节。

深度解析 3GPP TR 21.918:11.1 AI/ML model transfer in 5GS (5G系统中的AI/ML模型传输)

本文技术原理深度参考了3GPP TR 21.918 V18.0.0 (2025-03) Release 18规范中,关于“11.1 AI/ML model transfer in 5GS”的核心章节,旨在为读者深入剖析5G-Advanced如何从一个被动的“数据管道”,演进为一个能够理解并智能调度AI/ML业务的“智慧网络”,为分布式AI应用的爆发提供坚实的基础。

人工智能(AI)与机器学习(ML)的浪潮,正以前所未有的深度重塑着千行百业。从自动驾驶的实时决策,到工业视觉的缺陷检测,再到我们手机上的智能语音助手,AI/ML应用正变得无处不在。这些应用的一个显著特点是,它们通常采用“云端训练、终端/边缘推理”或“联邦学习”等分布式架构。这带来了海量的、突发的、具有独特潮汐特性的AI/ML模型分发、更新和梯度上传流量。

传统的5G网络,将这些流量视为普通的“尽力而为”(Best Effort)数据,无法识别其业务特性,也无法为其提供针对性的传输优化。这导致了一系列问题:模型下载时间过长、联邦学习的梯度上传因网络拥塞而失败、关键的AI推理业务因时延抖动而性能下降……

为了解决这一痛点,3GPP在Release 18中,正式启动了“5GS中的AI/ML模型传输”(AIML_MT)的研究,旨在让5G网络能够“看懂”AI/ML业务,并为其提供一套量身定制的、智能化的传输解决方案。

今天,我们的主角,是一家领先的自动驾驶技术公司的AI平台负责人,张博士。他负责的“分布式AI训练平台”,需要在每天凌晨的业务低谷期,将数百GB的最新感知模型,高效、可靠地分发到数千辆测试车上;同时,在白天,还需要实时收集车辆上传的少量但关键的“边缘案例”数据,用于模型的持续优化。让我们跟随张博士的视角,深入11.1章节,看看5G-Advanced是如何满足他这些苛刻需求的。

1. 5G网络的“AI盲区”:传统传输的挑战

在深入Rel-18的解决方案之前,张博士首先梳理了当前5G网络在承载AI/ML业务时面临的四大挑战。

The AMMT study (AI/ML Model Transfer) in stage-1 relates to how the 5GS supports the transmissions of AI/ML-based services over the application layer. The study addresses use cases and potential performance requirements for 5G system support of application layer Artificial Intelligence (AI)/Machine Learning (ML) model distribution and transfer (download, upload, updates, etc.), and identifies traffic characteristics of AI/ML model distribution, transfer and training for various applications…

  1. 潮汐性与可预测性: AI/ML流量具有极强的潮汐特性。例如,张博士的模型分发,总是发生在凌晨2点到4点。如果网络能够“预知”这一行为,就可以提前调度网络资源,避开高峰,甚至利用电价波谷进行传输。
  2. 大流量与长连接: 模型文件动辄数十GB,下载过程可能持续数小时。这需要网络能够提供稳定、有保障的长时间大带宽连接。
  3. 分布式与协同性: 联邦学习(Federated Learning)需要在大量的终端之间进行多轮、同步的梯度交换。这要求网络能够高效地管理和调度“群组通信”。
  4. 业务感知的QoS: 不同的AI/ML流量,其QoS需求截然不同。模型下载追求“高带宽”,而自动驾驶的实时推理则追求“低时延”。网络需要能够区分并满足这些差异化的需求。

2. 5G的“AI大脑”:六大核心增强

为了让5G网络具备“AI感知”能力,Release 18引入了一系列全新的功能和机制,共同构成了一个智能化的AI/ML传输支持框架。

The Feature enhances the following aspects:

  • Monitoring of network resource utilization…
  • Exposure of 5GC information to authorized 3rd party…
  • Enhancement of external parameter provisioning in 5GC…
  • Enhancement in 5GC to enable Application AI/ML traffic transport
  • Enhancement of QoS and Policy control…
  • 5GS assistance to federated learning operation

1) 计划性数据传输 (Planned Data Transfer with QoS)

这正是为张博士的“凌晨模型分发”场景量身定制的功能。

Planned Data Transfer with QoS: Planned Data Transfer with QoS is used to enable the AF to negotiate viable time window for the planned AI/ML operation… Prior to the start of the selected time window for the planned data transfer, the AF requests the PCF to set up the AF session with required QoS.

  • “预约”网络资源: 张博士的AI平台(作为AF),可以提前向运营商的NEF/PCF发起一个“预约请求”:“我计划在明天凌晨2点到4点,为我的车队(一个UE群组)进行一次大规模的模型分发,需要100Mbps的保障带宽”。
  • 网络“智能排程”: PCF和NWDAF会根据这个预约,分析网络在未来该时段的负载情况,并为张博士推荐一个或多个“最佳传输窗口”(PDTQ policies)。
  • 按时履约: 到了约定时间,AF只需发起一个简单的请求,PCF就会立即按照“预约”好的QoS策略,为车队的PDU会话提供保障带宽。

这一机制,将AI/ML的大流量传输从“随机发生”变成了“计划调度”,实现了业务需求与网络资源的完美匹配,是一种典型的“网业协同”。

2) 增强的外部参数注入 (Enhanced external parameter provisioning)

为了让网络做出更精准的决策,应用侧需要向网络“喂料”——提供更多关于UE行为的“先验知识”。

An AF hosting an AI/ML based application may provision the Expected UE Behaviour parameters… to the 5GC enhanced corresponding confidence and/or accuracy levels…

张博士的AI平台可以向UDM(统一数据管理)注入更丰富的UE行为预测参数,例如:

  • “这辆测试车,预计在未来1小时内,会产生5GB的上行数据流量,置信度90%。”
  • “这个UE群组,预计在接下来的10分钟内,会保持静止,精度95%。”

核心网(如AMF, SMF)在进行移动性管理、会话管理和QoS决策时,就可以利用这些“AI预测”,做出更具前瞻性的资源分配。

3) 联邦学习的“神助攻”:成员选择辅助

联邦学习的成功,关键在于选择一批高质量的终端(网络稳定、电量充足、算力足够)参与到每一轮的训练中。

Member UE selection assistance functionality for application operation: 5G System may support Member UE selection assistance functionality to assist the AF to select member UE(s) that can be used in application operations such as AI/ML based applications (e.g. Federated Learning)…

  • AF的“选拔标准”: 张博士的AI平台向NEF发起请求:“我需要为下一轮联邦学习,从我的车队中,挑选出100辆满足以下条件的车辆:当前网络下行速率 > 50Mbps,上行时延 < 20ms,且位于北京五环内”。
  • NEF的“智能筛选”: NEF会将这个应用层的“选拔标准”,转化为对网络内部多个数据源(如AMF、SMF、NWDAF、GMLC)的查询。它会综合分析每个UE的实时网络状态、位置信息、历史性能数据等,最终筛选出一份“最佳学员”名单,返回给AI平台。

这一功能,将过去应用层盲目的“海选”,变成了网络辅助的“精选”,极大地提升了联邦学习的效率和成功率。

4) 增强的QoS控制:组级会话与E2E分析

Multi-member AF session with required QoS: Support of Multi-member AF session with required QoS for a set of UEs identified by a list of UE addresses. End-to-end data volume transfer time analytics: The E2E data volume transfer time analytics may be used to assist an AF or NEF with AI/ML-based services…

  • 组级QoS会话: NEF现在支持AF为一个UE列表(如张博士的车队),一次性地请求和管理“组级”的AF会话。AF无需再为每个UE单独发起QoS请求,大大简化了对大规模分布式AI应用的管理。
  • 端到端时延分析: NWDAF可以向AF提供“端到端数据传输时延”的分析和预测服务。例如,AF可以查询:“传输一个10MB的模型更新包,从我的服务器到这辆车,端到端的预计耗时是多少?”。这为AF进行更精细的业务调度和超时控制,提供了数据支撑。

总结

3GPP TR 21.918的11.1章节,标志着5G网络在智能化道路上迈出了里程碑式的一步。它不再仅仅是被动地承载流量,而是开始主动地去“理解”、“预测”和“服务”AI/ML这种全新的、颠覆性的业务形态。

通过引入计划性数据传输,5G网络获得了与AI应用“预约未来”的能力,实现了资源的最优化调度。通过增强的外部参数注入,网络获得了来自应用层的“先验知识”,使其决策更具前瞻性。而通过为联邦学习提供成员选择辅助组级QoS管理,5G网络真正成为了分布式AI协同工作的“智能调度平台”。

对于像张博士这样的AI平台开发者,Rel-18的这些增强,意味着他们终于有了一套标准化的“语言”,可以与运营商网络进行深度的“对话”。他们可以清晰地向网络表达自己的业务意图(“我将在何时、传输何种类型、有何种QoS需求的数据”),并从网络获取到智能的反馈和支持。

一个能够深度感知并服务于AI业务的5G-Advanced网络,与一个能够充分利用网络能力的AI应用,两者之间的“双向奔赴”,必将催生出超乎想象的创新应用,加速自动驾驶、工业智能等领域的革命性突破。


FAQ - 常见问题解答

Q1:计划性数据传输(Planned Data Transfer)和普通的QoS保障有什么区别? A1:主要区别在于时间维度交互模式普通的QoS保障通常是实时、响应式的:当应用需要时,立即向网络申请,网络根据当前资源情况尽力满足。而计划性数据传输非实时、预约式的:应用(AF)可以提前(例如,提前数小时或数天)向网络声明其未来的传输意图。网络则可以基于这个“未来视图”,进行更从容、更全局的资源规划和调度,例如,为大流量传输推荐一个网络最空闲、电价最低的“黄金窗口”。这是一种从“被动响应”到“主动规划”的模式转变。

Q2:联邦学习的“成员选择辅助”功能,会不会泄露用户的隐私?NEF是如何获取到UE的网络状态的? A2:3GPP在设计时对隐私保护有严格的考量。1)授权是前提:该功能必须在RNAA(我们在10.2章节讨论过)的框架下运行,即必须首先获得终端用户的明确授权,同意将其网络状态信息用于联邦学习的成员选择。2)信息按需、脱敏:NEF只会收集和提供AF明确请求的、与“选拔标准”相关的必要信息,并且在可能的情况下会进行脱敏处理。例如,NEF只会返回“是/否”满足条件,或者一个匿名的UE列表,而不会直接暴露UE的精确位置等敏感信息。3.)NEF的角色:NEF作为网络内部的可信实体,它通过标准的内部接口(如Nsmf, Namf, Nnwdaf),从SMF、AMF、NWDAF等网元获取UE的会话信息、移动性信息和网络分析数据,然后进行聚合与筛选。

Q3:什么是“组级AF会话”(Multi-member AF session)?它相比单个的AF会话,有什么好处? A3:“组级AF会话”允许AF(应用功能)通过一次API调用,为一个UE群组(例如,一个车队、一个产线上的所有摄像头)统一请求和管理QoS策略。好处在于极大地提升了管理效率和可扩展性。如果没有这个功能,当一个车队(假设有100辆车)需要同时开启视频上传时,AF需要向NEF发起100次独立的AF会话建立请求,这会带来巨大的信令开销和管理复杂性。而有了组级会话,AF只需发起一次请求,指定这个UE群组的ID和统一的QoS要求即可,剩下的工作由NEF和核心网在内部分发和处理。

Q4:这些AI/ML传输增强功能,对网络(特别是NWDAF)的能力提出了哪些新的要求? A4:提出了很高的要求,核心是要求网络具备**“预测未来”**的能力。1)对于计划性数据传输:NWDAF需要能够基于历史网络流量数据和趋势分析,准确地预测出未来某个时间段的网络负载情况,才能为AF推荐出“最佳传输窗口”。2)对于成员选择辅助:NWDAF需要能够对UE未来的网络性能进行预测。例如,不仅要看UE当前的网络质量,还要能预测出“在未来10分钟的训练窗口期内,这个UE的网络质量保持稳定的概率有多大”。这些都要求NWDAF具备更强大的数据收集、处理和机器学习建模能力。

Q5:这些功能是只适用于AI/ML业务吗?其他类型的业务能用吗? A5:虽然这些功能的设计初衷是为了解决AI/ML业务的痛点,但它们的机制是通用的,完全可以被其他具有相似特征的业务所复用。例如:1)计划性数据传输:可以被任何有大流量、非实时传输需求的业务使用,如网盘的后台文件同步、操作系统的版本更新包分发等。2)成员选择辅助:可以被任何需要进行群组协作的应用使用,如大型多人在线游戏(MMOG)的服务器,可以用它来选择一组网络条件最好的玩家组成一个战队;或者视频会议系统,用它来选择一个网络最好的参会者作为媒体流的“上行主机”。