深度解析 3GPP TR 21.917:15 User plane improvements (为数字感官“升维”)

本文技术原理深度参考了3GPP TR 21.917 V17.0.1 (2023-01) Release 17规范中,关于“15 User plane improvements (用户面增强)”的核心章节。本章是5G技术从“连接”走向“体验”的集中体现,旨在为读者揭示Rel-17如何通过对视频、音频、媒体流等用户面核心业务的深度革新,为我们的数字感官世界带来一次全面的“升维”体验。

1. “未来科技峰会”的“不可能任务”:一位媒体总导演的终极体验追求

张导,是“滨海智慧新区”年度“全球未来科技峰会”的首席媒体总导演。她是一位以对“体验”的极致追求而闻名的行业传奇。今年的峰会,她向智慧新区的总设计师林工,提出了一份近乎“不可能完成”的媒体保障需求清单。

“林工,我需要的不是‘能用’,而是‘惊艳’。”张导在她的需求阐述会上,语气坚定,不容置疑。

  1. “身临其境”的远程参会:本次峰会的 keynote speaker,是一位身处硅谷的AI教父,他将以全息影像的形式“亲临”现场。我要求,所有购买了线上VIP门票的远程参客,必须能通过VR头显,获得身处会场前排的沉浸式体验,他们要能自由转动视角,甚至能看到讲台的木纹细节。

  2. “纤毫毕现”的全球直播:本次峰会的全球公共直播信号,必须是广播级的8K超高清画质。我要让全球任何一个角落的观众,都能看清主讲人额头的汗珠。

  3. “天籁之音”的完美呈现:现场观众使用的,是五花八门的最新款手机,有的用屏幕发声,有的用骨传导耳机。我不管他们用什么,我要求每一个人的听感都必须是清晰、饱满、无杂音的。

  4. “未卜先知”的智能调度:我们的流媒体平台,必须能在用户感觉到卡顿之前,就预知到网络波动,并主动、无感地降低码率。我不能接受任何“正在缓冲”的图标出现在观众的屏幕上。

  5. “绝对可靠”的生命线:承载这一切的核心媒体服务器,必须有万无一失的冗余备份。

张导的这份清单,不再是对网络“速率、时延、带宽”等传统KPI的考核,而是对端到端用户“感官体验” 的终极拷问。这恰恰是3GPP Rel-17在第15章“User plane improvements”中所要攻克的“新大陆”。用户面(User Plane),是承载用户实际数据的层面,它流淌的不再是冰冷的比特,而是视频、音频、交互指令等构成我们数字体验的“血液”。让这些“血液”流淌得更“高清”、更“沉浸”、更“智能”,正是本章的核心使命。

2. 15.1 “数字任意门”:沉浸式会议与远程呈现 (ITT4RT)

张导的第一个要求——“身临其境”的远程参会,由ITT4RT (Immersive Teleconferencing and Telepresence for Remote Terminals) 来实现。

This Work Item extends the functionality of Multimedia Telephony Service for IMS (MTSI) in TS 26.114 by adding the Virtual Reality (VR) unidirectional video transmission capability.

This makes the end-user experience more compelling and immersive.

【深度解读】

ITT4RT,是在传统IMS视频通话(MTSI)的基础上,进行的一次“次元升级”。它不再满足于传输一个平面的2D视频窗口,而是要传输一个完整的“3D虚拟现实世界”。

The ITT4RT WI adds to TS 26.114 the following:

  • Support of still images, image sequences and still 360-degree background
  • Support of 360-degree video for H.265
  • Support of overlays on top of 360-degree video
  • Support of multiple video projection formats

【深度解读】

让我们看看,当那位硅谷的VIP观众戴上VR头显,观看峰会直播时,ITT4RT为他构建了怎样的“数字任意门”:

  • 360度全景视频 (360-degree video):现场部署的360度摄像机,将整个会场的全景画面,通过5G网络实时传输到他的头显中。他可以自由转动头部,看到舞台、观众席、天花板的灯光,仿佛置身其中。

  • 虚拟叠加层 (Overlays):当AI教父的全息影像登场时,他的虚拟形象数据,会作为一个独立的“叠加层”,精准地合成到360度全景视频的舞台中央。在VIP观众的眼中,这位教父就真实地“站”在面前的舞台上。同时,演讲的PPT、实时字幕等,也可以作为其他的叠加层,悬浮在空中。

  • 空间音频 (Spatial Audio):通过更先进的音频编码(如IVAS Codec),VIP观众能体验到“声临其境”。当他转向左边时,左边观众席的掌声会更响;当他面向舞台时,主讲人的声音则来自正前方。

ITT4RT,通过对视频格式、投影模型、叠加技术、音频技术的全面标准化,将传统的视频通话,升级为了一场多感官、可交互的“远程呈现”,为元宇宙、远程协作、虚拟社交等未来应用,奠定了坚实的协议基础。

3. “视网膜革命”:8K电视与下一代编解码 (15.2 & 15.3)

张导的第二个要求——广播级的8K直播,则由15.2节和15.3节共同支撑。

3.1 8K over 5G:为“纤毫毕现”制定标准 (15.2)

In order to provide full interoperability for 8K TV services in the context of 5G, this work item specifies an HEVC-based 8K TV operation point in TS 26.116 as well as the corresponding media decoding capabilities for 5GMS in TS 26.511…

【深度解读】

这里的核心是定义“操作点(Operation Point)”。

  • 什么是操作点? 它是一套标准化的技术参数集,如同一个“官方推荐配置单”,详细规定了要实现8K电视直播,编码器应使用什么配置文件(Profile)等级(Level),解码器(如手机、电视)必须具备什么样的解码能力。

  • 为何重要? 标准化操作点,确保了苹果手机、华为电视、三星头显,在接收同一个8K直播流时,都能正确、流畅地解码播放,实现了端到端的互联互通

Rel-17定义了基于HEVC (H.265) Main-10 Profile的8K操作点,并将其纳入了5G媒体流(5GMS)的框架,为8K内容在5G网络上的分发,提供了“官方认证”。

3.2 5G视频编解码研究:为8K寻找更“瘦身”的马车 (15.3)

8K的画质是惊艳的,但它的数据量也是惊人的。如何用更少的带宽,传输同样高质量的8K视频?这就要靠更先进的“压缩算法”——即视频编解码器(Codec)。

15.3 5G Video Codec Characteristics

The Technical Report provides a full characterization framework for video codecs in the context of 5G services…

New codecs, namely H.266/VVC, MPEG-5 EVC and AOMedia AV1 are identified in clause 8.

【深度解读】

15.3节是一个研究项目的总结(TR 26.955),它如同一次对全球最先进视频压缩技术的“大阅兵”。

  • 基准(Anchor):以当前5G网络的主力军H.265/HEVC作为性能基准。

  • 挑战者(Challengers):引入了三位强大的“后浪”:

    • H.266/VVC (Versatile Video Coding):HEVC的“正统接班人”,同等画质下,码率比HEVC能再降低约40-50%。

    • EVC (Essential Video Coding):MPEG推出的“性价比之选”,编码复杂度较低,且拥有更友好的专利授权政策。

    • AV1 (AOMedia Video 1):由谷歌、苹果、Netflix等互联网巨头主导的“开放标准”,免专利费,在流媒体领域发展迅猛。

  • 研究的意义:这份研究报告,通过在各种典型5G场景下(如高清直播、视频通话、VR)对这些新老编解码器进行全面的性能评测(BD-Rate对比),为3GPP在未来版本(如Rel-18及以后)中,选择引入哪位“新太子”来接替HEVC,提供了最权威、最详实的数据支撑。

虽然Rel-17尚未正式引入VVC等新Codec,但这项研究,已经为5G用户面的下一次“效率革命”,吹响了前奏。

4. “天籁之声”的保障:为非传统音频设备建立“新标准” (15.4 & 15.5)

张导的第三个难题,是如何保证现场观众五花八门的手机,都能有好的听感。

4.1 HaNTE:当屏幕开始“唱歌” (15.4)

15.4 Handsets Featuring Non-Traditional Earpieces (HaNTE)

This work item improves the acoustic test methods in TS 26.132 by providing proper guidance on how to setup a UE featuring a non-traditional earpiece.

【深度解读】

  • 什么是HaNTE? 泛指那些不使用传统听筒扬声器,而是通过屏幕振动、骨传导等新奇方式来发声的手机。

  • 挑战:传统的音频测试,是用一个标准的“人工耳”紧贴在手机听筒上进行的。但对于屏幕发声的手机,这种方法完全失效了。

  • Rel-17的贡献:HaNTE工作项目,定义了一套全新的声学测试方法,指导测试实验室应该如何正确地放置和测试这些“非传统听筒”手机,以确保它们的通话音质符合标准。

4.2 HInT:为耳机接口“体检” (15.5)

15.5 Extension for headset interface tests of UE (HInT)

This work item extends the audio test specifications in TS 26.131 and TS 26.132 to analogue (wired) and digital (wired and wireless) electrical interfaces…

【深度解读】

  • 什么是HInT? 它将音频测试的范围,从手机本身,扩展到了它的“配件”——耳机接口,包括传统的3.5mm模拟接口,以及数字化的USB-C和蓝牙接口。

  • 挑战:过去,如果通话声音不好,问题可能出在手机,也可能出在耳机。HInT的目标,是明确接口本身的性能标准。

  • Rel-17的贡献:HInT定义了如何直接在电气接口上,测试输出音频信号的质量,确保手机通过这些接口输出的声音是“高保真”的。

通过HaNTE和HInT这两项看似“偏门”的增强,3GPP确保了无论手机的工业设计如何天马行空,用户的基础通话音频体验这块“压舱石”,始终稳固。

5. “未卜先知”的千里眼:媒体流事件开放 (15.6)

张导最苛刻的要求——在卡顿发生就采取行动,由15.6节的EVEX (Media Streaming AF Event Exposure) 来实现。

15.6 Media Streaming AF Event Exposure

This work item relates to the support of generic UE data collection, reporting and event exposure, and the 5G Media Streaming instantiation of the generic functionality.

【深度解读】

EVEX的核心,是建立了一条从UE上的播放器,直达网络/应用后台(AF/NEF) 的“体验数据上报专线”。它允许App(在用户授权后)将最深度的、与媒体播放相关的QoE(体验质量)指标,实时上报给网络。

规范中的“Figure 1 – Reference architecture for generic UE data collection, reporting and event exposure”展示了这套体系的宏大架构,其核心是引入了一个Data Collection AF(数据收集AF)

场景还原

  1. 一位VIP观众正在通过App观看峰会的8K VR直播。

  2. 他手机里的播放器(作为Direct Data Collection Client),正在默默地收集一系列关键指标:视频缓冲区大小、解码帧率、渲染延迟、丢包率等。

  3. 播放器发现,由于观众正在快速转动头部,需要加载新的视角瓦片,导致视频缓冲区正在以惊人的速度消耗,预计在2秒后将耗尽(即发生卡顿)。

  4. 播放器立即通过这条“专线”,向运营商的Data Collection AF上报了一个“紧急事件”:“警告!缓冲区即将耗尽!”

  5. Data Collection AF收到事件后,兵分两路:

    • 通知应用后台(AF):直播服务器收到通知,立即为该用户切换到一个码率稍低的、更“节约”的视频流版本。

    • 通知网络(PCF/NWDAF):PCF收到通知,立即为该用户的数据流,临时提升QoS等级,或通过ATSSS将其部分流量导向更空闲的Wi-Fi链路。

通过EVEX这套“端-网-云”协同的“主动预防”机制,一场潜在的播放卡顿,被扼杀在了摇篮之中。

6. “永不断线”的生命线:PDN连接的无缝恢复 (15.7)

最后,是张导对“绝对可靠”的要求。

15.7 Restoration of PDN Connections in PGW-C/SMF Set

The work item defines PDN connection restoration procedures that enable to restore PDN connections in EPC after a PGW-C/SMF failure, restart or scale-in operation…

【深度解读】

为保障峰会直播的可靠性,运营商采用了SMF Set/PGW-C Set的部署方式,即用一个集群(Set)的SMF/PGW-C来共同服务一个区域,互为备份。

  • 问题:在Rel-17之前,如果正在为张导的直播服务器提供服务的那个主用SMF突然宕机,虽然备份SMF可以接管,但这个切换过程,可能会导致上层的PDU会话(在EPC中是PDN连接)中断,直播流会“黑屏”数秒。

  • Rel-17的解决方案:本章定义了一套无缝的连接恢复流程。当主用SMF/PGW-C失效时,AMF/MME等网元可以无需中断UE的PDU会话,而是平滑地将其上下文切换到备份的SMF/PGW-C上。

对于张导来说,这意味着即使后台的核心网机房里,一台服务器的电源被“意外”拔掉,全球数百万观众屏幕上的8K直播画面,也不会有任何一丝的闪烁

7. 总结:用户面,5G体验的终极战场

TR 21.917的第15章,向我们展示了一幅关于“体验为王”的壮丽画卷。它标志着5G的演进,已经深入到了用户体验的“最后一公里”,甚至“最后一微秒”。

  • ITT4RT8K TV,将我们的视觉体验,从“观看”升级为“沉浸”。

  • 新Codec研究,为这场视觉革命,提供了更高效的动力引擎。

  • HaNTEHInT,为我们的听觉体验,提供了更普适的质量保障。

  • EVEX,则为整个媒体体验,装上了一个能够“未卜先知”的智能大脑

  • 连接恢复,则为这一切,提供了最坚实的可靠性基石。

对于张导和林工,第15章意味着他们那些看似“不可能”的极致体验需求,第一次有了标准化的、可落地的答案。而对于我们每一个普通用户,这意味着未来的5G,带给我们的将不仅仅是更快的网速,而是一个更真实、更沉浸、更智能、也更可靠的“升维数字感官世界”。


FAQ

Q1:ITT4RT和我们现在用的VR直播有什么不同?它是一种新技术吗?

A1:ITT4RT不是一种全新的技术,而是对现有技术(如IMS, 360度视频编码)的标准化整合与增强。它与现有VR直播的最大不同在于,它提供了一套端到端的、电信级的标准框架。这意味着,未来不同厂商的VR头显、不同运营商的网络、不同内容提供商的平台,都可以基于这套统一的标准进行互通,实现大规模、可运营的沉浸式通信服务,而不再是当前这种“各自为政”的私有协议方案。

Q2:Rel-17研究了VVC, AV1等新编解码,是不是意味着我的手机很快就会用上它们?

A2:不一定很快,但这是大势所趋。Rel-17的15.3节只是一份研究报告,其结论是为未来版本(如Rel-18/19) 是否以及如何引入新Codec提供决策依据。新Codec的引入是一个庞大的生态工程,需要芯片、终端、网络、内容平台的全产业链支持。但可以预见,随着8K、VR等业务的普及,更高效的VVC或AV1,最终会像当年的HEVC取代AVC一样,成为下一代视频的主流标准。

Q3:什么是EVEX?它和我们之前谈到的QoE测量有什么关系?

A3:EVEX(媒体流AF事件开放)可以看作是QoE测量(12.2节)在媒体流领域的“专业版”和“深化版”。QoE测量是一个更通用的框架,而EVEX则专门针对5GMS(5G媒体流) 场景,定义了更具体、更丰富的媒体相关事件和指标(如缓冲区状态、码率切换事件、播放启停等),并规范了这些事件如何从UE的应用层,通过Data Collection AF,开放给媒体应用服务器和网络功能。

Q4:为什么需要为“屏幕发声”的手机(HaNTE)制定专门的测试标准?

A4:因为传统的声学测试方法是基于“点声源”(听筒)和“近场耦合”(紧贴人工耳)模型的。而屏幕发声,是一种“面声源”,其发声原理、声场分布与传统听筒完全不同。如果不制定新的、科学的测试方法,就无法客观、公正地评价这类手机的通话音质,也无法保证不同品牌手机之间的通话体验一致性。

Q5:PDN/PDU连接恢复功能,只对4G/5G互通有用吗?

A5:不是。规范中提到的Restoration of PDN Connections in PGW-C/SMF Set,其核心是增强SMF/PGW-C集群(Set) 的可靠性。这个能力既适用于纯5G SA网络(SMF Set),也适用于4G/5G互通和漫游场景(combo PGW-C/SMF Set)。它确保了在作为会话“锚点”的核心网关节点发生故障时,用户的会话能够无缝地恢复,保障了业务的连续性。这对所有高可靠性业务(不仅仅是媒体直播)都至关重要。