好的，我们继续解读TR 21.918的后续章节。

深度解析 3GPP TR 21.918：14.1 XR (eXtended Reality) enhancements for NR (NR对XR的增强) & 14.2 Media Capabilities for Augmented Reality (AR的媒体能力)

本文技术原理深度参考了3GPP TR 21.819 V18.0.0 (2025-03) Release 18规范中，关于“14.1 XR (eXtended Reality) enhancements for NR”和“14.2 Media Capabilities for Augmented Reality”的核心章节。本文将合并解读这两个高度相关的章节，旨在为读者深入剖析5G-Advanced为了迎接元宇宙时代的到来，在无线接入网（RAN）和终端媒体能力层面，为XR（扩展现实）业务所进行的深度定制与优化。

XR（扩展现实），包含VR（虚拟现实）、AR（增强现实）和MR（混合现实），被公认为继智能手机之后的下一个革命性计算平台。它通过将数字世界与物理世界无缝融合，有望颠覆我们工作、学习、娱乐和社交的方式。然而，极致的沉浸式体验背后，是对网络连接提出的前所未有的苛刻要求：超高带宽、超低时延、极低抖动，以及终端的极致功耗控制。

传统的5G网络，虽然在eMBB和URLLC方面取得了巨大进步，但其设计并非为XR业务的独特流量模型而“量身定制”。为此，3GPP在Release 18中，正式将XR作为核心驱动场景之一，从无线空口到应用层进行了一系列端到端的增强。14.1章节聚焦于**NR无线接入网（RAN）如何为XR“修路”，而14.2章节则聚焦于终端媒体能力（SA4）**如何为XR“造车”。

今天，我们的主角，是一位前沿XR眼镜的首席产品官，Cathy。她正在规划公司下一代旗舰AR眼镜“Vision Pro X”。这款眼镜主打轻薄设计和长时续航，同时要能实现超高清、低延迟的云渲染（Split Rendering）体验。为了实现这一宏伟目标，Cathy必须确保她的产品能够充分利用5G-Advanced网络带来的所有红利。让我们跟随Cathy的视角，看看NR和终端媒体能力是如何协同进化，为XR的爆发铺平道路的。

1. RAN的“XR感知”：从“通用管道”到“专属通道” (解读 14.1)

Cathy深知，AR眼镜的成败，关键在于“延迟”。任何超过20毫秒的“Motion-to-Photon”延迟，都会让用户产生眩晕感。而云渲染模式下，数据需要在眼镜、基站和边缘云之间走一个来回，这对网络的上行链路提出了巨大的挑战。

The RAN Study Item on XR Enhancements for NR had identified several enhancements for the support for XR services in NG-RAN. This work item specified those enhancements, which revolve around three main areas: awareness, power saving, and capacity.

Rel-18的NR增强，正是围绕**“XR感知”（Awareness）、“功耗节省”（Power saving）和“容量提升”（Capacity）**这三大核心展开的。

1.1 XR感知：让网络“听懂”XR的“心跳”

XR业务的流量具有极强的周期性和突发性。例如，视频帧的生成是周期性的（如90fps），而用户的头部转动和手势交互则是突发的。网络如果能“感知”到这些流量的独特“心跳”，就能进行更精准的调度。

For XR Awareness, in addition to the assistance information provided by 5GC to the gNB… the following is introduced in order to enhance the scheduling of uplink resources by NG-RAN:

One additional buffer size table to reduce the quantisation errors in BSR reporting…

A new MAC CE for the Delay Status Report (DSR) of buffered data;

Reporting of uplink assistance information (jitter range, burst arrival time, UL data burst periodicity) per QoS flow by the UE…

Rel-18为此引入了全新的UE上行辅助信息（Uplink Assistance Information）：

更精确的“排队报告”: Cathy的AR眼镜，现在不仅可以向基站报告“我缓冲区里有多少数据”（BSR），还可以通过新的MAC CE，更精确地报告**“这些数据已经等了多久了”**（DSR - 延迟状态报告）。
主动“业务画像”: 眼镜还可以主动告诉基站，其上行流量的“脾气”——例如，“我接下来要发的是周期性数据，周期是11.1毫秒（对应90fps），抖动范围在±1毫秒内”。

基站（gNB）在拿到这些精确的“心跳图”后，就可以进行“神级”的调度：

预测性调度: 它可以提前为眼镜预留好上行资源，确保在每一帧数据生成时，都有可用的“绿色通道”，从而极大地降低传输时延和抖动。
避免“过度分配”: 它也避免了在帧间隔的“空闲期”为眼镜分配不必要的资源，提升了频谱效率。

1.2 功耗节省：让网络节奏与XR“同频共振”

AR眼镜电池容量有限，功耗是生命线。

For power saving enhancements, the gNB may configure a DRX cycle expressed in rational numbers so that the DRX cycle matches the periodicities of video frame rates (15, 30, 45, 60, 72, 90 and 120 fps).

这是一个看似微小却极其精妙的改进。传统的DRX周期是2的整数次幂毫秒（如10ms, 20ms, 40ms…），很难与90fps（11.1ms/帧）或120fps（8.33ms/帧）这样的视频帧率完美对齐。Rel-18允许DRX周期被配置为有理数，例如可以直接配置为11.11ms。

完美同步: 这使得AR眼镜的“唤醒”周期，可以与视频帧的“刷新”周期完美同步。眼镜可以在处理完一帧画面的间隙，进入一次精准的、纳秒级的“微睡眠”，从而在不影响性能的前提下，积少成多，显著延长续航。

1.3 容量提升：为XR“打通”上行高速路

For capacity enhancements, configured grant-based PUSCH transmission are enhanced with the following:

Support of multiple CG PUSCH transmission occasions within a single period of a CG configuration;

Indication of unused CG PUSCH occasion(s)…

Rel-18对**预配置授权（Configured Grant, CG）**进行了增强，为XR的上行传输提供了更稳定、更高效的“专属车道”。

“多车道”预留: 网络可以在一个CG周期内，为眼镜预留多个上行传输机会。这使得眼镜在处理突发的交互数据或需要高码率视频编码时，拥有更充裕的上行带宽。
“空车道”上报: 如果眼镜在某个传输机会上没有数据要发，它可以在前一次传输中，通过上行控制信息（UCI）“捎带”一个标志，告知基站：“下一个车道我不用了，你可以把它让给别人”。这种精细化的资源释放机制，极大地提升了CG资源的利用效率。

2. 终端的“自我介绍”：AR媒体能力标准化 (解读 14.2)

RAN侧的道路修好了，路上跑的“车”——也就是XR终端本身，也需要进行标准化，否则就会出现“车不上路、路不认车”的尴尬局面。

MeCAR “Media Capabilities for Augmented Reality” specifies the media capabilities of a UE for the execution of AR services and applications. The work resulted in TS 26.119 which defines audio, video, scene description and XR system capabilities for four device types…

3GPP SA4（媒体编解码）工作组通过“MeCAR”项目，在TS 26.119中，首次为AR设备的能力进行了系统的“画像”。

2.1 四大“车型”定义

规范首先将市面上的AR设备，划分为四种标准“车型”：

Type 1 “Thin AR glasses”: 超薄AR眼镜，计算能力极弱，高度依赖云渲染。
Type 2 “AR glasses”: 普通AR眼镜，具备一定的本地处理能力。
Type 3 “XR phone”: 通过手机驱动的AR眼镜或手机自身的AR模式。
Type 4 “XR head-mounted display”: 类似VR一体机，计算能力强大，可独立运行。

Cathy的“Vision Pro X”属于Type 1，这个清晰的分类，让网络和应用开发者可以立即知道它的“能力边界”，从而为其提供最优的适配方案。

2.2 标准化的“性能参数”

对于每种“车型”，规范都定义了一系列标准化的“性能参数”，涵盖了音视频编解码、场景描述和系统能力等。

音视频能力: 是否支持EVS、IVAS等沉浸式音频编解码？是否支持HEVC视频的特定profile？
场景描述能力: 是否支持glTF 2.0（一种3D模型格式）？这对于云渲染和AR内容交互至关重要。
系统能力与元数据: 终端需要上报一系列关键的元数据，如：
- Pose信息: 描述用户头部位置和姿态的六自由度（6DoF）数据。
- 可交互对象: 用户手势、控制器等交互信息。
- 可视化空间: 终端可用于渲染虚拟对象的物理空间信息。
QoE指标: 终端还需要能够测量并上报一系列标准的AR体验质量（QoE）指标，如：
- Motion-to-Photon Latency: 从用户头部转动到新画面显示在屏幕上的总延迟。
- Render-to-Photon Latency: 从渲染完成到显示的延迟。
- Content Age: 看到的虚拟内容是多久之前生成的。

通过这套标准化的媒体能力框架，3GPP成功地在异构的XR终端生态和统一的5G网络之间，建立了一座“沟通的桥梁”。Cathy在设计“Vision Pro X”时，只需遵循TS 26.119的标准，就能确保其产品未来能够与全球的5G-Advanced网络和XR应用生态无缝兼容。

总结

3GPP TR 21.819的14.1和14.2章节，从RAN和终端两个维度，协同发力，为5G-Advanced时代的XR业务爆发，奠定了坚实的技术基础。

在RAN侧（14.1），通过引入XR感知、周期与帧率同步的功耗节省、增强的预配置授权等机制，NR空口从一个“通用”的数据管道，演进为了一个能够深刻理解并精准服务于XR独特流量模型的“智能专属通道”。

在终端侧（14.2），通过标准化的设备分类和媒体能力集，3GPP为碎片化的XR硬件市场，提供了一套统一的“语言”和“度量衡”。这使得网络和应用开发者能够清晰地了解每个终端的能力，从而提供最优的适配和体验。

对于像Cathy这样的产品创造者，这两大章节的增强，意味着她设计下一代AR眼镜时，不再需要在“性能”、“功耗”和“轻薄”这个“不可能三角”中痛苦挣扎。一个更“懂”XR的5G网络，将通过云渲染等技术，分担掉大量的本地计算负载，让她可以专注于打造用户体验极致、设计优雅轻便的划时代产品。

5G-Advanced与XR的“双向奔赴”，正在将“元宇宙”从一个遥远的概念，加速推向触手可及的现实。

FAQ - 常见问题解答

Q1：为什么XR业务对网络上行链路的要求特别高？ A1：主要有两方面原因：1）实时交互数据的上传：XR体验是双向的。终端需要持续不断地将高频、低时延的数据上传给网络/云端，包括用户的头部姿态（Pose）、手势、眼动追踪、环境感知（通过摄像头和传感器）等。这些数据是云端进行渲染和场景更新的基础，任何延迟都会破坏沉浸感。2）云渲染模式下的视频/传感器数据流：在某些AR/MR场景下，终端需要将摄像头拍摄的实时高清视频流上传到云端，由云端进行AI识别、场景重建，并将虚拟物体渲染后叠加回传。这对上行带宽和时延都提出了类似直播推流的高要求。

Q2：RAN侧的“XR感知”（Awareness）具体是如何帮助降低时延的？ A2：它通过**“预测性调度”来实现。在没有感知的网络中，调度是“响应式”的：UE有了数据，发送BSR（缓冲区状态报告）；gNB看到BSR，再为其分配上行资源。这个“请求-分配”的过程本身就有毫秒级的延迟。而在“XR感知”的网络中，UE可以提前告知gNB：“我是一个90fps的AR设备，大约每隔11.1毫秒，我就会生成一个数据包”。gNB拿到这个“时间表”后，就可以提前**、主动地为UE在每个11.1毫秒的节点上预留好上行资源（例如通过Configured Grant）。这样，当UE的数据包一生成，就可以立即在预留好的资源上发送出去，省去了中间“请求-分配”的等待时间，从而极大地降低了端到端的传输时延。

Q3：将DRX周期配置为“有理数”来实现与视频帧率的同步，这个技术细节为什么如此重要？ A3：因为它能在不牺牲性能的前提下，将功耗优化做到极致。想象一下90fps的场景，帧间隔是11.1ms。如果DRX周期只能是10ms或20ms，就会出现“错位”：要么UE为了接收下一帧，需要比11.1ms更早地醒来，造成不必要的等待功耗；要么UE的唤醒点会漂移，导致帧数据接收的抖动。而将DRX周期精确地配置为11.11ms，可以确保UE的唤醒时刻与每一帧数据的到达时刻“严丝合缝”地对齐。UE可以在两帧之间的每一个微小空隙，都进入一次“微睡眠”，积少成多，最终带来显著的续航提升。这对于功耗极其敏感的XR眼镜来说至关重要。

Q4：3GPP为什么要为AR设备定义标准的“媒体能力”（MeCAR）？让市场自由发展不好吗？ A4：定义标准是为了解决“碎片化”问题，促进生态系统的健康发展。如果没有标准，每家AR眼镜厂商都可能定义一套自己的媒体格式、编解码能力和QoE指标。这会导致：1）网络无法适配：运营商的网络无法为五花八门的设备提供统一的QoS优化。2）应用开发困难：一个XR应用开发者，需要为市面上的每一款眼镜都进行单独的适配和优化，开发成本极高。3）用户体验不一致。通过MeCAR定义一套标准的“车型”和“性能参数”，相当于在AR世界里建立了统一的“普通话”和“度量衡”，使得网络、设备和应用三方可以高效协同，最终受益的是整个生态和最终用户。

Q5：这些XR增强功能，对5G基站和核心网有什么新的要求吗？ A5：有。对基站（gNB）：需要更强大的调度器（Scheduler），能够理解和处理UE上报的DSR、周期性等辅助信息，并实现预测性调度。同时，需要支持有理数DRX、增强的CG等新功能。对核心网：需要支持将XR业务的“画像”信息（例如，这是XR业务、PDU Set信息、PSI重要性等）从AF/PCF一路传递到gNB，这是gNB进行XR感知调度的前提。此外，为了支持云渲染，UPF需要被更广泛地部署到网络的边缘（MEC），以缩短数据传输的物理距离，降低往返时延。这些都是端到端协同优化的体现。

51学通信

探索

深度解析 3GPP TR 21.918：14.1 XR (eXtended Reality) enhancements for NR (NR对XR的增强) & 14.2 Media Capabilit...