深度解析 3GPP TR 21.916：13 Conversational services, Streaming and TV (会话、流媒体与电视业务)

本文技术原理深度参考了3GPP TR 21.916 V16.2.0 (2022-06) Release 16规范中，关于“13 Conversational services, Streaming and TV”的核心章节，旨在为读者全面揭示5G Rel-16如何围绕“体验”这一核心，对我们日常最常接触的音视频通话、在线直播、虚拟现实（VR）等业务进行深度优化与革新，将通信从“连得上”推向“聊得好、看得爽、玩得真”的新境界。

引言：从“连接”到“体验”，5G多媒体业务的“品质革命”

在前几章的硬核探索中，我们深入了5G在工业、交通、安全等垂直行业的“大动脉”，见证了其作为生产力工具的强大潜能。然而，5G的另一面，是与我们每个人的日常生活息息相关的“毛细血管”——语音通话、视频聊天、观看直播、沉浸式体验……这些多媒体业务的品质，直接定义了我们对5G的“体感温度”。

Rel-15构建了5G多媒体业务的基础框架，让我们迈入了高清通话（VoNR）、超高清视频的时代。但Rel-16的目标更为远大：它要发起一场“品质革命”，致力于解决在各种复杂、动态、甚至极端场景下，影响用户体验的每一个“魔鬼细节”。通话在信号边缘会不会卡顿？高铁上视频会议能否稳定流畅？VR直播的眩晕感如何消除？流媒体平台的内容分发能否更智能？

为了身临其境地感受这场革命，让我们认识本章的新主角——苏菲（Sophie）。她是一位走在科技前沿的数字游民和Vlogger，她的生活与工作就是一场流动的多媒体盛宴：在高速列车上与全球团队进行视频头脑风暴，在城市地标进行VR实时导览直播，在山顶小屋剪辑并上传4K视频素材。苏菲对网络体验的要求近乎偏执，任何一次卡顿、掉线或画质下降，都是她创作流程中不可接受的“bug”。

本章，我们将跟随苏菲的脚步，看她如何在日常的“极限挑战”中，体验3GPP Rel-16为会话、流媒体与电视业务带来的深刻变革。我们将一起见证，5G如何从一个单纯的连接提供者，演进为一个懂业务、会协同、有预判的“体验保障大师”。

1. 韧性为王：打造“永不掉线”的会话体验 (13.1 Conversational services)

对于像苏菲这样的沟通重度依赖者，通话的连续性和稳定性是第一生命线。Rel-16在会话业务（Conversational services）上的增强，核心目标就是构建极致的“韧性”，确保在各种网络波动和移动场景下，通话都能“坚强地活下去”。

1.1 主动适应：多媒体覆盖与切换增强 (CHEM)

苏菲正乘坐一趟时速300公里的城际列车，同时与远在海外的制片人进行一场关键的VoNR（Voice over NR）视频通话。列车飞速穿行，网络信号在不同基站间快速切换，信号质量也随之起伏。在过去，这种场景下视频通话出现短暂马赛克甚至中断几乎是家常便饭。但今天，通话异常稳定。这背后，正是CHEM（Coverage and Handoff Enhancements for Multimedia）在悄然发挥作用。

The Coverage and Handoff Enhancements for Multimedia (CHEM) feature enables the network to delay or reduce handoffs of a Multimedia Telephony Service for IMS (MTSI) terminal by providing the eNB/gNB additional information about the robustness to packet losses of the negotiated media configurations.

CHEM的核心思想，是让通话应用和网络之间拥有更深度的“默契”。它不再是“信号不好就马上切换”，而是引入了“应用感知”的智能切换决策。

核心机制：PLR_adapt

The core CHEM functionality specified in clauses W.1 and W.2 of TS 26.114 introduces the ‘PLR_adapt’ SDP attribute that is used to negotiate the CHEM feature between the MTSI clients.

在通话建立之初，苏菲的手机和制片人的终端，会通过SDP（会话描述协议）信令相互告知：“我支持CHEM功能（PLR_adapt）”。这意味着，它们都具备了根据网络丢包率（Packet Loss Rate, PLR）动态调整音视频编码鲁棒性的能力。
场景解读：牺牲“一丝画质”换取“永不掉线”
1. 网络波动： 列车进入一个信号稍弱的区域，空口丢包率开始上升。
2. 传统做法： 基站检测到信号质量下降到切换门限，会立即启动切换流程，这个过程可能导致数毫秒到数十毫秒的业务中断，表现为视频卡顿。
3. CHEM的智慧： 支持CHEM的基站知道苏菲的通话应用有“抗丢包”能力。于是，它选择“延迟”切换，同时通知手机：“当前网络丢包率可能会上升到3%”。
4. 应用自适应： 苏菲手机里的通话App收到这个“预警”后，立即调整视频编码策略——例如，增加前向纠错（FEC）冗余，或者切换到一个抗误码能力更强的编码模式。代价可能是视频清晰度略微下降（比如从1080p降到720p），但通话本身却能稳定地持续下去，避免了切换带来的中断。

CHEM还引入了MAX-e2e-PLR（协商最大可容忍的端到端丢包率）和ALR（应用层冗余）等可选增强功能，进一步提升了这种协同的灵活性和效果。对于苏菲而言，CHEM就像是为她的视频通话安装了一个智能“悬挂系统”，在颠簸的路面（网络波动）上，通过主动的缓冲和调整，保证了车厢（通话体验）的平稳。

1.2 极限回退：从5GS到3G的单频语音连续性 (5G-SRVCC)

列车继续前行，进入了一片偏远的乡村地区。这里尚未覆盖5G和4G LTE，只有老旧的3G网络。在过去，这意味着苏菲的VoNR通话将彻底中断。然而，她的通话奇迹般地保留了下来——视频画面消失了，但语音部分依然清晰。这就是Rel-16定义的5G SRVCC to 3G机制。

The work item of 5G_SRVCC introduced a mechanism to support single radio voice call continuity (SRVCC) from 5GS to UTRAN for… Operators with both 5G Voice over IMS and VoLTE enabled, but the voice service continuity may not be guaranteed if the VoLTE coverage… is not (ideal) complete…

SRVCC（单频无线语音呼叫连续性）是一种“最后的救命稻草”，旨在确保语音业务在跨代网络（特别是从PS域到CS域）切换时的连续性。

核心架构：MME_SRVCC

The architecture of 5G-SRVCC is illustrated in Figure 2-1. A simplified MME function (MME_SRVCC) was introduced to facilitate session transfer (SRVCC) of the voice component to the CS domain.

为了实现从5G到3G的语音切换，Rel-16引入了一个特殊的“中间人”——MME_SRVCC。当苏菲的手机从5G切换到4G（如果N26接口可用）时，会先切换到与这个MME_SRVCC关联的MME上。这个MME_SRVCC具备与IMS域协同的能力。
场景解读：语音业务的“金蝉脱壳”
1. 切换触发： 5G基站发现即将失去覆盖，且测量到3G信号可用，于是触发向EPS（4G核心网）的切换。
2. PS到CS切换： 手机切换到4G网络后，MME_SRVCC会立即启动PS-CS（分组域到电路域）的切换流程。它通知IMS核心网：“准备把这个通话的语音部分，切换到3G的CS域”。
3. 语音“换轨”： IMS核心网（ATCF/ATGW）将通话的语音媒体流，从原先通往5G UPF的IP通路上，切换到通往3G MSC（移动交换中心）的电路通路上。
4. 业务保持： 最终，苏菲手机上的语音业务，神不知鬼不觉地从VoNR“降级”为了一个普通的3G语音通话，但通话本身并未中断。而视频等多媒体数据业务，由于3G CS域无法承载，则被释放。

对于苏菲而言，虽然失去了视频，但在偏远地区能保住关键的语音沟通，已经远超预期。5G-SRVCC to 3G确保了在极限覆盖场景下，最核心的语音业务永不失联。

2. 体验至上：流媒体与沉浸式业务的品质飞跃

苏菲不仅是内容的生产者，也是消费者。她对流媒体画质、VR体验的流畅度有着极高的要求。Rel-16引入了一系列针对流媒体和未来沉浸式业务的架构、协议和度量标准，旨在将“体验质量”（QoE）提升到全新的高度。

2.1 5G媒体流媒体架构 (5GMSA)：流媒体的“新基建” (13.2.3)

结束了一天的工作，苏菲打开平板，观看一部通过5G网络传输的4K HDR电影。她发现，无论是在线观看还是拖动进度条，响应都异常迅速，画质始终保持最佳。这背后，是Rel-16定义的全新**5G媒体流媒体架构（5GMSA）**在发挥作用。

The work item 5GMS3 provides the stage 3 specifications to enable the realization of media streaming services based on the 5G Media Streaming Architecture, specified in TS 26.501. The stage 3 specifications cover speech, audio and video media formats and profiles, protocols…

5GMSA不再将流媒体视为普通的数据传输，而是为其设计了一套端到端的、与5G网络深度协同的专用框架。

网络能力集成： 5GMSA架构下的应用功能（AF），可以与5G核心网的PCF、NEF等网元深度交互，实现基于用户签约、设备能力、网络状态的动态QoS保障。
标准化格式：

…which adds the specification of the usage of the Common Media Application Format (CMAF) for segmented media as the baseline container format for 5GMS downlink streaming services.

5GMSA将CMAF确立为基线容器格式。CMAF是一种通用的流媒体封装格式，可以同时被DASH和HLS等主流协议使用，这大大简化了内容提供商的制备和分发流程，提升了与全球内容生态的兼容性。
新协议栈： 5GMSA定义了一系列新的技术规范（TS 26.117-音频，TS 26.511-编解码，TS 26.512-协议），全面拥抱RESTful/HTTP架构，使得流媒体服务能够更方便地部署在云原生环境中，并与边缘计算（MEC）等5G能力相结合。

场景解读： 当苏菲点播电影时，5GMSA的AF可以向PCF申请一个专用的5QI（QoS Flow Identifier），确保电影数据流在网络中获得高优先级传输。如果苏菲的平板支持某种特定的HDR格式，这些信息也会被传递给AF，以便AF能推送最优的视频版本。这一切，都旨在提供无与伦-比的流媒体观看体验。

2.2 VR体验的量化与优化 (13.1.6)

苏菲正在为她的下一场VR直播进行测试。她最担心的，是观众的“眩晕感”，这通常由头部转动与画面更新之间的延迟（Motion-to-Photon Latency）引起。如何量化并优化这种体验？

The experienced Virtual Reality (VR) quality is dependent on a good service implementation as well as a fast and consistent transport network. To help service providers and operators to measure and optimize aspects related to the delivered VR service quality, specific VR-related metrics are useful. The VRQoE Work Item added the following functionality:

Defined VR metrics observation points.

Metrics describing the characteristics of the VR device…

Metrics describing the interaction delay…

Rel-16的**VR QoE度量（VR QoE metrics）**工作，首次将VR体验这种主观感受，量化为一系列可以测量的客观指标。

互动延迟（Interaction delay）： 测量从用户头部转动，到VR画面相应更新所花费的总时间。
视口切换延迟（Viewport switching latency）： 测量当用户视线快速切换时，新视口区域的画面从模糊变清晰所需要的时间。
渲染视口（Rendered viewports）： 统计用户在一次VR体验中，目光主要聚焦在哪些区域。

场景解读： 苏菲的VR直播平台，现在可以通过这些标准化的QoE指标，来精确评估其服务的性能瓶颈。例如，如果“互动延迟”过高，可能是网络传输时延的问题；如果“视口切换延迟”过长，则可能是边缘服务器的渲染能力不足。这些数据为运营商和应用开发者提供了优化VR体验的“导航图”。

2.3 更智能的协同：ANBR与RAN时延预算上报 (13.1.5 & 13.1.7)

为了实现更精细的体验优化，Rel-16还增强了终端、应用与网络之间的“对话”能力。

ANBR（接入网比特率推荐）：

…recommended additional speech and video adaptation capabilities based on access network bitrate recommendation (ANBR)…

在苏菲的视频通话中，基站（RAN）不再只是被动地传输数据。它可以主动地向苏菲的手机“推荐”一个当前最合适的编码速率：“根据现在的信道质量，我建议你使用1.5Mbps的编码速率”。通话应用收到这个建议后，可以立即调整其编码器，从而在画质和可靠性之间达到最佳平衡。这比应用自己根据丢包情况去“猜测”网络状况要精准得多。
RAN时延预算上报：

RAN delay budget reporting… allows UEs to locally adjust air interface delay… coordination between the UEs on an end-to-end basis.

这是一个更高级的协同机制。苏菲和她的制片人正在进行超低时延的远程协同剪辑。苏菲的网络环境很好，空口时延很低，但制片人那边的网络很差。苏菲的终端可以通过RTCP信令告知对方：“我这边可以再多承受5ms的延迟”。制片人的终端收到后，就可以向其所在的基站申请一个更大的空口时延预算（例如，增加重传次数来保证可靠性），从而用苏菲这边“富余”的时延，来弥补自己这边的“短板”，最终优化了端到端的整体体验。

3. 规范的演进：与时俱进，轻装前行

除了引入新功能，Rel-16也对一些旧有的规范和商业模式进行了与时俱进的清理和更新。

VoLTE按量计费 (13.1.3)： 传统VoLTE主要按时长计费。Rel-16引入了按流量计费的可能性，为运营商提供了更灵活的商业模式。
EVS编解码器一致性测试 (13.1.4)： EVS是当前最高质量的语音编解码器。为了保证不同厂商、不同实现（定点/浮点）的EVS编解码器之间能够完美互通，Rel-16定义了一套非比特精确的一致性测试方法，保障了通话质量的“金标准”。
老旧视频编码器退役 (13.1.8)：

This work item has removed any normative statements related to H.263 and MPEG-4 Visual from Rel-16 specifications… “Retiring” older codecs is needed due to the impact of codecs on hardware and/or softwareincluding area size, design and testing, and then on the cost.

Rel-16正式将古老的H.263和MPEG-4 Visual视频编码器从规范中“移除”。这就像软件升级时去掉了对老旧操作系统的支持，可以降低终端芯片的设计复杂度和成本，减少潜在的安全漏洞，让整个生态能够轻装上阵，聚焦于H.265 (HEVC)、H.266 (VVC)等更现代、更高效的编码技术。

总结：一场以用户为中心的品质革命

通过对第13章的深度解读，我们跟随苏菲体验了一场围绕多媒体业务的“品质革命”。Rel-16的核心贡献，在于它建立了一套全新的“体验保障”体系，其特点是协同、预测和量化。

协同作战： 通过CHEM、ANBR、RAN时延预算上报等机制，终端、应用和网络不再是各自为战，而是成了一个能够实时“对话”、协同优化的智能整体。
预测未来： 无论是CHEM对网络波动的感知，还是VR QoE对体验瓶颈的洞察，都体现了从“被动响应”到“主动预测与管理”的思维转变。
万物可量化： 通过标准化的VR QoE度量，Rel-16将模糊的“用户体验”变成了可以精确测量、分析和优化的工程指标。
架构现代化： 通过5GMSA的全新设计和对老旧规范的清理，Rel-16为未来的流媒体和沉浸式业务，构建了一个开放、高效、与云原生和边缘计算完美契合的现代化基础架构。

对于苏菲而言，这意味着更少的“技术焦虑”，更多的“创作自由”。对于整个多媒体产业而言，Rel-16则开启了新一轮的创新周期，一个更高清、更流畅、更沉浸、更智能的数字生活画卷，正在我们眼前徐徐展开。

FAQ环节

Q1：CHEM功能是否意味着我的手机在信号不好时，视频通话画质一定会下降？

A1：不一定，但可能性很大。CHEM的核心是一种“权衡”策略。当网络质量下降时，它提供了两个选项：一是硬扛着保持高质量传输，但这可能导致丢包和卡顿，甚至触发中断业务的切换；二是主动降低一些码率或增加冗余（可能导致画质轻微下降），以换取更强的抗丢包能力，从而避免卡顿和切换。在大多数情况下，后者能带来更平滑的整体体验。最终是否降低画质，取决于应用自身的策略和网络波动的严重程度。

Q2：5G SRVCC to 3G在现实中还有用武之地吗？毕竟3G网络正在逐步退网。

A2：在未来几年内仍然具有重要的现实意义。虽然全球3G退网是大趋势，但这个过程是不均衡的。在很多国家和地区的广袤农村、山区或偏远公路，可能在未来很长一段时间内，3G仍将是唯一的覆盖。对于跨国旅行、长途驾驶等场景，SRVCC是保障基础语音通信连续性的“最后一道防线”，确保在任何地方都能拨通紧急电话，其价值不容小觑。

Q3：5GMSA和我们现在用的Netflix、YouTube等流媒体服务有什么关系？

A3：5GMSA是底层承载架构的演进，旨在让Netflix、YouTube这类顶层应用（OTT）在5G网络上获得更好的服务体验。OTT应用可以通过调用5GMSA开放的API，与5G网络进行深度协同。例如，Netflix可以告诉网络“这是一部高价值的4K HDR电影”，网络则可以为其提供专用的QoS保障。同时，5GMSA采用CMAF等标准，也使得OTT的内容可以更便捷地在5G广播、边缘缓存等新场景下进行分发。

Q4：VR QoE度量标准是由谁来收集和使用的？是我个人吗？

A4：这些数据通常由VR应用或终端操作系统在后台匿名收集，并上报给VR服务提供商和网络运营商。您个人通常不会直接接触这些原始数据，但您会感受到它们带来的好处。服务提供商会利用这些数据来分析其平台的瓶颈（是内容编码问题、服务器问题还是网络问题？），并进行针对性优化。运营商则会利用这些数据来评估和优化其网络对VR业务的承载能力。

Q.5：为什么3GPP要花精力去“移除”一个老旧的视频编码器（H.263）？让它留着不好吗？

A5：“移除”的好处远大于“保留”。1) 降低成本与复杂性：每多支持一个编码器，手机芯片就需要增加相应的硬件编解码电路和软件，这会增加芯片的面积、功耗、成本和测试复杂度。2) 提升安全性：老旧的软件实现可能存在未被发现的安全漏洞，移除它们可以减少攻击面。3) 促进生态演进：通过“官宣”退役，3GPP向整个产业链发出了明确的信号，鼓励所有厂商都转向更高效、更现代的编码标准（如HEVC/VVC），这有利于整个视频产业的健康发展，避免碎片化。

51学通信

探索

深度解析 3GPP TR 21.916：13 Conversational services, Streaming and TV (会话、流媒体与电视业务)

深度解析 3GPP TR 21.916：13 Conversational services, Streaming and TV (会话、流媒体与电视业务)

引言：从“连接”到“体验”，5G多媒体业务的“品质革命”

1. 韧性为王：打造“永不掉线”的会话体验 (13.1 Conversational services)

1.1 主动适应：多媒体覆盖与切换增强 (CHEM)

1.2 极限回退：从5GS到3G的单频语音连续性 (5G-SRVCC)

2. 体验至上：流媒体与沉浸式业务的品质飞跃

2.1 5G媒体流媒体架构 (5GMSA)：流媒体的“新基建” (13.2.3)

2.2 VR体验的量化与优化 (13.1.6)

2.3 更智能的协同：ANBR与RAN时延预算上报 (13.1.5 & 13.1.7)

3. 规范的演进：与时俱进，轻装前行

总结：一场以用户为中心的品质革命

FAQ环节

关系图谱

目录