无线语义通信第2篇：语义编码与传输技术：图像与视频的智能压缩

摘要

本文将带你深入了解语义编码与传输技术，帮助你掌握如何通过知识图谱实现图像和视频的智能压缩。你将学习实体检测与关系识别技术、语义-空间域变换理论、VISTA视频传输框架、语义相似度度量方法，以及抗噪鲁棒语义通信系统设计。

学习目标

阅读完本文后，你将能够：

设计语义提取模块：掌握基于知识图谱的实体检测和关系识别方法
实现语义-空间变换：理解将语义信息投影到三维张量的技术原理
构建视频语义传输系统：掌握VISTA框架的语义分割、JSCC和帧插值模块
度量语义保真度：理解GGSS和IISS语义相似度度量方法
设计鲁棒语义通信：掌握应对语义噪声和信道干扰的防御策略
应用GAN生成技术：理解生成对抗网络在语义恢复中的应用

第一章：知识图谱驱动的图像语义通信

1.1 端到端语义通信框架概述

基于知识图谱的图像语义通信框架代表了语义通信技术的重要发展方向。该框架的核心思想是将图像的语义信息表示为知识图谱，通过语义-空间域变换实现高效传输。

flowchart TD
    A[原始图像 X] --> B[语义编码]

    B --> B1[实体检测]
    B --> B2[关系识别]
    B --> B3[知识图谱构建 G]

    B3 --> C[语义-空间域变换]
    C --> D[三维张量 Φ]

    D --> E[无线信道传输]
    E --> F[接收三维张量 Φ̂]

    F --> G[空间-语义域逆变换]
    G --> H[知识图谱恢复 Ĝ]

    H --> I[语义解码]
    I --> J[图像生成]

    J --> K[重建图像 X̂]

    L[发送端知识库] -.-> B1
    L -.-> B2
    M[接收端知识库] -.-> I
    N[信道噪声] -.-> E
    O[语义噪声] -.-> E

图表讲解：这个流程图展示了完整的端到端图像语义通信框架。原始图像首先经过语义编码，包括实体检测和关系识别，构建出知识图谱。然后通过语义-空间域变换，将知识图谱投影为三维张量。这个张量通过无线信道传输，受到信道噪声和语义噪声的影响。接收端进行逆变换，恢复出知识图谱，最后通过语义解码和图像生成，得到重建图像。发送端和接收端的知识库在整个过程中提供辅助。这个框架的关键创新在于将语义信息映射到空间域，使得传统的图像处理技术可以应用于语义通信。

1.2 实体检测模块

实体检测是语义编码的第一步，其目标是从图像中识别出所有有意义的实体，并为每个实体定位其空间位置。

1.2.1 基于CNN的实体检测

卷积神经网络（CNN）是实体检测的主流技术。典型的CNN检测框架包括以下几个步骤：

特征提取：使用预训练的CNN（如ResNet、VGG等）提取图像的深层特征
区域建议：通过RPN（Region Proposal Network）或类似机制生成候选区域
分类与定位：对每个候选区域进行分类并精调边界框

1.2.2 语义模糊度建模

在实际应用中，实体检测不可避免地存在不确定性。我们使用标签分布学习（LDL）理论来建模这种语义模糊度。

flowchart TD
    A[输入图像块 Xk] --> B[LDL模块]

    B --> C[类别置信度计算]
    C --> D[wk = p(o1|Xk), p(o2|Xk), ..., p(oM|Xk)]

    D --> E{最大概率 > 阈值?}
    E -->|是| F[检测成功]
    E -->|否| G[丢弃]

    F --> H[输出实体 (ok, dk)]
    G --> I[不参与编码]

    H --> J[实体集合 E = {(o1,d1), (o2,d2), ...}]

图表讲解：这个流程图展示了基于LDL的实体检测过程。对于输入的图像块，LDL模块计算其在所有可能类别上的置信度分布。如果最大置信度超过预设阈值，则认为检测成功，输出实体的类别和位置信息；否则丢弃该图像块。通过这种方式，可以过滤掉置信度低的检测结果，提高语义编码的可靠性。最终输出的实体集合构成了知识图谱的节点。

语义模糊度的计算基于概率分布。对于一个图像块Xk，其输出是一个M维的置信度向量wk，其中每个元素ui表示该图像块属于第i个实体的概率。这个概率分布直观地反映了检测的不确定性——如果某个类别的概率显著高于其他类别，说明检测比较确定；如果多个类别的概率接近，说明存在较大的模糊性。

1.3 关系检测模块

关系检测的目标是识别图像中不同实体之间的语义关系。这是构建知识图谱的关键步骤，因为单独的实体无法描述完整的场景。

1.3.1 关系张量

关系张量是一种高效的关系表示方法。对于M个实体类别和L种可能的关系，关系张量T ∈ R^(M×M×L) 记录了每对实体之间每种关系的出现次数。

关系三元组	张量元素	含义
(人, 马, 喂养)	T(i, j, l)	第i个实体是”人”，第j个实体是”马”，关系为”喂养”的出现次数
(女人, 马, 喂养)	T(i’, j, l)	不同实体组合的相同关系
(农夫, 鸡, 喂养)	T(i”, j”, l)	另一种实体组合的喂养关系

flowchart LR
    A[关系张量 T] --> B[第一维度: 头实体]
    A --> C[第二维度: 尾实体]
    A --> D[第三维度: 关系类型]

    B --> E[人, 女人, 农夫, ...]
    C --> F[马, 鸡, 车, ...]
    D --> G[喂养, 吃东西, 拿着, ...]

    E --> H["T(人, 马, 喂养) = 0.92"]
    F --> H
    G --> H

    E --> I["T(女人, 马, 喂养) = 0.91"]
    F --> I
    G --> I

    E --> J["T(农夫, 鸡, 喂养) = 0.65"]
    F --> J
    G --> J

图表讲解：这个流程图展示了关系张量的结构和内容。关系张量是一个三维数据结构，第一维表示头实体，第二维表示尾实体，第三维表示关系类型。张量中的每个元素表示对应实体对之间对应关系的出现频率或概率。例如，T(人, 马, 喂养) = 0.92表示”人”和”马”之间存在”喂养”关系的概率很高。通过关系张量，可以高效地存储和查询实体之间的关系信息，为关系检测提供统计基础。

1.3.2 关系预测算法

基于关系张量，可以设计简单而高效的关系预测算法：

步骤1：检测得到实体i和实体j

步骤2：查询关系张量，找到最大值

rij = argmax_l T(i, j, l)

步骤3：判断关系是否存在如果 max_l T(i, j, l) ≥ ζs，则存在关系rij；否则认为两个实体之间没有直接关系

其中ζs是关系存在的阈值，用于过滤掉不确定的弱关系。

1.4 知识图谱构建

通过实体检测和关系检测，可以构建出完整的知识图谱。知识图谱G = {E, R}由实体集E和关系集R组成。

flowchart TD
    A[原始图像] --> B[实体检测]
    B --> C[实体集 E]
    C --> C1[(人, d1)]
    C --> C2[(马, d2)]
    C --> C3[(眼镜, d3)]
    C --> C4[(桶, d4)]

    A --> D[关系检测]
    D --> E[关系集 R]
    E --> E1[(人, 戴, 眼镜)]
    E --> E2[(人, 喂养, 马)]
    E --> E3[(马, 从...吃, 桶)]

    C --> F[知识图谱 G = {E, R}]
    E --> F

图表讲解：这个流程图展示了从原始图像到知识图谱的构建过程。实体检测模块从图像中提取出”人”、“马”、“眼镜”、“桶”等实体及其位置信息。关系检测模块识别出这些实体之间的关系，如”人戴着眼镜”、“人喂养马”、“马从桶里吃”等。最后，实体集和关系集组合成完整的知识图谱。这个知识图谱以结构化的形式表示了图像的语义内容，为后续的语义传输奠定了基础。

第二章：语义-空间域变换技术

2.1 变换理论

语义-空间域变换是知识图谱驱动的图像语义通信框架的核心创新。其基本思想是将语义域的知识图谱投影到空间域的三维张量，使得传统的图像传输技术可以应用于语义信息的传输。

2.1.1 变换动机

数字图像对信道噪声引起的比特错误非常敏感。在传统的图像通信系统中，图像以像素矩阵的形式传输，任何比特错误都可能导致图像质量的明显下降。

从语义通信的角度来看，信道噪声和语义噪声都会导致语义信息的误识别和解释失真。因此，我们需要一种能够直观反映物理噪声对语义信息干扰的表示方法。

2.1.2 变换方法

变换的核心是将语义域中实体的语义模糊度w映射为空间域中位置(x, y)处的强度值f。

flowchart TD
    A[语义域<br>知识图谱] --> B[实体集合 E]
    B --> C[实体1: (o1, d1, w1)]
    B --> D[实体2: (o2, d2, w2)]
    B --> E[实体K: (oK, dK, wK)]

    C --> F[位置映射<br>d1 → (x1, y1)]
    D --> G[位置映射<br>d2 → (x2, y2)]
    E --> H[位置映射<br>dK → (xK, yK)]

    F --> I[强度映射<br>w1 → f1]
    G --> J[强度映射<br>w2 → f2]
    H --> K[强度映射<br>wK → fK]

    I --> L[三维张量 Φ]
    J --> L
    K --> L

    L --> M[空间域<br>表示]

图表讲解：这个流程图展示了从语义域到空间域的变换过程。知识图谱中的每个实体包含三个关键信息：类别o、位置d和语义模糊度w。位置d通过空间坐标变换映射为三维张量中的空间位置(x, y)，语义模糊度w映射为该位置的强度值f。通过这种变换，语义信息被编码为类似图像的三维张量表示，可以应用成熟的图像传输技术。

这种变换的合理性在于：从数字图像处理的角度，图像在摄取或传输过程中受到的随机信号干扰表现为图像信息或像素亮度的随机变化。从语义层面来看，语义信息在编译、传输和解码过程中受到的干扰导致语义信息的误识别和解释失真。将语义模糊度与像素强度值关联，既符合数学处理的便利性，也符合人类感知的特点。

2.2 三维张量结构

三维张量Φ ∈ R^(Hκ×Wκ×M) 的结构设计需要考虑多个因素：

维度	含义	设计考虑
Hκ	张量高度	等于特征图高度，通常为原图高度除以步长κ
Wκ	张量宽度	等于特征图宽度，通常为原图宽度除以步长κ
M	通道数	等于实体类别总数，每个通道对应一个实体类别

张量的每个元素Φ(x, y, i)表示空间位置(x, y)处属于第i个实体的语义模糊度。

flowchart LR
    A[三维张量结构] --> B[高度维度 Hκ]
    A --> C[宽度维度 Wκ]
    A --> D[通道维度 M]

    B --> B1["特征图行数<br>例如: 5"]
    C --> C1["特征图列数<br>例如: 5"]
    D --> D1["实体类别数<br>例如: 检测到4个实体"]

    B1 --> E["张量形状: 5×5×M"]
    C1 --> E
    D1 --> E

    E --> F[语义-空间表示]

图表讲解：这个流程图展示了三维张量的结构设计。张量的空间维度（高度和宽度）由特征图的大小决定，而特征图大小又由网络步长κ决定。例如，如果原图大小为H×W，步长为κ，则特征图大小为(H/κ)×(W/κ)。张量的通道维度等于实体类别的总数，每个通道对应一个实体类别。这种设计使得张量能够同时编码实体的空间位置和类别信息。

2.3 逆变换与知识图谱恢复

在接收端，需要进行逆变换从三维张量恢复知识图谱。逆变换过程包括以下步骤：

步骤1：找到张量中所有非零强度值

{(x, y, i) | Φ̂(x, y, i) ≠ 0}

步骤2：将空间位置映射回实体位置

d̂k = (xk, yk)

步骤3：将强度值映射回语义模糊度

ŵk = Φ̂(xk, yk, ik)

步骤4：构建实体集和关系集，得到恢复的知识图谱Ĝ = {Ê, R̂}

第三章：语义相似度度量

3.1 语义保真度的挑战

传统的图像质量度量指标如PSNR、SSIM等衡量的是像素级或结构级相似性，无法反映语义层面的保真度。例如，两张图像在语义上可能非常相似（都描述”一个人在喂马”），但像素细节可能完全不同。

为了准确评估语义通信的性能，需要发展语义层面的相似度度量方法。

3.2 图到图语义相似度（GGSS）

图到图语义相似度（Graph-to-Graph Semantic Similarity，GGSS）用于衡量两个知识图谱之间的语义相似性。

3.2.1 Wasserstein距离

Wasserstein距离（WD）是一种经典的图距离度量，它计算两个概率分布之间的最优传输代价。

对于两个知识图谱G和Ĝ，Wasserstein距离定义为：

WD(G, Ĝ) = min_T Σ(i,j) T(i,j) · d(i,j)

其中T是传输计划，d(i,j)是节点i和j之间的距离。

3.2.2 Gromov-Wasserstein距离

Wasserstein距离只考虑节点之间的距离，忽略了图的拓扑结构。Gromov-Wasserstein距离（GWD）同时考虑节点距离和边关系，能够更好地捕捉图的结构相似性。

flowchart TD
    A[GGSS度量方法] --> B[Wasserstein距离 WD]
    A --> C[Gromov-Wasserstein距离 GWD]
    A --> D[混合度量]

    B --> B1[优点: 计算简单]
    B --> B2[缺点: 忽略拓扑结构]
    B --> B3[适用: 节点对齐]

    C --> C1[优点: 考虑结构]
    C --> C2[缺点: 计算复杂]
    C --> C3[适用: 图匹配]

    D --> D1[优点: 综合性能]
    D --> D2[缺点: 参数调优]
    D --> D3[适用: 通用场景]

图表讲解：这个流程图比较了三种图到图语义相似度度量方法。Wasserstein距离计算简单，但只考虑节点距离，忽略了图的拓扑结构，适用于节点对齐场景。Gromov-Wasserstein距离同时考虑节点和边关系，能够更好地捕捉图的结构相似性，但计算复杂度较高，适用于图匹配任务。混合度量试图结合两者的优点，但需要参数调优。在实际应用中，需要根据具体需求选择合适的度量方法。

3.3 图像到图像语义相似度（IISS）

图像到图像语义相似度（Image-to-Image Semantic Similarity，IISS）直接衡量两幅图像在语义层面的相似性。

IISS的设计需要符合人类感知。例如，对于图像”一个人在喂马”和”一个农夫在喂养一匹马”，人类会认为它们在语义上是相似的，尽管像素细节可能不同。

一种实现IISS的方法是基于视觉问答（VQA）任务的准确率。具体来说，将重建图像输入到VQA系统，比较其对一组问题的回答与原始图像的回答是否一致。

问题类型	示例问题	语义相关
对象识别	”图像中有马吗？“	直接相关
关系理解	”人和马之间是什么关系？“	直接相关
场景理解	”这是在农场还是草原？“	间接相关
细节属性	”马是什么颜色的？“	较弱相关

第四章：VISTA视频语义传输框架

4.1 VISTA框架概述

VISTA（VIdeo transmission over Semantic communicaTion Approach）是一个专为视频传输设计的语义通信框架。视频数据量巨大，传统传输方式需要极高的带宽。VISTA通过只传输关键语义信息，大幅降低带宽需求。

flowchart TD
    A[VISTA框架] --> B[发送端]
    A --> C[信道]
    A --> D[接收端]

    B --> B1[语义分割模块]
    B --> B2[JSCC模块]

    C --> C1[无线信道]

    D --> D1[帧插值模块]
    D --> D2[视频重建]

    B1 --> B1a[对象检测]
    B1 --> B1b[轨迹预测]
    B1 --> B1c[SLG构建]

    B2 --> B2a[语义编码]
    B2 --> B2b[信道编码]

    D1 --> D1a[帧插值]
    D1 --> D1b[时序平滑]

图表讲解：这个流程图展示了VISTA框架的整体架构。发送端包含两个核心模块：语义分割模块负责从视频中提取语义信息，JSCC模块负责语义编码和信道编码。接收端包含帧插值模块，负责从有限的语义帧中重建完整的视频。VISTA的创新在于将视频传输问题分解为语义提取、语义传输和语义恢复三个子问题，每个子问题都针对性地优化。

4.2 语义分割模块

语义分割模块是VISTA的核心组件，负责从视频帧中提取关键的语义信息。

4.2.1 对象检测

对象检测使用深度学习模型（如YOLO、Faster R-CNN等）识别视频帧中的所有对象及其位置。

4.2.2 轨迹预测

轨迹预测模型预测对象的运动轨迹，用于确定哪些帧是关键帧，哪些帧可以跳过。

sequenceDiagram
    autonumber
    participant Frame as 视频帧流
    participant Detect as 对象检测
    participant Track as 轨迹预测
    participant Sample as 帧采样

    Frame->>Detect: 连续帧输入
    Detect->>Track: 对象位置序列
    Track->>Track: 预测运动轨迹
    Track->>Sample: 轨迹信息

    Note over Sample: 采样策略判断
    Sample->>Sample: 轨迹变化大→关键帧
    Sample->>Sample: 轨迹变化小→跳过帧

    Sample->>Frame: 输出关键帧列表

图表讲解：这个序列图展示了基于轨迹预测的帧采样流程。视频帧流首先经过对象检测，得到每帧中对象的位置序列。轨迹预测模块分析这些位置序列，预测对象的运动轨迹。帧采样模块根据轨迹变化决定帧的重要性：轨迹变化大的帧被标记为关键帧，需要传输；轨迹变化小的帧可以跳过，通过插值恢复。这种智能采样策略可以大幅减少需要传输的帧数，同时保持视频的语义质量。

4.2.3 SLG构建

SLG（Semantic Link Graph）是语义链接图的缩写，用于表示对象之间的关系和时序变化。

SLG的节点表示对象或对象状态，边表示对象之间的关系或状态转换。通过SLG，可以将视频的动态内容编码为紧凑的图结构。

4.3 JSCC模块

JSCC（Joint Source-Channel Coding）模块实现语义信息的联合信源信道编码，自适应地应对信道条件的变化。

4.3.1 自适应编码

JSCC模块根据实时信道SNR调整编码参数：

flowchart TD
    A[SNR监测] --> B{SNR水平}
    B -->|高SNR| C[高码率编码<br>传输更多细节]
    B -->|中SNR| D[中码率编码<br>平衡质量和鲁棒性]
    B -->|低SNR| E[低码率编码<br>优先保证鲁棒性]

    C --> F[调制方式: 高阶QAM]
    D --> G[调制方式: QPSK/16QAM]
    E --> H[调制方式: BPSK/QPSK]

图表讲解：这个流程图展示了JSCC模块的自适应编码策略。系统持续监测信道SNR，根据SNR水平动态调整编码参数。在高SNR条件下，使用高码率编码和高阶调制（如64QAM、256QAM），传输更多语义细节。在中等SNR条件下，使用中等码率和QPSK/16QAM调制，平衡质量和鲁棒性。在低SNR条件下，使用低码率和BPSK/QPSK调制，优先保证基本语义的可靠传输。这种自适应策略确保在各种信道条件下都能获得最佳的语义传输性能。

4.3.2 码率分配

JSCC还需要在不同的语义信息之间分配码率。重要的语义信息（如主要对象、关键关系）分配更多码率，次要信息分配较少码率。

4.4 帧插值模块

帧插值模块在接收端从关键帧恢复完整的视频序列。

4.4.1 基于运动的插值

对于运动简单的场景，可以使用基于光流的运动插值方法。通过估计相邻关键帧之间的运动场，可以生成中间帧。

4.4.2 基于生成的插值

对于复杂的场景变化，可以使用基于深度学习的生成模型来插值。生成对抗网络（GAN）和扩散模型都是可选的技术路线。

flowchart TD
    A[帧插值方法选择] --> B{场景复杂度}
    B -->|简单运动| C[基于光流的插值]
    B -->|复杂变化| D[基于GAN的生成]
    B -->|非常复杂| E[基于扩散模型的生成]

    C --> C1[优点: 速度快]
    C --> C2[缺点: 适用范围有限]

    D --> D1[优点: 质量好]
    D --> D2[缺点: 训练复杂]

    E --> E1[优点: 生成能力强]
    E --> E2[缺点: 推理速度慢]

图表讲解：这个流程图展示了帧插值方法的选择策略。对于运动简单的场景，基于光流的插值方法速度快，效果良好。对于复杂的场景变化，基于GAN的生成方法可以获得更好的质量，但需要复杂的训练过程。对于非常复杂的场景，基于扩散模型的生成方法具有最强的生成能力，但推理速度较慢。在实际系统中，可以根据场景复杂度动态选择合适的插值方法，或者组合使用多种方法。

第五章：鲁棒语义通信技术

5.1 语义噪声问题

语义噪声是指由于对抗攻击或模型缺陷导致的语义理解错误。与信道噪声不同，语义噪声可能完全破坏语义通信的有效性。

5.1.1 语义噪声的来源

源端语义噪声：在语义编码阶段引入的噪声，可能由对抗攻击导致。

信道语义噪声：在传输过程中引入的语义扰动，可能由针对信道的对抗攻击导致。

flowchart TD
    A[语义通信系统] --> B[源端]
    A --> C[信道]
    A --> D[接收端]

    B --> B1[语义编码器]
    B1 --> B2[对抗攻击?]
    B2 -->|是| B3[源端语义噪声 v1]
    B2 -->|否| B4[正常编码]

    C --> C1[信道传输]
    C1 --> C2[对抗攻击?]
    C2 -->|是| C3[信道语义噪声 v2]
    C2 -->|否| C4[正常传输]

    B3 --> E[含噪声的语义]
    C3 --> E
    B4 --> F[干净的语义]
    C4 --> F

    E --> D
    F --> D

图表讲解：这个流程图展示了语义噪声在通信系统中的产生位置。源端的对抗攻击可以在语义编码阶段引入噪声v1。信道的对抗攻击可以在传输过程中引入噪声v2。这些噪声会污染语义信息，导致接收端的语义理解错误。设计鲁棒的语义通信系统需要考虑这两种噪声的影响，并设计相应的防御机制。

5.2 双降噪模块设计

为了应对语义噪声，可以设计双降噪模块架构：一个降噪模块位于源端，另一个位于信道解码器之后。

5.2.1 源端降噪模块

源端降噪模块通常采用对抗训练的方法。通过在训练过程中引入对抗样本，使得语义编码器对语义噪声具有鲁棒性。

5.2.2 信道端降噪模块

信道端降噪模块通常采用去噪自编码器（DAE）结构。DAE通过学习从噪声数据恢复干净数据的能力，可以有效抑制信道噪声和语义噪声的影响。

flowchart TD
    A[输入语义] --> B[语义编码]
    B --> C[源端降噪模块]
    C --> D[信道编码]
    D --> E[信道传输]

    E --> F[接收信号<br>含噪声]
    F --> G[信道解码]
    G --> H[信道端降噪模块<br>DAE]
    H --> I[语义解码]

    C --> C1[对抗训练]
    H --> H1[去噪自编码器]

    style C fill:#f9f,stroke:#333
    style H fill:#f9f,stroke:#333

图表讲解：这个流程图展示了双降噪模块的部署位置和作用。源端降噪模块位于语义编码之后、信道编码之前，使用对抗训练技术增强编码器的鲁棒性。信道端降噪模块位于信道解码之后、语义解码之前，使用去噪自编码器从接收到的噪声数据中恢复干净语义。两个降噪模块协同工作，可以有效抑制源端和信道端的语义噪声，提高整个系统的鲁棒性。

5.3 性能评估

鲁棒语义通信系统的性能通常通过分类准确率、语义保真度等指标评估。

在不同信道条件下的性能表现：

信道类型	特点	鲁棒性挑战	解决方案
AWGN信道	加性噪声	相对简单	传统降噪
Rayleigh信道	多径衰落	较复杂	分集技术
Rician信道	视距分量	中等复杂度	自适应编码

实际测试表明，双降噪模块架构在各种信道条件下都能显著提升系统的鲁棒性。在低SNR条件下，性能提升尤为明显。

第六章：生成对抗网络在语义恢复中的应用

6.1 GAN基础

生成对抗网络（GAN）由生成器和判别器组成，通过对抗训练学习数据分布。

在语义通信中，GAN可以用于：

语义去噪：从噪声语义特征恢复干净语义
图像生成：从语义知识图谱生成逼真的图像
超分辨率：从低分辨率语义生成高分辨率图像

6.2 内容感知的语义传输

内容感知的语义传输根据图像内容的不同区域采用不同的传输策略。

6.2.1 ROI与RONI划分

ROI（Region of Interest）：感兴趣区域，包含重要的语义信息，需要高保真传输。

RONI（Region of Non-Interest）：不感兴趣区域，包含较少的语义信息，可以采用更激进的压缩。

flowchart TD
    A[输入图像] --> B[语义分析]
    B --> C[ROI检测]
    B --> D[RONI检测]

    C --> E[高精度量化]
    D --> F[低精度量化]

    E --> G[ROI语义特征]
    F --> H[RONI语义特征]

    G --> I[合并传输]
    H --> I

    I --> J[接收端恢复]

图表讲解：这个流程图展示了内容感知的语义传输流程。输入图像首先进行语义分析，区分ROI和RONI区域。ROI区域使用高精度量化，保留丰富的语义细节；RONI区域使用低精度量化，大幅减少数据量。两类区域的语义特征合并后传输，接收端可以根据区域类型采用不同的恢复策略。这种内容感知的方法可以在保证关键语义质量的前提下，实现更高的压缩效率。

实验表明，通过降低RONI的量化精度，可以将传输数据量减少60%以上，而下游语义分割任务的性能几乎不受影响。

常见问题解答

Q1：知识图谱驱动的图像语义通信相比传统方法有什么优势？

答：知识图谱驱动的图像语义通信通过结构化表示和语义-空间变换实现了多个方面的优势。首先，知识图谱以实体和关系的形式表示图像内容，这种结构化表示天然具有数据压缩能力。例如，一张包含”一个人喂马”场景的图像可能需要数百万字节的存储，而其知识图谱表示可能只需要几十个字节。

其次，语义-空间变换将抽象的语义信息映射到具象的空间表示，使得成熟的图像传输技术可以直接应用于语义通信。这种变换还有助于理解信道噪声对语义信息的干扰机制，为设计更鲁棒的通信系统提供了理论基础。

第三，知识图谱表示天然支持语义层面的质量评估。通过图匹配技术，可以直接衡量传输前后语义信息的相似性，而不需要依赖像素级的质量指标。

实际应用中，知识图谱驱动的方法在低带宽条件下的表现尤为突出。在带宽受限的场景下，传统方法需要大幅降低分辨率或采用极端的压缩参数，导致图像质量严重下降。而语义通信可以通过只传输核心语义信息，保持场景的可理解性。

Q2：VISTA框架如何实现视频的高效传输？

答：VISTA框架通过智能采样和联合编码实现了视频的高效传输。传统视频传输方法通常采用帧间预测和变换编码，虽然能够去除时间冗余，但仍然需要传输大量的纹理和运动信息。

VISTA的创新在于将视频传输问题分解为三个子问题：语义提取、语义传输和语义恢复。在语义提取阶段，通过对象检测和轨迹预测，识别出视频中的关键对象和关键时刻。只有这些关键帧需要传输，中间帧可以通过插值恢复。

在语义传输阶段，JSCC模块根据信道条件自适应调整编码参数。在高SNR条件下，传输更多语义细节；在低SNR条件下，优先保证核心语义的可靠传输。这种自适应策略确保在各种信道条件下都能获得最佳的语义传输性能。

在语义恢复阶段，帧插值模块根据接收到的关键帧和对象轨迹信息，生成中间帧。对于简单运动，使用基于光流的插值；对于复杂场景变化，使用基于GAN或扩散模型的生成方法。

实验表明，VISTA可以在保持视频语义质量的前提下，将所需带宽降低50%以上。这对于移动视频、视频会议等带宽敏感应用具有重要价值。

Q3：如何度量语义保真度？

答：语义保真度的度量是语义通信的核心问题，传统方法无法直接应用。语义保真度关注的是信息的意义是否保持一致，而非数据是否精确相同。

对于图像语义通信，有两种主要的度量方法。第一种是图到图语义相似度（GGSS），用于衡量两个知识图谱之间的相似性。GGSS基于图最优传输理论，同时考虑节点相似性和图结构相似性。Wasserstein距离计算简单，但只考虑节点距离；Gromov-Wasserstein距离同时考虑节点和边关系，能够更好地捕捉图的结构相似性。

第二种是图像到图像语义相似度（IISS），直接衡量两幅图像在语义层面的相似性。一种实现方法是基于视觉问答（VQA）任务。具体来说，将重建图像和原始图像分别输入VQA系统，比较它们对一组问题的回答是否一致。如果回答一致度高，说明两幅图像在语义上是相似的。

这两种度量方法各有优势。GGSS直接作用于语义表示，计算效率高；IISS与人类感知更一致，但计算复杂度较高。在实际系统中，可以根据应用场景选择合适的度量方法，或者结合使用多种方法进行综合评估。

Q4：语义噪声与信道噪声有什么区别？如何防御？

答：语义噪声和信道噪声是语义通信面临的两种不同类型的干扰，它们的特点和防御方法都有显著差异。

信道噪声是无线信道的物理特性，表现为信号幅度和相位的随机扰动。传统通信系统已经发展了完善的抗信道噪声技术，如信道编码、分集技术、自适应调制等。这些技术在语义通信中仍然有效，但需要针对语义信息的特点进行优化。

语义噪声是针对语义理解模型的攻击或缺陷导致的。它可能来源于对抗攻击——在图像或语义特征中添加人类不可感知的微小扰动，却能导致深度学习模型产生错误的理解。语义噪声的隐蔽性很强，可能完全破坏语义通信的有效性。

防御语义噪声需要专门的技术。一种方法是对抗训练，在训练过程中引入各种对抗样本，使得模型对语义噪声具有鲁棒性。另一种方法是去噪模块，在编码和解码阶段部署降噪网络，自动检测和消除语义噪声。第三种方法是差分隐私，通过在语义特征中添加精心设计的噪声，保护模型免受对抗攻击的影响。

在实际系统中，通常需要同时防御信道噪声和语义噪声。双降噪模块架构是一个有效的方案：源端降噪模块防御对抗攻击，信道端降噪模块抑制信道噪声。两个模块协同工作，可以显著提升系统的鲁棒性。

Q5：生成对抗网络在语义通信中有什么应用？

答：生成对抗网络（GAN）在语义通信中有多种应用，从语义去噪到图像生成，都能发挥重要作用。

首先，GAN可以用于语义去噪。在语义编码过程中，可能会引入语义噪声；在信道传输过程中，信道噪声和对抗攻击也会污染语义特征。GAN的生成器可以学习从噪声语义特征恢复干净语义特征的能力，判别器则区分真实的干净特征和恢复的特征。通过对抗训练，生成器能够生成高质量的干净语义特征。

其次，GAN可以用于图像生成。在接收端，需要从知识图谱或其他语义表示生成最终的图像。GAN的生成器可以根据语义表示生成逼真的图像，判别器则确保生成的图像与真实图像难以区分。这种应用在图像语义通信中尤为重要，因为接收端需要从抽象的语义信息重建具体的图像。

第三，GAN可以用于内容感知的语义传输。通过分析图像内容，将图像划分为ROI和RONI区域。ROI区域包含重要的语义信息，需要高保真传输；RONI区域包含较少的语义信息，可以采用更激进的压缩。GAN可以帮助识别ROI和RONI，并设计相应的编码策略。

实际应用中，GAN的训练稳定性是一个挑战。可以采用Wasserstein GAN、谱归一化等技术稳定训练过程。此外，GAN的生成质量需要与语义保真度要求相平衡，这需要在训练目标和网络架构上进行精心设计。

总结

本文全面介绍了语义编码与传输技术，涵盖了从图像到视频的多种应用场景。知识图谱驱动的图像语义通信通过实体检测、关系识别和语义-空间变换实现了高效的语义表示和传输。VISTA视频语义传输框架通过智能采样和联合编码大幅降低了视频传输的带宽需求。语义相似度度量和鲁棒通信技术为系统的性能评估和可靠运行提供了保障。

这些技术的不断发展和完善，正在推动语义通信从理论走向实际应用，为未来的6G网络和元宇宙应用提供高效的通信解决方案。

下篇预告

下一篇将深入探讨知识驱动的语义通信，详细介绍知识图谱的构建与演化、大语言模型辅助的语义通信、个性化知识适配，以及知识差异对隐私的影响与保护方法。

51学通信

探索

无线语义通信 第2篇：语义编码与传输技术：图像与视频的智能压缩

无线语义通信 第2篇：语义编码与传输技术：图像与视频的智能压缩

摘要

学习目标

第一章：知识图谱驱动的图像语义通信

1.1 端到端语义通信框架概述

1.2 实体检测模块

1.2.1 基于CNN的实体检测

1.2.2 语义模糊度建模

1.3 关系检测模块

1.3.1 关系张量

1.3.2 关系预测算法

1.4 知识图谱构建

第二章：语义-空间域变换技术

2.1 变换理论

2.1.1 变换动机

2.1.2 变换方法

2.2 三维张量结构

2.3 逆变换与知识图谱恢复

第三章：语义相似度度量

3.1 语义保真度的挑战

3.2 图到图语义相似度（GGSS）

3.2.1 Wasserstein距离

3.2.2 Gromov-Wasserstein距离

3.3 图像到图像语义相似度（IISS）

第四章：VISTA视频语义传输框架

4.1 VISTA框架概述

4.2 语义分割模块

4.2.1 对象检测

4.2.2 轨迹预测

4.2.3 SLG构建

4.3 JSCC模块

4.3.1 自适应编码

4.3.2 码率分配

4.4 帧插值模块

4.4.1 基于运动的插值

4.4.2 基于生成的插值

第五章：鲁棒语义通信技术

5.1 语义噪声问题

5.1.1 语义噪声的来源

5.2 双降噪模块设计

5.2.1 源端降噪模块

5.2.2 信道端降噪模块

5.3 性能评估

第六章：生成对抗网络在语义恢复中的应用

6.1 GAN基础

6.2 内容感知的语义传输

6.2.1 ROI与RONI划分

常见问题解答

Q1：知识图谱驱动的图像语义通信相比传统方法有什么优势？

Q2：VISTA框架如何实现视频的高效传输？

Q3：如何度量语义保真度？

Q4：语义噪声与信道噪声有什么区别？如何防御？

Q5：生成对抗网络在语义通信中有什么应用？

总结

下篇预告

关系图谱

目录

无线语义通信第2篇：语义编码与传输技术：图像与视频的智能压缩

无线语义通信第2篇：语义编码与传输技术：图像与视频的智能压缩