[无人机辅助智能车联网实战指南] 第 3 篇：资源分配与优化算法

摘要

本文将带你深入理解无人机辅助车联网中的资源分配与优化算法，帮助你掌握网络资源的智能分配方法。你将学到功率分配策略、频谱资源管理、用户关联与分组、多智能体强化学习、深度学习优化算法等关键技术知识。

学习目标

阅读完本文后，你将能够：

能力1：设计高效的功率分配方案，在保证服务质量的前提下最大化系统能效
能力2：实现智能的频谱资源管理，提高频谱利用率和系统容量
能力3：应用强化学习和深度学习算法解决复杂的资源优化问题

一、资源分配问题概述

1.1 资源分配的重要性

无人机辅助车联网系统中的无线资源极其宝贵，需要精心规划和分配。这些资源包括功率资源、频谱资源、时间资源、空间资源和计算资源等。合理的资源分配可以直接影响系统的性能指标，如频谱效率、能量效率、时延、可靠性和公平性等。

与传统地面通信相比，无人机辅助车联网的资源分配面临独特的挑战：

资源约束更严格：无人机通常由电池供电，能耗预算有限；频谱资源紧张，特别是授权频段；计算能力受限于无人机载荷。

信道动态性更强：无人机和车辆的移动性导致信道状态快速变化，资源分配算法需要具有自适应能力。

用户分布更不均匀：车辆在道路上的分布呈现明显的聚集特性，热点区域的资源需求远高于其他区域。

干扰环境更复杂：空地链路和地地链路共存，同频干扰和邻频干扰的协调更加困难。

1.2 资源分配的目标函数

资源分配优化问题的目标函数可以有多种形式，取决于系统设计的需求：

频谱效率最大化：最大化系统总吞吐量或单位频谱吞吐量。这是最常见的优化目标，特别适用于数据密集型应用。

能量效率最大化：最大化单位能耗传输的数据量。对于能耗受限的无人机系统，这是一个关键指标。

时延最小化：最小化数据传输的平均时延或最大时延。这对于车联网中的安全应用（如碰撞预警）至关重要。

公平性最大化：保证所有用户获得公平的资源份额。常用的公平性度量包括比例公平、最大最小公平等。

效用最大化：综合考虑吞吐量、时延、能耗等多个因素的系统级效用函数。

flowchart TD
    A[资源分配目标函数] --> B[频谱效率]
    A --> C[能量效率]
    A --> D[时延优化]
    A --> E[公平性]
    A --> F[综合效用]

    B --> B1[系统总吞吐量]
    B --> B2[单位频谱吞吐量]
    B --> B3[边缘用户吞吐量]

    C --> C1[比特每焦耳]
    C --> C2[无人机飞行时间]
    C --> C3[网络生命周期]

    D --> D1[平均时延]
    D --> D2[最大时延]
    D --> D3[时延抖动]

    E --> E1[比例公平]
    E --> E2[最大最小公平]
    E --> E3[加权公平]

    F --> F1[多目标加权和]
    F --> F2[帕累托最优]
    F --> F3[约束满足]

    style A fill:#e1f5ff
    style B fill:#c8e6c9
    style C fill:#ffccbc
    style D fill:#fff9c4
    style E fill:#e1bee7
    style F fill:#b2dfdb

图表讲解：这张图展示了资源分配优化问题的多种目标函数。频谱效率关注数据传输速率；能量效率关注能耗利用率；时延优化关注传输及时性；公平性关注资源分配的均衡性；综合效用则考虑多个目标的平衡。在实际系统设计中，往往需要在这些目标之间进行权衡。

51学通信提示：目标函数的选择应该与应用场景紧密匹配。例如，在紧急通信场景下，时延最小化可能是首要目标；在视频监控场景下，频谱效率最大化可能更重要；在电池供电的无人机场景下，能量效率最大化则成为关键。

1.3 资源分配的约束条件

资源分配优化问题通常受到多种约束条件的限制：

功率约束：每个发射端的发射功率不能超过最大允许功率，以保证符合电磁辐射标准和不造成过大的干扰。

带宽约束：分配给用户的总带宽不能超过系统可用带宽。

速率约束：每个用户的传输速率需要满足最低速率要求，以支持基本业务。

干扰约束：用户间或小区间的干扰水平需要控制在可接受范围内。

能耗约束：无人机系统的总能耗不能超过电池容量限制。

硬件约束：如天线数量、射频链路数量等硬件资源的限制。

这些约束条件往往相互耦合，使得优化问题变得非常复杂。

二、功率分配策略

2.1 功率分配的基本原理

功率分配是资源分配中的核心问题之一，直接决定了系统的覆盖范围、通信质量和能效表现。

在单用户系统中，功率分配的问题相对简单：在满足速率或误码率要求的前提下，使用最小的发射功率。但在多用户系统中，功率分配需要考虑用户间的干扰关系。

在正交多址接入系统（如OFDMA）中，不同用户使用不同的时频资源，用户间没有干扰。此时功率分配可以独立进行，每个用户在其分配的资源上优化功率。

在非正交多址接入系统（如NOMA）中，多个用户可以同时使用相同的时频资源，但以不同的功率等级发射。接收端通过连续干扰抵消（SIC）来分离用户信号。此时功率分配不仅影响每个用户的信噪比，还影响SIC的解码顺序和性能。

2.2 注水算法

注水算法是功率分配中最经典的理论成果，用于在并行信道上分配功率以最大化容量。

假设有N个并行子信道，每个子信道的增益为 $g_{n}$ ，噪声功率为 $N_{0}$ 。注水算法的功率分配公式为：

$p_{n} = (μ - \frac{N _{0}}{g _{n}})^{+}$

其中， $μ$ 是注水线（水位），由总功率约束决定； $(x)^{+} = max (x, 0)$ 。

注水算法的基本思想是：在信道条件好的子信道上分配更多的功率，在信道条件差的子信道上分配较少的功率甚至不分配功率。这种直观的策略可以证明在容量最大化意义下是最优的。

flowchart TD
    A[注水算法流程] --> B[初始化]
    B --> C[计算各信道噪声/增益比]
    C --> D[确定注水线 μ]
    D --> E[计算各信道功率分配]
    E --> F{是否有负功率?}
    F -->|是| G[将负功率信道功率设为0]
    G --> H[重新计算注水线]
    H --> E
    F -->|否| I[输出最优功率分配]

    D --> J[总功率约束]
    J --> K[Σ pn = Ptotal]
    K --> D

    style A fill:#e1f5ff
    style B fill:#c8e6c9
    style C fill:#c8e6c9
    style D fill:#fff9c4
    style E fill:#fff9c4
    style F fill:#ffccbc
    style G fill:#ffccbc
    style H fill:#ffccbc
    style I fill:#a5d6a7

图表讲解：这张流程图展示了注水算法的迭代过程。首先初始化参数，计算各信道的噪声与增益比，然后确定注水线位置并计算各信道的功率分配。如果发现有负功率（即信道质量太差，不分配功率），则将这些信道的功率设为零，并重新计算注水线。这个过程迭代直到所有功率分配都非负，最终得到最优功率分配方案。

2.3 分数功率分配

分数功率分配是一种实用的次优算法，其功率分配公式为：

$p_{n} = \frac{P _{t o t a l}}{N} \cdot \frac{g _{n}^{α}}{\sum _{i = 1}^{N} g _{i}^{α}}$

其中， $α$ 是衰减因子，典型取值为1。当 $α = 0$ 时，退化为等功率分配；当 $α \to \infty$ 时，所有功率分配给最好的信道。

分数功率分配的优点是实现简单，只需要知道信道增益的相对大小，而不需要知道绝对值。这使得它在实际系统中得到了广泛应用。

2.4 NOMA系统中的功率分配

在NOMA系统中，功率分配需要考虑SIC解码顺序。通常将更多的功率分配给信道条件较差的用户，以保证他们能够被正确解码。

考虑一个两用户NOMA系统，用户1的信道条件优于用户2。功率分配比例 $α$ 表示分配给用户1的功率比例，则用户2获得 $1 - α$ 的功率。接收端先解码用户2的信号（功率大），然后将其从接收信号中减去，再解码用户1的信号。

NOMA功率分配的优化问题可以表述为： $max_{α} R_{1} + R_{2}$ $s.t. R_{1} \geq R_{1, min}, R_{2} \geq R_{2, min}$ $0 < α < 0.5$

其中， $R_{1}$ 和 $R_{2}$ 分别是两个用户的速率。

三、频谱资源管理

3.1 频谱分配的基本方法

频谱是无线通信中最宝贵的资源之一。在无人机辅助车联网中，频谱管理需要考虑多种因素：

固定分配：将频谱划分为固定大小的块，预先分配给不同的用户或小区。这种方法简单但效率低，无法适应用户需求的变化。

动态分配：根据用户的实时需求动态分配频谱资源。这种方法效率高但实现复杂，需要快速的决策机制。

分层分配：将频谱分为多个层次，不同层次使用不同的分配策略。例如，控制信道使用固定分配，数据信道使用动态分配。

flowchart TD
    A[频谱资源管理] --> B[分配方式]
    A --> C[接入技术]
    A --> D[共享机制]

    B --> B1[固定分配]
    B --> B2[动态分配]
    B --> B3[分层分配]

    C --> C1[OFDMA]
    C --> C2[NOMA]
    C --> C3[SDMA]

    D --> D1[授权共享]
    D --> D2[非授权接入]
    D --> D3[认知无线电]

    B1 --> E[简单但低效]
    B2 --> F[高效但复杂]
    B3 --> G[平衡效率与复杂度]

    C1 --> H[正交多用户接入]
    C2 --> I[非正交功率域]
    C3 --> J[空分多址]

    D1 --> K[授权频谱共享]
    D2 --> L[WiFi/LAA]
    D3 --> M[动态频谱接入]

    style A fill:#e1f5ff
    style B fill:#c8e6c9
    style C fill:#ffccbc
    style D fill:#fff9c4

图表讲解：这张图展示了频谱资源管理的三个维度：分配方式、接入技术和共享机制。分配方式包括固定、动态和分层分配；接入技术包括OFDMA、NOMA和SDMA；共享机制包括授权共享、非授权接入和认知无线电。这三个维度共同决定了频谱资源的利用效率。

3.2 OFDMA资源分配

OFDMA是4G和5G系统的核心多址技术，将频谱划分为多个正交子载波，不同用户使用不同的子载波集合。

OFDMA资源分配问题可以分解为两个子问题：子载波分配和功率分配。

子载波分配：决定哪些子载波分配给哪些用户。常见的算法包括：

最大载干比算法：将每个子载波分配给在该子载波上信道增益最大的用户
比例公平算法：在信道质量和用户公平性之间取得平衡
贪心算法：每次选择能够带来最大速率增量的分配

功率分配：在每个子载波上分配功率。可以使用前面介绍的注水算法或分数功率分配算法。

3.3 NOMA频谱共享

NOMA通过功率域复用实现多个用户在同一时频资源上的传输，显著提高了频谱效率。

在NOMA系统中，频谱资源管理的重点是：

用户配对：选择合适的用户配对共享同一时频资源
功率分配：确定配对用户之间的功率分配比例
解码顺序：确定SIC的解码顺序（通常按照功率从大到小）

NOMA特别适合无人机车联网的场景，因为：

用户分布不均匀，信道条件差异大，适合功率域复用
用户数量相对较少，SIC的复杂度可控
对频谱效率的要求高

3.4 认知无线电频谱共享

认知无线电允许次要用户在主要用户不使用授权频谱时接入，从而提高频谱利用率。

认知无线电包括三个核心功能：

频谱感知：检测主要用户是否存在
频谱决策：决定是否接入以及如何接入
频谱移动：在主要用户重新出现时及时退出

在无人机车联网中，认知无线电可以用于：

利用电视空白频段（TV White Space）
共享卫星通信频段
动态借用相邻小区的空闲频谱

四、用户关联与分组

4.1 用户关联问题

用户关联是指决定每个用户由哪个无人机或基站服务。在无人机辅助车联网中，由于无人机的移动性和灵活性，用户关联问题变得更加复杂和重要。

用户关联的传统准则是基于接收信号强度（RSRP），即用户连接到提供最强信号的接入点。但在无人机车联网中，需要考虑更多因素：

负载均衡：避免某些无人机过载而其他无人机闲置

用户分布
业务类型
QoS需求
能耗考虑

4.2 用户分组策略

用户分组是将用户划分为多个组，每个组内的用户共享某些资源或具有相似的服务需求。

NOMA用户分组：在NOMA系统中，需要将用户配对或分组以共享时频资源。好的用户分组应该：

信道条件差异大（有利于功率域区分）
干扰可控
公平性可接受

协同多点传输分组：多个无人机或基站协同服务一个用户，可以提高边缘用户的性能。分组需要考虑：

协作节点的位置关系
回程容量限制
同步要求

多播分组：对于共同的内容（如地图更新、交通信息），可以将需要相同内容的用户分为一组，通过多播方式传输，节省频谱资源。

4.3 匹配理论在用户关联中的应用

匹配理论研究如何将两组或多组 agent 进行最优配对，非常适合解决用户关联问题。

在无人机车联网中，用户关联可以建模为无人机-用户匹配问题。每架无人机和每个用户都有各自的偏好：

无人机的偏好：基于用户的信道质量、业务需求、位置等因素
用户的偏好：基于无人机的信号强度、负载状况、服务质量等因素

匹配理论可以找到稳定匹配，即不存在任何无人机-用户对愿意改变当前匹配。这种稳定性保证了系统的长期稳定运行。

sequenceDiagram
    participant U as 用户
    participant D as 无人机集合
    participant M as 匹配算法
    participant C as 控制中心

    Note over U,C: 1. 信息收集阶段
    U->>C: 上报信道状态和需求
    D->>C: 上报位置和负载状态
    C->>M: 输入用户和无人机信息

    Note over U,C: 2. 偏好构建阶段
    M->>M: 计算用户对各无人机的偏好
    M->>M: 计算无人机对各用户的偏好

    Note over U,C: 3. 匹配执行阶段
    M->>M: 执行延迟接受算法
    M->>M: 检查匹配稳定性
    M->>M: 如不稳定则迭代调整

    Note over U,C: 4. 结果通知阶段
    M->>C: 输出稳定匹配结果
    C->>U: 通知服务无人机
    C->>D: 通知服务用户列表

    Note over U,C: 5. 定期更新
    C->>M: 定期重新计算匹配
    M->>C: 更新匹配结果

图表讲解：这个序列图展示了基于匹配理论的用户关联流程。首先收集用户和无人机的状态信息，然后计算各自的偏好列表，接着执行延迟接受算法（Gale-Shapley算法）找到稳定匹配，最后通知匹配结果并定期更新以适应动态变化的环境。

五、强化学习在资源分配中的应用

5.1 强化学习基本概念

强化学习是一类机器学习方法，通过与环境交互学习最优策略，以最大化累积奖励。

强化学习的核心要素包括：

状态（State）：对环境的描述
动作（Action）：agent可以执行的操作
奖励（Reward）：对动作效果的反馈
策略（Policy）：状态到动作的映射规则
价值函数（Value Function）：状态或状态-动作对的长期价值

在资源分配问题中：

状态可以是信道状态、队列状态、用户位置等
动作可以是功率分配、带宽分配、用户关联决策等
奖励可以是吞吐量、能效、时延的负值等

5.2 Q学习算法

Q学习是最经典的强化学习算法之一，通过学习Q函数来找到最优策略。

Q函数 $Q (s, a)$ 表示在状态 $s$ 下执行动作 $a$ ，并 thereafter 按照最优策略行动的期望累积奖励。

Q更新的公式为： $Q (s, a) \leftarrow Q (s, a) + α [r + γ max_{a^{'}} Q (s^{'}, a^{'}) - Q (s, a)]$

其中， $α$ 是学习率， $γ$ 是折扣因子， $r$ 是即时奖励， $s^{'}$ 是下一状态。

Q学习的优点是模型无关，不需要知道环境的转移概率。缺点是对于高维状态空间，Q表的存储和查询非常困难。

5.3 深度Q网络（DQN）

深度Q网络用神经网络来近似Q函数，解决了Q学习的维度灾难问题。

DQN的关键技术包括：

经验回放：存储转移样本 $(s, a, r, s^{'})$ ，随机采样进行训练，打破样本间的相关性
目标网络：使用独立的 target network 计算 target Q值，提高训练稳定性
探索策略：使用 $ϵ$ -greedy策略，以 $ϵ$ 概率随机选择动作， $1 - ϵ$ 概率选择最优动作

DQN在资源分配中的应用包括功率控制、信道选择、用户关联等决策问题。

5.4 多智能体强化学习（MARL）

在无人机车联网中，多架无人机需要协同做出资源分配决策，这构成了多智能体强化学习问题。

MARL的主要挑战包括：

非平稳环境：每个agent的决策会影响其他agent的环境
信用分配：难以确定哪些agent对整体奖励的贡献
通信开销：agent间需要交换信息进行协调

常用的MARL算法包括：

独立学习：每个agent独立学习，不考虑其他agent的学习
中心化训练分布执行（CTDE）：训练时使用全局信息，执行时只使用局部信息
通信机制：agent间通过显式通信交换信息

flowchart TD
    A[MARL架构选择] --> B[独立学习]
    A --> C[CTDE]
    A --> D[通信MARL]

    B --> B1[IL-DDPG]
    B --> B2[IL-DQN]
    B --> B3[简单高效]

    C --> C1[MADDPG]
    C --> C2[QMIX]
    C --> C3[训练时集中信息]

    D --> D1[CommNet]
    D --> D2[IC3Net]
    D --> D3[显式通信]

    B --> E[适用: 弱耦合场景]
    C --> F[适用: 强耦合场景]
    D --> G[适用: 需要协调场景]

    E --> H[无人机独立覆盖]
    F --> I[协同波束成形]
    G --> J[联合中继选择]

    style A fill:#e1f5ff
    style B fill:#c8e6c9
    style C fill:#ffccbc
    style D fill:#fff9c4
    style H fill:#a5d6a7
    style I fill:#a5d6a7
    style J fill:#a5d6a7

图表讲解：这张图展示了多智能体强化学习架构的选择。独立学习适用于弱耦合场景，实现简单但协调性差；CTDE适用于强耦合场景，训练时使用全局信息但执行时只需局部信息；通信MARL通过显式通信增强协调能力。在无人机车联网中，应根据场景耦合程度选择合适的架构。

六、深度学习优化算法

6.1 深度学习用于资源分配的优势

深度学习在资源分配中的应用具有以下优势：

快速决策：训练完成后，推理速度快，适合实时决策

端到端学习
适应复杂环境
可迁移性

6.2 监督学习方法

监督学习需要大量标签数据来训练模型。在资源分配问题中，标签数据可以通过以下方式获得：

专家标注
传统优化算法的解
仿真生成的最优解

常用的监督学习模型包括：

多层感知机（MLP）：适用于结构化数据
卷积神经网络（CNN）：适用于具有空间结构的数据
循环神经网络（RNN/LSTM/GRU）：适用于时序数据

监督学习的挑战在于需要大量高质量标签数据，而资源分配问题的标签数据往往难以获得。

6.3 无监督与自监督学习方法

无监督学习不需要标签数据，可以从原始数据中学习规律。

自编码器：学习数据的紧凑表示，可用于异常检测、特征提取
聚类算法：将用户分组，简化资源分配问题
生成对抗网络（GAN）：生成模拟数据，扩充训练集

自监督学习是监督学习和无监督学习之间的折中。它设计辅助任务来生成伪标签，例如：

预测下一个时隙的信道状态
预测 masked 时隙的信道信息
对比学习

6.4 图神经网络（GNN）在资源分配中的应用

图神经网络特别适合处理具有图结构的数据，如用户-干扰图、用户-基站连接图等。

GNN通过消息传递机制聚合邻居节点的信息，更新节点表示。在资源分配问题中，GNN可以：

学习用户的特征表示
建模用户间的干扰关系
预测最优的分配决策

GNN的优势在于能够自然地处理可变数量的用户和无人机，具有很强的泛化能力。

七、联合优化与分解算法

7.1 联合优化问题

无人机车联网中的资源分配往往涉及多个优化变量的联合优化，包括：

轨迹与功率联合优化
用户关联与资源分配联合优化
波束成形与调度联合优化

联合优化问题通常是非凸的，难以直接求解。

7.2 分解算法

分解算法将复杂的联合优化问题分解为多个简单的子问题，交替求解。

常见的分解方法包括：

块坐标下降（BCD）：将优化变量分组，交替优化各组变量
交替方向乘子法（ADMM）：引入对偶变量和惩罚项，实现分布式优化
原始分解：分解原始问题，各子问题协调
对偶分解：分解对偶问题，各子问题独立求解

7.3 凸优化技术

对于凸优化子问题，可以使用成熟的凸优化技术求解：

内点法：适用于一般凸优化问题
梯度投影法：适用于简单约束的优化问题
拉格朗日对偶法：将对偶问题转化为原始问题

对于非凸问题，可以使用：

连续凸逼近（SCA）：用凸函数近似非凸目标
半正定松弛（SDR）：将二次约束松弛为半正定约束

核心概念总结

概念名称	定义	应用场景	注意事项
注水算法	在并行信道上按信道质量分配功率	OFDMA功率分配	需要知道信道状态信息
分数功率分配	按信道增益的α次方比例分配功率	NOMA功率分配	α=1时为常用配置
用户关联	决定用户由哪个接入点服务	多小区负载均衡	考虑负载、QoS、能耗
NOMA配对	选择用户共享同一时频资源	NOMA用户分组	信道条件差异越大越好
Q学习	通过学习Q函数找到最优策略	单智能体决策	高维状态空间不适用
DQN	用神经网络近似Q函数	高维状态决策	需要大量训练数据
MARL	多智能体协同学习	多无人机协同	需要解决信用分配问题
SCA	用凸函数近似非凸目标	非凸优化求解	收敛性需要验证
ADMM	通过对偶分解实现分布式优化	分布式资源分配	需要选择合适的惩罚参数

本文由”51学通信”（公众号：51学通信，站长：爱卫生）原创分享。如需深入交流或获取更多通信技术资料，欢迎添加微信：gprshome201101。

常见问题解答

Q1：在无人机车联网中，为什么NOMA比传统OMA有优势？

答：NOMA（非正交多址接入）在无人机车联网场景中相比传统OMA（正交多址接入）具有显著优势，这些优势源于无人机车联网的独特特性。

首先，NOMA能够显著提高频谱效率。传统OMA系统（如OFDMA）需要为每个用户分配专用的时频资源，用户数量受限于可用资源数量。而在NOMA系统中，多个用户可以共享相同的时频资源，通过功率域进行区分。这使得系统可以服务更多用户，或者在用户数量相同的情况下使用更少的带宽资源。对于频谱资源极其宝贵的无人机车联网系统，这种效率提升非常宝贵。

其次，无人机车联网中的用户信道条件差异大，非常适合NOMA技术。NOMA的性能增益很大程度上依赖于用户间的信道差异性。信道条件差异越大，功率分配的优化空间就越大。在无人机车联网场景中，由于无人机的空中部署和用户的地面分布，不同用户的信道条件（特别是仰角差异）往往很大。一些用户可能有良好的视距链路，而另一些用户可能处于被建筑物遮挡的劣势位置。这种差异性使得NOMA能够有效地将更多的功率分配给信道条件差的用户，同时保证信道条件好的用户仍能获得足够的速率。

第三，NOMA能够提供更好的用户公平性。在传统OMA系统中，边缘用户由于信道条件差，很难获得满意的速率。而在NOMA系统中，通过合理的功率分配，可以保证边缘用户的基本速率需求，同时不显著牺牲整体系统性能。这对于车联网这种需要保证基本连接性的应用场景尤为重要。

第四，NOMA与无人机轨迹优化有良好的协同效应。无人机的位置可以动态调整以改善用户信道条件。在NOMA系统中，可以通过优化无人机位置来增强用户间的信道差异性，从而进一步提高NOMA的性能增益。这种联合优化的潜力在OMA系统中是不存在的。

此外，NOMA在Massive MIMO场景下具有特殊的优势。车联网中的无人机可能配备大规模天线阵列，这可以产生高度定向的波束，将能量集中在特定区域。在这种场景下，NOMA可以用于同一波束内的多用户复用，而OMA则需要将波束在多个用户间时分复用，降低了频谱效率。

51学通信站长爱卫生的经验：在实际部署中，建议将NOMA用于用户数量适中（每组2-4个用户）且信道条件差异明显的场景。如果用户数量过多或信道条件相似，NOMA的增益可能会被连续干扰抵消（SIC）的错误传播和复杂度增加所抵消。

Q2：强化学习用于资源分配时，如何设计奖励函数才能获得良好的性能？

答：奖励函数的设计是强化学习成功应用于资源分配问题的关键。一个好的奖励函数应该能够准确反映优化目标，同时提供足够的学习信号。

奖励函数设计的第一步是明确优化目标。资源分配问题可能有多个优化目标，如频谱效率、能量效率、时延、公平性等。需要确定主要优化目标和次要优化目标，然后设计相应的奖励函数。

对于频谱效率最大化，最直接的奖励是系统吞吐量或用户速率。但需要注意几个问题：第一，由于奖励是累积的，使用原始速率值可能导致不同时间的贡献差异过大，可以考虑使用对数速率或归一化速率。第二，需要考虑公平性，可以加入比例公平项或对最小用户速率给予额外奖励。

对于能量效率优化，奖励可以是单位能耗的传输比特数，或者对低功耗操作给予正向奖励，对高功耗操作给予负向奖励。需要注意的是，能量消耗通常是硬约束（不能超过电池容量），可以将违反能耗约束的行为给予很大的负奖励。

对于时延优化，奖励可以是负的排队时延或负的端到端时延。由于时延是累积量，可以使用时延的变化率作为奖励。另外，可以设置时延门限，对超过门限的情况给予额外惩罚。

多目标优化是最常见也最复杂的情况。多目标可以通过加权和的方式组合： $R = w_{1} R_{SE} + w_{2} R_{EE} + w_{3} R_{d e l a y} + w_{4} R_{f ai r n ess}$ 其中， $R_{SE}$ 、 $R_{EE}$ 、 $R_{d e l a y}$ 、 $R_{f ai r n ess}$ 分别是频谱效率、能量效率、时延和公平性的奖励分量， $w_{1}$ 到 $w_{4}$ 是权重系数。权重的选择反映了不同目标的相对重要性。

奖励函数设计还需要注意以下问题：

一是奖励尺度问题。不同奖励分量的数值范围可能差异很大，如果不进行归一化，数值大的分量会主导学习过程。建议将各分量归一化到相似的范围，例如[-1, 1]区间。

二是奖励稀疏问题。有些奖励（如是否完成某任务）是稀疏的，只有在特定时刻才有非零奖励，这会使得学习困难。可以引入密集奖励，例如使用时延、能耗等连续变化的量作为奖励，而不仅仅是任务完成与否的二元奖励。

三是奖励滞后问题。有些决策的效果要经过较长时间才能体现，例如调整无人机位置对未来多个时隙都有影响。可以设计辅助奖励来缩短反馈延迟，例如对改善信道条件的动作给予即时奖励。

四是奖励与约束的关系。对于硬约束（如功率上限、带宽限制），可以通过将约束动作设为不可行，或在奖励函数中加入大的惩罚项来处理。对于软约束（如目标速率），可以在奖励中考虑与目标的偏差。

Q3：多无人机场景下，如何设计多智能体强化学习算法以实现协同资源分配？

答：多无人机协同资源分配是无人机车联网中的关键挑战，多智能体强化学习（MARL）为实现智能协同提供了有效框架。但MARL的设计需要仔细考虑多个方面的问题。

首先是架构选择。常见的MARL架构包括独立学习、中心化训练分布执行（CTDE）和通信机制。

独立学习是最简单的架构，每个无人机agent独立训练，不考虑其他agent的学习。每个agent将环境视为非平稳的（其他agent的策略在变化），独立地最大化自己的奖励。独立学习的优点是完全分布式，不需要agent间通信，实现简单。缺点是由于环境非平稳性，收敛性难以保证，且无法实现显式的协同。

CTDE是最常用的架构之一。训练时，使用所有agent的全局信息（包括所有agent的状态、动作、奖励），可以学习中心化的联合动作价值函数或策略。执行时，每个agent只使用自己的局部观测进行决策。MADDPG是CTDE的代表性算法，它使用中心化critic评估联合动作的价值，但每个actor只基于局部信息选择动作。CTDE的优点是训练时可以充分利用全局信息，执行时又是分布式的，兼顾了训练效果和执行可行性。

通信MARL通过让agent间交换显式消息来实现协同。通信内容可以是原始观测、处理后的特征、或者高层决策意图。通信方式可以是全连接的（所有agent互相通信）、基于距离的（邻近agent通信）、或者基于学习的（学习与谁通信以及通信什么）。通信MARL的优点是协同性强，缺点是通信开销大，且需要设计有效的通信协议。

在确定架构后，需要设计具体的算法组件：

状态空间设计需要考虑信息的充分性与可获得性的平衡。全局状态包括所有无人机的位置、所有用户的信道状态、所有用户的队列状态等。局部观测可能只包括邻近用户的信息、有限范围内的信道状态等。对于CTDE架构，训练时使用全局状态，执行时使用局部观测。

动作空间设计需要考虑决策的粒度。对于功率分配，可以是离散的（几个功率等级）或连续的（任意功率值）。对于用户关联，可以是选择服务无人机的离散动作，或者是表示关联概率的连续动作。离散动作空间可以使用DQN等算法，连续动作空间需要使用DDPG、PPO等算法。

奖励函数设计可以采用个体奖励和团队奖励的混合。个体奖励反映每个agent自身目标的完成情况，团队奖励反映整体系统性能。适当的混合可以平衡个体效率和整体协同。

信用分配是MARL的核心挑战之一。当多个agent共同完成某个任务时，如何确定每个agent的贡献？常用方法包括：差异奖励（给每个agent分配与其边际贡献相关的奖励）、反事实基线（比较实际结果与agent不参与的结果）、价值分解（学习个体价值函数并组合为团队价值）。

51学通信建议：对于无人机车联网的协同资源分配，推荐从CTDE架构（如MADDPG或QMIX）开始，这类算法在训练稳定性和执行可行性之间取得了良好平衡。在算法收敛后，可以考虑引入通信机制进一步提升协同性能。

Q4：深度学习用于资源分配时，如何解决训练数据不足的问题？

答：训练数据不足是深度学习应用于资源分配时面临的主要挑战之一。资源分配问题的标签数据通常难以获得，因为最优解的计算往往需要求解复杂的优化问题，计算成本高昂。以下是几种解决数据不足问题的有效方法。

第一种方法是利用仿真环境生成大规模数据。可以通过建立精确的系统仿真模型，包括信道模型、用户移动模型、业务模型等，然后使用传统优化算法（如凸优化、启发式算法）求解各种场景下的最优资源分配方案。这种方法的优势是可以生成任意规模的数据集，且标签质量有保证。需要注意的是，仿真模型应该尽可能接近真实环境，否则学习到的策略在实际部署时可能性能下降。

第二种方法是使用半监督学习技术。半监督学习同时利用少量标签数据和大量未标签数据。常见技术包括：

一致性正则化：对输入的微小扰动保持预测一致
伪标签：用初始模型对未标签数据进行预测，将高置信度预测作为伪标签
图半监督学习：构建数据相似图，通过图传播传播标签信息

在资源分配场景中，可以将未标签场景的信道状态等特征作为输入，利用半监督学习学习更好的特征表示。

第三种方法是使用迁移学习。如果存在相关的源任务（如类似场景、不同频段的资源分配），可以在源任务上预训练模型，然后在目标任务上微调。迁移学习特别适合资源分配问题，因为不同场景的资源分配往往具有相似的规律和模式。迁移的关键是识别源任务和目标任务之间的共同特征，并在这些特征上进行知识迁移。

第四种方法是使用无监督预训练。在没有标签数据的情况下，可以先进行无监督预训练，学习数据的通用表示，然后用少量标签数据进行微调。常见的无监督预训练方法包括：

自编码器：学习数据的紧凑表示
对比学习：学习相似样本的特征表示相近，不相似样本的特征表示相距较远
生成式预训练：如BERT式的掩码预测

对于资源分配问题，可以设计自监督任务，例如预测下一个时隙的信道状态，或者预测被mask的资源分配决策。

第五种方法是使用主动学习。主动学习主动选择最有价值的样本进行标注，而不是随机选择。在资源分配场景中，可以让优化算法求解那些对当前模型最有信息量的场景（例如模型预测最不确定的场景），然后用这些场景和最优解来更新模型。这样可以更高效地利用标注资源。

第六种方法是利用领域知识进行数据增强。资源分配问题通常具有一些物理或系统的约束和规律，可以利用这些知识生成额外的训练样本或修改现有样本。例如：

利用信道状态的时域相关性生成新的轨迹
利用功率约束生成边界样本
利用干扰对称性生成镜像场景

第七种方法是使用小样本学习和元学习。小样本学习旨在从极少量样本中学习，元学习（学会学习）则是学习如何快速适应新任务。这些方法通过设计适当的训练任务分布和算法，使得模型能够从少量样本中快速学习。对于资源分配问题，可以设计不同场景（不同用户数、不同信道分布）作为训练任务，训练模型的快速适应能力。

Q5：在实际部署中，如何评估和验证资源分配算法的有效性？

答：算法评估和验证是资源分配研究到实际应用的关键环节，需要从多个维度全面评估算法的有效性和实用性。

首先是仿真评估，这是算法开发阶段最主要的评估手段。仿真评估需要构建接近真实的系统模型，包括：

信道模型：考虑路径损耗、阴影衰落、多径衰落、多普勒效应等
用户移动模型：考虑车辆运动轨迹、无人机飞行轨迹等
业务模型：考虑不同业务的流量特征、QoS需求等
干扰模型：考虑同频干扰、邻频干扰等

仿真评估的关键指标包括：

频谱效率：系统吞吐量、单位面积吞吐量、边缘用户吞吐量
能量效率：比特每焦耳、网络生命周期
时延性能：平均时延、95%分位时延、最大时延
可靠性：连接成功率、丢包率、中断概率
公平性：Jain公平指数、速率分布

仿真评估需要进行大量的蒙特卡洛实验，覆盖各种典型场景和边界情况，以验证算法的鲁棒性。

其次是算法复杂度分析。资源分配算法需要在实际系统中实时运行，因此计算复杂度是一个关键考量。需要分析算法的时间复杂度和空间复杂度，特别是它们随系统规模（用户数、无人机数、子信道数）的增长情况。对于启发式算法和深度学习算法，还需要考虑训练复杂度和推理复杂度的区别。

第三是收敛性分析。对于迭代算法（如优化算法、强化学习算法），需要分析算法的收敛速度和收敛条件。收敛速度决定了算法能够跟踪信道变化的程度，收敛太慢的算法可能无法适应快变的信道环境。

第四是与基准算法的对比。为了评估新算法的优势，需要与多个基准算法进行对比，包括：

传统优化算法：如凸优化、拉格朗日对偶等
经典启发式算法：如贪婪算法、注水算法等
已有先进算法：最新的相关研究成果

对比时需要注意公平性，确保比较环境相同，评估指标一致。

第五是参数敏感性分析。资源分配算法通常有一些可调参数，如功率分配的衰减因子、强化学习的探索率、深度学习的网络结构等。需要分析算法对这些参数的敏感性，确保在合理的参数范围内性能稳定。参数敏感的算法在实际部署中可能难以调优。

第六是实际测试场或原型系统验证。在仿真评估通过后，最好进行实际测试。可以使用软件无线电（SDR）平台搭建原型系统，在实际或半实际环境中测试算法性能。实际测试可以发现仿真中未考虑的因素对算法性能的影响，如硬件非理想性、同步误差、实际信道模型差异等。

第七是长期稳定性测试。实际部署的算法需要长期稳定运行。需要进行长期测试（如数天到数周），观察算法的性能是否保持稳定，是否会出现性能退化、异常行为等问题。特别是对于基于学习的方法，需要关注在实际环境分布变化时的适应能力。

51学通信站长爱卫生的实践经验：建议采用分层验证策略，首先在简化仿真中验证算法基本原理，然后在高保真仿真中评估算法性能，接着在硬件在环（HIL）仿真中测试实时性，最后在实际测试场中进行小规模验证，逐步放大到全系统部署。这种分层策略可以及早发现问题，降低试错成本。

总结

本文深入探讨了无人机辅助车联网中的资源分配与优化算法。我们学习了资源分配问题的基本框架，包括目标函数和约束条件；掌握了功率分配的经典算法（注水算法、分数功率分配）和NOMA功率分配；理解了频谱资源管理的基本方法和OFDMA、NOMA、认知无线电等接入技术；认识了用户关联与分组问题及其匹配理论解决方案；了解了强化学习（Q学习、DQN、MARL）在资源分配中的应用；掌握了深度学习优化算法（监督学习、无监督学习、GNN）的基本原理；学习了联合优化问题的分解算法和凸优化技术。

资源分配是通信系统设计的核心问题，也是无人机辅助车联网性能优化的关键。随着人工智能技术的发展，基于学习的资源分配方法展现出了巨大的潜力。但传统优化方法仍然是基础，理解这些方法的原理和适用场景对于设计高效的资源分配方案至关重要。

下篇预告

下一篇我们将深入探讨移动边缘计算与中继选择，带你了解MEC系统架构、计算卸载与任务迁移、中继选择算法、分层匹配机制、NOMA非正交多址接入等关键技术。我们将学习如何在无人机车联网中设计高效的边缘计算系统和中继选择方案。

51学通信

探索

03-资源分配与优化算法