无线通信中的深度学习系列第2篇：学习驱动的资源分配优化

摘要

本文将带你深入了解深度学习如何变革无线资源分配机制，帮助你掌握智能资源管理的核心技术。你将学到无监督学习资源分配方案、深度强化学习的DRL框架、用户关联与负载均衡优化，以及多智能体协同资源分配。

学习目标

阅读完本文后，你将能够：

理解资源分配问题的本质：掌握从传统优化到学习范式的转变逻辑
应用无监督学习解决资源分配：了解DNN在功率控制和频谱分配中的应用
设计DRL资源分配框架：掌握状态-动作-奖励的三元组设计方法
实现智能用户关联：理解负载均衡、干扰管理的协同优化

一、引言：无线资源分配的挑战与机遇

1.1 资源分配问题的复杂性

无线资源分配是通信系统的核心优化问题，涉及功率、带宽、时隙、空间等多个维度的决策。传统方法主要基于数学优化理论，如凸优化、博弈论等，但这些方法在实际应用中面临诸多挑战：

计算复杂度：随着用户数量和资源粒度的增加，优化问题的规模呈指数增长。例如，在一个有100个用户和50个子载波的场景下，可能的分配方案组合数是一个天文数字。

实时性要求：无线信道变化快，资源分配算法需要在毫秒级时间内完成决策。传统迭代优化算法收敛慢，难以满足实时要求。

模型假设限制：传统方法依赖精确的信道模型和用户分布假设，实际环境中的模型不匹配会导致性能显著下降。

多目标权衡：需要在吞吐量、能效、公平性、延迟等多个目标间权衡，传统方法难以灵活适应不同的优化目标。

1.2 深度学习带来的范式转变

深度学习为资源分配问题带来了全新的解决思路：

数据驱动：不需要精确的环境模型，通过历史数据学习分配策略，对模型误差更鲁棒。

快速推理：训练后的神经网络只需前向传播即可得到分配结果，推理速度快，适合实时应用。

端到端优化：可以直接从输入（信道状态、用户需求）到输出（资源分配决策）进行端到端学习，避免分阶段优化的次优性。

适应性强：通过在线学习可以适应环境变化，无需重新设计算法。

下面这张图展示了传统优化与深度学习方法的对比：

flowchart LR
    subgraph Traditional[传统优化方法]
        T1[问题建模<br>数学规划]
        T2[求解算法<br>迭代优化]
        T3[近似解<br>局部最优]
        T1 --> T2 --> T3
    end

    subgraph DL[深度学习方法]
        D1[数据收集<br>历史样本]
        D2[模型训练<br>离线学习]
        D3[快速推理<br>实时决策]
        D1 --> D2 --> D3
    end

    subgraph Compare[性能对比]
        P1[计算复杂度: 传统高<br>深度学习中]
        P2[求解速度: 传统慢<br>深度学习快]
        P3[模型精度: 依赖假设<br>数据驱动]
        P4[适应性: 传统差<br>深度学习强]
    end

    Traditional --> Compare
    DL --> Compare

    style Traditional fill:#ffebee,stroke:#c62828
    style DL fill:#e8f5e9,stroke:#2e7d32
    style Compare fill:#fff3e0,stroke:#ef6c00

图表讲解：这张图从工作流程和性能对比两个维度，清晰展示了传统优化方法与深度学习方法的根本差异。

传统优化工作流：首先需要将实际问题建模为数学规划问题，明确决策变量、约束条件和目标函数。然后选择合适的求解算法，如内点法、分支定界等，进行迭代求解。由于问题通常是NP难的，只能得到局部最优解或近似解。整个流程计算复杂度高，求解速度慢，每次环境变化都需要重新求解。

深度学习工作流：首先收集历史数据作为训练样本，包括各种场景下的信道状态和对应的资源分配结果。然后训练神经网络模型，学习从输入到输出的映射关系。训练完成后，在实际应用时只需前向传播即可快速得到分配决策。整个流程的复杂度主要在训练阶段，推理阶段非常快速。

性能对比分析：传统方法计算复杂度随问题规模指数增长，而深度学习方法的复杂度主要由网络结构决定，与问题规模关系较小。求解速度方面，传统方法需要迭代，深度学习只需一次前向传播。模型精度方面，传统方法依赖假设的准确性，深度学习方法通过数据学习，对模型误差更鲁棒。适应性方面，传统方法面对环境变化需要重新建模求解，深度学习方法可以通过在线学习快速适应。

1.3 资源分配的主要场景

无线资源分配在多个场景中都有重要应用：

功率控制：在蜂窝网络中，各用户需要选择合适的发射功率，在保证自身通信质量的同时，尽量减少对其他用户的干扰。这是一个典型的非合作博弈问题，传统方法需要反复迭代才能达到纳什均衡。

频谱分配：在认知无线电网络中，次用户需要选择合适的频段接入，避免与主用户冲突。这个问题具有高度的动态性和不确定性。

用户关联：在异构网络中，用户需要选择接入哪个基站（宏基站、微基站、 femto基站）。选择不当会导致负载不均衡，影响整体网络性能。

资源块分配：在OFDM系统中，需要将时频资源块分配给不同用户。需要考虑用户的信道质量、服务质量需求等因素。

这些场景虽然具体形式不同，但本质都是序贯决策问题，适合用深度学习特别是深度强化学习来解决。

二、无监督学习的资源分配

2.1 无监督学习的独特优势

在资源分配问题中，标注数据通常难以获取。对于每个信道状态，最优的资源分配方案是什么？这本身就是一个待求解的优化问题。无监督学习不需要标注数据，可以直接从输入数据中学习模式，非常适合资源分配场景。

无监督学习资源分配的核心思想是：将资源分配问题转化为一个优化问题，通过训练神经网络直接学习优化问题的解。网络的输出就是资源分配决策，损失函数就是原优化问题的目标（加上约束惩罚项）。

2.2 基于DNN的功率控制

功率控制是资源分配中的基础问题。考虑一个经典的认知无线电场景：存在多个次用户对，它们在共享频带中进行通信，同时需要避免对主用户造成干扰。每个次用户对需要选择发射功率，在满足干扰约束的前提下，最大化各自的速率。

这个问题可以形式化为以下优化：

目标：最大化所有次用户的总速率

约束：

对主用户的干扰低于阈值
发射功率非负且有上限

传统方法需要求解一个非凸优化问题，计算复杂度极高。基于DNN的方法可以绕过显式求解，直接学习最优功率控制策略。

下面展示了一个基于DNN的功率控制架构：

flowchart TD
    subgraph Input[网络输入]
        CSI[信道状态信息]
        Power[主用户功率]
        Noise[噪声功率]
    end

    subgraph Norm[输入归一化]
        Mean[计算均值]
        Std[计算标准差]
        Zscore[Z-score归一化]
    end

    subgraph DNN[DNN网络]
        H1[隐藏层1<br>64神经元+ReLU]
        H2[隐藏层2<br>128神经元+ReLU]
        H3[隐藏层3<br>64神经元+ReLU]
        Output[输出层<br>Softmax]
    end

    subgraph Post[后处理]
        Scale[缩放到<br>功率范围]
        Project[投影到<br>可行域]
        Final[最终功率<br>分配方案]
    end

    CSI --> Norm
    Power --> Norm
    Noise --> Norm

    Mean --> Zscore
    Std --> Zscore
    Zscore --> H1
    H1 --> H2
    H2 --> H3
    H3 --> Output
    Output --> Scale
    Scale --> Project
    Project --> Final

    style Input fill:#e3f2fd,stroke:#1976d2
    style Norm fill:#bbdefb,stroke:#1976d2
    style DNN fill:#90caf9,stroke:#1976d2
    style Post fill:#64b5f6,stroke:#1976d2

图表讲解：这张图详细展示了基于DNN的功率控制系统架构，是端到端学习优化问题的典型范例。

输入处理：网络的输入包括信道增益矩阵、主用户发射功率、噪声功率谱密度等原始信息。这些输入的量纲和数值范围差异很大，直接输入网络会影响训练效果。因此需要进行归一化处理，常用的方法是Z-score归一化，即减去均值后除以标准差，使输入大致符合标准正态分布。

DNN网络：采用全连接神经网络，包含多个隐藏层。每个隐藏层使用ReLU激活函数，引入非线性，使网络能够学习复杂的映射关系。网络层数和每层神经元数是超参数，需要根据问题复杂度调整。对于功率控制这种中等复杂度的问题，3-5个隐藏层通常足够。

输出层：输出层使用Softmax激活函数，将网络输出转换为概率分布。这种设计的巧妙之处在于：Softmax确保输出非负且和为1，这正好对应功率分配的比例关系。实际功率可以通过将概率乘以总功率预算得到。

后处理：Softmax输出按比例缩放到实际功率范围，然后进行投影操作，确保满足所有约束。投影操作可能包括：将对主用户的干扰降低到阈值以下、将个别功率限制在上限以内。虽然投影可能破坏网络的输出，但只要约束违反不是太严重，投影后的解仍然接近最优。

训练过程：网络的损失函数设计如下：

L = -λ₁ * 总速率 + λ₂ * 干扰惩罚 + λ₃ * 公平性惩罚

第一项是目标函数（加负号因为是最小化损失），第二项惩罚对主用户的干扰，第三项保证不同用户间的公平性。λ₁、λ₂、λ₃是权重系数，控制不同项的相对重要性。通过调整这些系数，可以在不同目标间取得平衡。

2.3 无监督学习的关键设计

基于无监督学习的资源分配有几个关键设计点：

输入特征选择：选择合适的输入特征对模型性能至关重要。原始信道状态信息是最基本的输入，但还可以加入一些派生特征，如信道质量指示、路径损耗、干扰温度等。特征工程虽然深度学习可以自动学习特征，但合理的特征选择可以加速训练、提升性能。

网络架构设计：对于资源分配这种连续优化问题，全连接网络是常见选择。如果输入有空间结构（如频谱图），可以考虑CNN；如果有时间序列特性，可以考虑RNN。网络深度需要权衡：太深容易过拟合且训练困难，太浅可能无法学习复杂的映射关系。

损失函数设计：损失函数应该反映原优化问题的目标，同时考虑约束条件。对于约束条件，可以采用软约束（惩罚项）或硬约束（后处理投影）。软约束的优点是可微分，适合梯度下降训练；硬约束的优点是严格满足约束，但可能导致训练不稳定。

训练策略：可以先用随机数据预训练网络，再用实际数据微调。也可以采用课程学习，从简单场景开始，逐步增加难度。对于大规模问题，可以采用分布式训练，将输入数据分片到多个GPU上并行计算。

下面展示了一个训练流程的伪代码：

flowchart TD
    subgraph Init[初始化]
        I1[初始化网络参数]
        I2[初始化优化器]
        I3[设置超参数]
    end

    subgraph Train[训练循环]
        T1[采样mini-batch]
        T2[前向传播]
        T3[计算损失]
        T4[反向传播]
        T5[参数更新]
    end

    subgraph Eval[评估与调整]
        E1[验证集评估]
        E2{性能提升?}
        E3[继续训练]
        E4[调整学习率]
        E5[保存模型]
    end

    Init --> Train
    T1 --> T2 --> T3 --> T4 --> T5
    T5 --> T1
    Train --> Eval
    E1 --> E2
    E2 -->|是| E5
    E2 -->|否| E4
    E4 --> E3
    E3 --> Train
    E5 --> E3

    style Init fill:#fff3e0,stroke:#ef6c00
    style Train fill:#ffe0b2,stroke:#ef6c00
    style Eval fill:#ffcc80,stroke:#ef6c00

图表讲解：这个流程图展示了无监督学习资源分配的完整训练过程，体现了深度学习训练的迭代优化特性。

初始化阶段：需要初始化网络参数，常用Xavier或He初始化方法。优化器选择Adam或SGD，学习率是关键超参数。其他超参数包括batch size、训练轮数、早停 patience等。

训练循环：每个迭代从训练集随机采样一个mini-batch，进行前向传播计算网络输出，然后根据损失函数计算损失值。反向传播计算梯度，优化器根据梯度更新网络参数。这个过程重复多次，直到损失收敛。

评估与调整：每个epoch结束后，在验证集上评估模型性能。如果验证性能提升，保存模型参数；如果性能停滞，降低学习率或早停。学习率调度策略包括步长衰减、余弦退火等，可以帮助模型跳出局部最小值。

2.4 无监督学习资源分配的核心概念总结

概念名称	定义	应用场景	注意事项
无监督学习	不需要标注数据的学习方法	标注数据昂贵场景	损失函数设计关键
软约束	通过惩罚项处理约束	允许轻微违反约束	权重系数难调
硬约束	严格满足约束条件	干扰/功率限制严格	可能导致训练不稳定
特征归一化	将输入缩放到标准范围	输入量纲不一致	需要统计量
投影操作	将解映射到可行域	后处理保证可行性	可能破坏优化目标

三、深度强化学习基础

3.1 从监督学习到强化学习

在进入DRL资源分配之前，需要理解强化学习与监督学习的本质区别。

监督学习有明确的”正确答案”：给定输入，网络应该输出什么。训练时，网络输出与标签比较，计算误差，反向传播更新参数。

强化学习没有明确的”正确答案”，只有”好”或”坏”的反馈（奖励）。智能体需要通过试错，学习哪些动作在哪些状态下能获得高奖励。

在资源分配场景中，强化学习更合适的原因是：

序贯决策：资源分配是动态过程，当前决策影响未来状态。强化学习天然适合处理这种时序依赖。
延迟奖励：资源分配的效果可能在未来才能体现（如用户满意度）。强化学习可以处理信用分配问题。
探索需求：最优策略可能需要尝试不同的分配方案。强化学习的探索机制可以发现更好的策略。

3.2 DRL的核心组件

DRL结合了深度学习的感知能力和强化学习的决策能力，其核心组件包括：

价值网络（Q网络）：深度神经网络，输入状态，输出每个动作的价值（Q值）。Q值表示在状态下采取动作并遵循最优策略的期望累积奖励。

经验回放：存储智能体的经验（状态、动作、奖励、新状态），训练时随机采样，打破样本相关性，提高训练稳定性。

目标网络：Q网络的副本，参数定期更新，用于计算目标Q值，提高训练稳定性。

下面展示了一个典型的DRL训练循环：

sequenceDiagram
    autonumber
    participant Agent as DRL智能体
    participant Memory as 经验回放
    participant Env as 环境
    participant Target as 目标网络

    Agent->>Env: 观测初始状态 s₀
    Agent->>Agent: 初始化经验回放

    loop 每个episode
        loop 每个时间步
            Agent->>Agent: ε-贪心选择动作 aₜ
            Agent->>Env: 执行动作
            Env->>Env: 转移状态 sₜ₊₁
            Env->>Env: 计算奖励 rₜ
            Env->>Agent: 返回 (sₜ, aₜ, rₜ, sₜ₊₁)
            Agent->>Memory: 存储经验
            Agent->>Memory: 随机采样batch
            Memory->>Agent: 返回样本
            Agent->>Target: 计算目标Q值
            Target->>Agent: y = r + γ max Q'
            Agent->>Agent: 计算损失并更新
        end
        Agent->>Target: 同步主网络到目标网络
    end

    Note over Agent: 策略收敛

图表讲解：这个序列图详细展示了DRL的训练过程，体现了试错学习和时序差分学习的核心思想。

初始化：智能体观测环境的初始状态，初始化经验回放缓冲区（用于存储经验）和神经网络参数。

交互循环：在每个episode（完整的一次任务）中，智能体与环境进行多轮交互。每个时间步，智能体根据ε-贪心策略选择动作：以概率ε随机选择（探索），以概率1-ε选择Q值最大的动作（利用）。

环境响应：环境执行动作后，转移到新状态，并给予奖励。奖励信号是对动作好坏的评价，设计好的奖励函数是DRL成功的关键。智能体将经验（状态、动作、奖励、新状态）存储在经验回放缓冲区中。

训练更新：从经验回放缓冲区随机采样一个batch的经验，打破时间相关性。使用目标网络计算目标Q值：y = r + γ * max Q’(s’, a’)，其中γ是折扣因子，平衡即时奖励和未来奖励。计算预测Q值与目标Q值的均方误差损失，通过反向传播更新网络参数。

目标网络同步：定期将主网络的参数复制到目标网络，保持目标网络相对稳定。这解决了自举（bootstrapping）导致的训练不稳定问题。

3.3 常用DRL算法

DRL有多种算法变体，各有特点：

DQN（Deep Q-Network）：最基础的DRL算法，使用深度神经网络逼近Q函数。引入了经验回放和目标网络两个关键创新，训练相对稳定。

Double DQN：解决DQN过估计Q值的问题。使用主网络选择动作，目标网络评估Q值，解除选择与评估的相关性。

Dueling DQN：将Q值分解为状态价值和优势函数，更好地表示状态的价值和动作的相对优势。

PPO（Proximal Policy Optimization）：策略梯度算法，直接优化策略而不是价值函数。使用裁剪机制限制策略更新幅度，训练稳定且样本效率高。

SAC（Soft Actor-Critic）：最大熵RL算法，在优化奖励的同时最大化策略熵，鼓励探索。训练稳定且鲁棒性强。

在资源分配场景中，PPO和SAC是常用选择，因为它们训练稳定，适合连续动作空间（如功率控制）。

下面展示了不同算法的对比：

flowchart TB
    subgraph Algo[DRL算法家族]
        Value[基于价值的方法]
        Policy[基于策略的方法]
        Hybrid[演员-评论家方法]
    end

    subgraph ValueAlgo[价值型算法]
        DQN[DQN]
        DDQN[Double DQN]
        Dueling[Dueling DQN]
    end

    subgraph PolicyAlgo[策略型算法]
        REINFORCE[REINFORCE]
        PG[Policy Gradient]
    end

    subgraph HybridAlgo[演员-评论家算法]
        A2C[A2C]
        A3C[A3C]
        PPO[PPO]
        SAC[SAC]
    end

    subgraph Compare[适用场景对比]
        C1[离散动作: DQN系列]
        C2[连续动作: PPO/SAC]
        C3[样本效率: SAC]
        C4[稳定性: PPO]
    end

    Value --> ValueAlgo
    Policy --> PolicyAlgo
    Hybrid --> HybridAlgo

    ValueAlgo --> Compare
    HybridAlgo --> Compare
    PolicyAlgo --> Compare

    style Algo fill:#e1f5fe,stroke:#0277bd
    style ValueAlgo fill:#b3e5fc,stroke:#0277bd
    style PolicyAlgo fill:#81d4fa,stroke:#0277bd
    style HybridAlgo fill:#4fc3f7,stroke:#0277bd
    style Compare fill:#29b6f6,stroke:#0277bd

图表讲解：这张图系统展示了DRL算法的分类和适用场景，帮助读者根据问题特点选择合适的算法。

算法分类：基于价值的方法学习Q函数，通过Q值选择动作；基于策略的方法直接参数化策略，通过策略梯度优化；演员-评论家方法结合两者，演员负责选择动作，评论家评估动作价值。

适用场景：DQN系列适合离散动作空间（如选择哪个频段接入），实现简单但可能过估计Q值。PPO和SAC适合连续动作空间（如精确控制功率），PPO更稳定，SAC样本效率更高。在实际应用中，可以都尝试一下，选择效果最好的。

四、DRL用户关联与负载均衡

4.1 用户关联问题

在异构网络中，存在多种类型的基站：宏基站覆盖范围大但容量有限，微基站和femto基站容量大但覆盖范围小。用户需要选择接入哪个基站，这就是用户关联问题。

用户关联直接影响网络性能：

负载均衡：避免某些基站过载而其他基站空闲
干扰管理：合理分配用户可以减少小区间干扰
服务质量：根据用户需求选择合适的基站

传统方法如最大信干噪比（Max-SINR）关联简单但容易导致负载不均，范围扩展（Range Expansion）改善了负载均衡但增加了干扰。

4.2 DRL用户关联框架

将用户关联建模为DRL问题：

状态：包括各基站负载、信道质量（SINR）、用户位置、历史关联决策等。状态表示应该包含做出关联决策所需的所有信息。

动作：将用户关联到某个基站，这是一个离散动作选择问题。如果有N个基站，动作空间大小为N。

奖励：综合考虑多个因素，如用户速率、网络负载均衡度、干扰水平等。奖励函数设计直接影响学习到的策略。

下面展示了一个多用户DRL关联框架：

flowchart TD
    subgraph Users[用户集合]
        U1[用户1<br>位置/SINR]
        U2[用户2<br>位置/SINR]
        U3[用户3<br>位置/SINR]
        UN[用户N<br>位置/SINR]
    end

    subgraph BS[基站集合]
        B1[宏基站<br>高功率]
        B2[微基站1<br>中功率]
        B3[微基站2<br>中功率]
        B4[femto基站<br>低功率]
    end

    subgraph DRL[DRL智能体]
        State[状态观测<br>负载/信道]
        Policy[策略网络]
        Action[关联决策]
        Reward[奖励计算]
    end

    subgraph Execute[执行与反馈]
        Assign[执行关联]
        Measure[测量性能]
        Update[更新网络]
    end

    Users -->|观测| State
    BS -->|负载信息| State
    State --> Policy
    Policy --> Action
    Action --> Assign
    Assign --> BS
    BS --> Measure
    Measure --> Reward
    Reward --> Update
    Update -->|参数更新| Policy

    style Users fill:#f3e5f5,stroke:#7b1fa2
    style BS fill:#e1bee7,stroke:#7b1fa2
    style DRL fill:#ce93d8,stroke:#7b1fa2
    style Execute fill:#ba68c8,stroke:#7b1fa2

图表讲解：这张图展示了DRL用户关联的完整闭环，体现了智能体如何通过与环境交互学习最优关联策略。

状态观测：智能体需要观测完整的系统状态，包括每个用户的位置、到各基站的信道质量（SINR）、各基站的当前负载等。这些信息对于做出合理的关联决策至关重要。状态观测可以是集中的（智能体获取全部信息），也可以是分布式的（每个用户只知道自己的信息）。

策略决策：策略网络（policy network）是深度神经网络，输入状态，输出每个用户关联到各基站的概率分布。对于连续控制，可以直接输出关联决策；对于离散选择，可以使用argmax选择概率最高的基站。

执行与反馈：根据智能体的决策，用户关联到相应基站。然后系统测量关联后的性能指标，如用户速率、网络负载分布等。这些指标转化为奖励信号，反馈给智能体用于策略优化。

网络更新：根据奖励信号，使用策略梯度算法（如PPO）更新策略网络参数。如果关联决策提升了网络性能，该策略被强化；反之则被弱化。经过多次迭代，智能体逐步学习到最优的关联策略。

4.3 负载均衡机制

负载均衡是用户关联的核心目标之一。DRL可以自然地学习负载均衡策略，关键在于奖励函数设计：

负载方差惩罚：计算各基站负载的方差，作为惩罚项加入奖励。方差越小，负载越均衡。

最大负载惩罚：惩罚负载过高的基站，避免热点。

负载自适应：当某些基站即将过载时，自动将新用户引导到其他基站。

下面展示了一个考虑负载均衡的奖励计算流程：

flowchart TD
    subgraph Metrics[性能指标]
        M1[用户速率和<br>吞吐量指标]
        M2[负载方差<br>均衡指标]
        M3[边缘用户速率<br>公平性指标]
        M4[切换次数<br>稳定性指标]
    end

    subgraph Normalize[归一化处理]
        N1[Min-Max归一化]
        N2[权重分配]
        N3[指标融合]
    end

    subgraph Reward[最终奖励]
        R1[R = w1×吞吐量<br>- w2×负载方差<br>+ w3×边缘速率<br>- w4×切换次数]
    end

    subgraph Tune[权重调优]
        T1[网格搜索]
        T2[贝叶斯优化]
        T3[手动调整]
    end

    M1 --> N1
    M2 --> N1
    M3 --> N1
    M4 --> N1

    N1 --> N2
    N2 --> N3
    N3 --> Reward

    Reward --> Tune
    Tune -->|更新权重| N2

    style Metrics fill:#e8f5e9,stroke:#388e3c
    style Normalize fill:#c8e6c9,stroke:#388e3c
    style Reward fill:#a5d6a7,stroke:#388e3c
    style Tune fill:#66bb6a,stroke:#388e3c

图表讲解：这个图展示了多目标奖励函数的设计和调优过程，体现了实际系统中复杂目标权衡的必要性。

性能指标：用户速率和是最基本的吞吐量指标，反映网络整体效率。负载方差衡量各基站负载的均衡程度，方差越小越均衡。边缘用户速率关注网络边缘的弱势用户，保证公平性。切换次数衡量用户在基站间切换的频率，过频切换会增加信令开销和体验中断。

归一化处理：不同指标的量纲和数值范围差异很大，需要归一化到[0,1]区间才能合理加权。Min-Max归一化是常用方法：(x - min)/(max - min)。归一化后需要为每个指标分配权重，反映其相对重要性。权重分配需要仔细调优，直接影响学习到的策略。

奖励计算：最终奖励是各指标的加权和。吞吐量和边缘速率是正向指标（越大越好），负载方差和切换次数是负向指标（越小越好，用负号）。通过合理设置权重，可以在效率和公平性间取得平衡。

权重调优：权重设置是一门艺术。网格搜索穷举所有权重组合，计算量大但保证找到最优。贝叶斯优化更智能，通过建模权重-性能关系快速找到好权重。手动调整依赖领域知识，快速但可能不是最优。

4.4 DRL用户关联的核心概念总结

概念名称	定义	应用场景	注意事项
用户关联	用户选择接入哪个基站	异构网络、密集部署	影响负载均衡
Max-SINR	接入最大信干噪比基站	传统关联方法	容易负载不均
负载均衡	合理分布用户到各基站	提升整体容量	可能降低单用户速率
策略网络	输出关联策略的神经网络	DRL决策核心	需要训练数据
奖励设计	平衡多目标的权重分配	决定学到的策略	需要反复调优

五、多智能体协同资源分配

5.1 多智能体挑战

实际网络中存在多个智能体（如多个基站或多个用户），每个智能体独立决策但相互影响，构成了多智能体系统。

多智能体场景面临独特挑战：

环境非平稳：每个智能体的环境包含其他智能体，当其他智能体改变策略时，环境也发生变化。这违反了传统RL的平稳环境假设。

信用分配：全局奖励是多个智能体共同作用的结果，如何将功劳或过失公平分配给各个智能体？

协调需求：智能体间需要一定程度的协调，避免相互干扰，实现全局最优。

5.2 多智能体DRL架构

有三种主要的MARL架构：

独立学习：每个智能体独立训练，将其他智能体视为环境的一部分。优点是实现简单，缺点是环境非平稳导致训练困难。

中心化训练分布式执行（CTDE）：训练时使用全局信息，执行时每个智能体只用本地信息。MADDPG、QMIX等算法采用这种架构，平衡了训练效率和执行可行性。

通信机制：智能体间通过通信交换信息，实现协调。可以显式通信（直接交换消息）或隐式通信（通过观测推断他人意图）。

下面展示了一个CTDE架构的MARL系统：

flowchart TD
    subgraph Train[训练阶段]
        Central[中心化训练器]
        GlobalInfo[全局信息<br>所有智能体状态]
        Critic1[评论家1]
        Critic2[评论家2]
        CriticN[评论家N]
    end

    subgraph Exec[执行阶段]
        Agent1[智能体1<br>本地策略]
        Agent2[智能体2<br>本地策略]
        AgentN[智能体N<br>本地策略]
    end

    subgraph Env[环境]
        State[全局状态]
        Reward[全局奖励]
    end

    subgraph Share[参数共享]
        Update[参数更新]
        Sync[同步到执行策略]
    end

    Env -->|提供| State
    State --> GlobalInfo
    GlobalInfo --> Central
    Central --> Critic1
    Central --> Critic2
    Central --> CriticN

    Critic1 --> Update
    Critic2 --> Update
    CriticN --> Update

    Update --> Sync
    Sync --> Agent1
    Sync --> Agent2
    Sync --> AgentN

    Agent1 --> Env
    Agent2 --> Env
    AgentN --> Env
    Env --> Reward
    Reward --> Central

    style Train fill:#fff8e1,stroke:#f57f17
    style Exec fill:#ffecb3,stroke:#f57f17
    style Env fill:#ffe082,stroke:#f57f17
    style Share fill:#ffd54f,stroke:#f57f17

图表讲解：这张图详细展示了CTDE架构的工作原理，体现了中心化训练、分布式执行的设计思想。

训练阶段：中心化训练器可以访问全局信息，包括所有智能体的状态、动作等。评论家（Critic）网络评估全局状态-动作的价值，可以有多个（每个智能体一个）或共享一个。使用全局信息训练的好处是可以考虑智能体间的相互作用，学习协调策略。

执行阶段：每个智能体只需要本地信息，使用训练好的策略网络独立决策。这符合实际部署需求，因为智能体间实时通信开销大、延迟高。分布式执行也提高了系统的鲁棒性，单个智能体故障不会影响整个系统。

参数共享：训练阶段学习的参数（特别是评论家）需要同步到执行阶段的策略网络。同步可以定期进行（如每个episode结束后），也可以实时进行（通过参数服务器）。参数共享确保执行策略与训练策略一致。

环境交互：智能体与环境交互，产生状态转移和奖励。全局奖励反映整体性能，需要分解到各个智能体进行信用分配。CTDE架构下，评论家负责信用分配，指导每个智能体的学习。

5.3 协同频谱接入

多智能体协同的一个典型场景是协同频谱接入。多个次用户共享频谱，需要协调避免冲突。

协同机制可以包括：

时间分割：不同智能体在不同时段接入，避免同时竞争同一频段。

频谱分割：不同智能体使用不同频段，减少干扰。

功率协调：智能体调整发射功率，控制干扰范围。

竞-合机制：智能体根据环境动态选择竞争或合作策略。

DRL可以学习这些协同策略，无需预先设计协调规则。

下面展示了一个多智能体协同接入的决策流程：

sequenceDiagram
    autonumber
    participant A1 as 智能体1
    participant A2 as 智能体2
    participant A3 as 智能体3
    participant Env as 共享环境
    participant Com as 协调器

    Note over A1,A3: 初始观测

    A1->>A1: 观测本地状态s₁
    A2->>A2: 观测本地状态s₂
    A3->>A3: 观测本地状态s₃

    A1->>Com: 广播意图a₁
    A2->>Com: 广播意图a₂
    A3->>Com: 广播意图a₃

    Com->>Com: 检测冲突
    Com->>Com: 协调调度

    alt 有冲突
        Com->>A1: 调整指令δa₁
        Com->>A2: 调整指令δa₂
        Com->>A3: 调整指令δa₃
    end

    A1->>Env: 执行调整后动作
    A2->>Env: 执行调整后动作
    A3->>Env: 执行调整后动作

    Env->>Env: 状态转移s'
    Env->>Env: 计算奖励r₁, r₂, r₃

    Env->>A1: 反馈(s', r₁)
    Env->>A2: 反馈(s', r₂)
    Env->>A3: 反馈(s', r₃)

    Note over A1,A3: 更新策略

图表讲解：这个序列图展示了多智能体协同接入的完整决策过程，体现了通信与协调在多智能体系统中的重要性。

初始观测：每个智能体独立观测本地状态，包括可用的频段、信道质量、干扰水平等。本地信息可能不完整，智能体对全局状态的理解有限。

意图广播：智能体将自己想要执行的动作（如接入哪个频段）广播给协调器。协调器可以是专用的中心节点，也可以是去中心化的共识机制。意图广播让智能体间相互了解彼此的计划。

冲突检测与协调：协调器收集所有智能体的意图，检测是否存在冲突（如多个智能体选择同一频段）。如果存在冲突，协调器生成调整指令，可能包括：改变接入频段、调整发射功率、时延接入等。协调算法可以是简单的优先级规则，也可以是复杂的优化求解。

执行与反馈：智能体执行（可能调整后的）动作，环境转移到新状态。每个智能体收到本地奖励，奖励设计应反映个人贡献和全局性能的平衡。智能体根据反馈更新策略，逐步学习协调策略。

5.4 多智能体资源分配的核心概念总结

概念名称	定义	应用场景	注意事项
CTDE	中心化训练分布式执行	多智能体协同	需要训练期全局信息
信用分配	将全局奖励分配给各智能体	多智能体学习	分配困难
意图通信	智能体交换意图信息	协调决策	通信开销
冲突检测	检测并解决智能体冲突	频谱共享	需要协调机制
独立学习	智能体独立训练	简单场景	环境非平稳

六、总结

本文深入探讨了深度学习在无线资源分配中的应用，重点介绍了无监督学习和DRL两大类方法。

核心要点回顾

范式转变：从基于模型的优化到数据驱动的学习，深度学习带来了全新的资源分配范式
无监督学习：通过设计损失函数，DNN可以直接学习优化问题的解，避免显式求解
DRL基础：状态-动作-奖励三元组是DRL的核心，通过试错学习最优策略
用户关联：DRL可以学习负载均衡的用户关联策略，平衡效率和公平性
多智能体协同：CTDE架构、协调机制、信用分配是多智能体系统的关键技术

技术发展趋势

深度学习驱动的资源分配仍有许多开放问题值得探索：

样本效率：如何减少对训练数据的需求，实现小样本快速学习
安全保证：如何确保学习到的策略始终满足安全和干扰约束
可解释性：如何理解神经网络学到的资源分配策略
迁移学习：如何将训练好的模型快速迁移到新场景

下篇预告

下一篇将深入探讨传输智能技术，带你了解深度学习如何突破物理层传输限制，学习信道编码、大规模MIMO-OFDM信道估计、深度聚类等前沿技术，掌握物理层智能化的实现方法。

51学通信

探索

无线通信中的深度学习第2篇：学习驱动的资源分配优化

无线通信中的深度学习系列第2篇：学习驱动的资源分配优化

摘要

学习目标

一、引言：无线资源分配的挑战与机遇

1.1 资源分配问题的复杂性

1.2 深度学习带来的范式转变

1.3 资源分配的主要场景

二、无监督学习的资源分配

2.1 无监督学习的独特优势

2.2 基于DNN的功率控制

2.3 无监督学习的关键设计

2.4 无监督学习资源分配的核心概念总结

三、深度强化学习基础

3.1 从监督学习到强化学习

3.2 DRL的核心组件

3.3 常用DRL算法

四、DRL用户关联与负载均衡

4.1 用户关联问题

4.2 DRL用户关联框架

4.3 负载均衡机制

4.4 DRL用户关联的核心概念总结

五、多智能体协同资源分配

5.1 多智能体挑战

5.2 多智能体DRL架构

5.3 协同频谱接入

5.4 多智能体资源分配的核心概念总结

六、总结

核心要点回顾

技术发展趋势

下篇预告

关系图谱

目录

51学通信

探索

无线通信中的深度学习 第2篇：学习驱动的资源分配优化

无线通信中的深度学习系列 第2篇：学习驱动的资源分配优化

摘要

学习目标

一、引言：无线资源分配的挑战与机遇

1.1 资源分配问题的复杂性

1.2 深度学习带来的范式转变

1.3 资源分配的主要场景

二、无监督学习的资源分配

2.1 无监督学习的独特优势

2.2 基于DNN的功率控制

2.3 无监督学习的关键设计

2.4 无监督学习资源分配的核心概念总结

三、深度强化学习基础

3.1 从监督学习到强化学习

3.2 DRL的核心组件

3.3 常用DRL算法

四、DRL用户关联与负载均衡

4.1 用户关联问题

4.2 DRL用户关联框架

4.3 负载均衡机制

4.4 DRL用户关联的核心概念总结

五、多智能体协同资源分配

5.1 多智能体挑战

5.2 多智能体DRL架构

5.3 协同频谱接入

5.4 多智能体资源分配的核心概念总结

六、总结

核心要点回顾

技术发展趋势

下篇预告

关系图谱

目录

无线通信中的深度学习第2篇：学习驱动的资源分配优化

无线通信中的深度学习系列第2篇：学习驱动的资源分配优化