一种D2D通信的直接接入方法

发布时间: 2023-11-02

基本信息

合作方式：技术转让

成果类型：发明专利

行业领域：

电子信息技术,通信技术

成果介绍

基站被视为智能体，其初始化状态包括不同D2D对的发射功率组合。这为智能体选择合适的动作奠定了基础。智能体使用ε-Greedy策略选择动作与环境交互。这种策略允许在探索新动作和利用已知最佳动作之间取得平衡，以促进学习过程。在执行所选动作后，Wi-Fi以广播方式传递本地信息给智能体。这些信息可能包括受到D2D通信干扰的Wi-Fi用户数量等。智能体根据Wi-Fi反馈信息获得奖励，并将相关数据存储到经验回放空间中。这有助于智能体通过回顾历史经验来学习。采用经验回放策略，从经验回放空间中随机抽取数据，以降低数据之间的相关性，提高学习效率。使用梯度下降法更新Q-Network的权重参数，这是深度强化学习中一种常见的方式。这有助于智能体逐步优化其动作选择策略。上述步骤在S2到S6中被反复执行，直到奖励曲线和吞吐量曲线收敛。这意味着智能体通过学习逐渐找到了最优的使用免授权频谱的D2D设备及其最优的发射功率。智能体模型：将基站作为智能体，使用深度强化学习（DQN）方法，通过学习来优化发射功率的决策，提高系统性能。采用动态调整ε-Greedy策略，随着训练步数的增加，智能体逐渐减少随机探索的概率。

成果亮点

基于智能体模型的深度强化学习方法：通过将基站建模为智能体并采用深度强化学习方法，该技术能够自主学习并优化发射功率的决策，从而提高系统性能。动态调整的ε-Greedy策略：采用动态调整的ε-Greedy策略，使智能体能够在探索和利用之间取得平衡，随着学习过程的进行，逐渐减少随机探索的概率，更多地依赖已有的知识，从而提高学习效率。经验回放策略：利用经验回放策略，智能体能够从历史经验中学习，降低数据之间的相关性，提高学习的效率和稳定性。针对D2D通信的发射功率优化：该技术的针对性在于针对D2D通信场景，通过动态调整发射功率来提高频谱利用率，最大化系统吞吐量，有效解决了频谱资源短缺的问题。系统的自适应能力：该方法使得系统能够根据实时的环境反馈信息来自适应地调整发射功率，以优化通信质量和频谱利用率。协同学习和自组织网络：这项技术还可以利用协同学习和自组织网络的思想，使智能体之间能够互相通信和合作。这种协同学习可以让智能体分享彼此的知识和经验，从而更有效地协同工作，提高整个系统的性能。自组织网络的概念还可以帮助网络中的智能体自动适应网络拓扑的变化，使其更具弹性和鲁棒性。

团队介绍

工业物联网与网络化控制教育部重点实验室依托 “工业物联网协同创新中心”、“国家工业物联网国际科技合作示范基地”、“智能仪器仪表网络化技术国家地方联合工程实验室”，获得首批重庆市高校创新团队称号和“重庆市杰出青年群体”重点实验室。现有科研人员64人，其中90%的研究人员具有博士学位，拥有国家级人才4名、省部级人才19名。近5年，实验室共承担各类科研项目100余项，获得各类省部级奖励18项，其中：国家技术发明二等奖1项、省部级一等奖7项、二等奖10项。重庆市科技进步奖一等奖2项、重庆市自然科学一等奖1项、中国自动化学会科技进步奖1项、中国仪器仪表学会科学技术进步奖1项、中国产学研合作创新成果奖1项、川渝产学研创新成果奖一等奖1项。承担40余项国家科技重大专项、国家863计划等国家级/省部级项目，牵头制定传感网测试国际标准和物联网网络层标准技术报告，牵头制定国际国家标准49项（牵头制定国际3项，国家标准10项）。发明专利授权250项（PCT专利12项、美国专利授权4项），发表高水平论文404篇。

成果资料

产业化落地方案

点击查看

成果综合评价报告

评价单位：“科创中国”工业物联网科技服务团 (重庆邮电大学) 评价时间：2023-11-08

付蔚

重庆邮电大学

正高级

综合评价

这项D2D通信的直接接入方法涉及一种智能体驱动的频谱管理方案，旨在解决频谱资源短缺、提高免授权频谱利用率和共存系统吞吐量的问题。以下是对该成果的综合意见：创新性和独特性：智能体框架：以基站作为智能体，并使用深度强化学习（DQN）来进行动作选择，这一框架在频谱管理领域相对较新颖。 ε‑greedy策略：利用ε‑greedy策略来平衡探索和利用，特别是在动作选择时采用了渐进降低的ε值，有助于在训练中平衡探索和利用的权衡。系统模型和问题定义： D2D通信模型：清晰地定义了D2D通信系统的模型，包括基站作为智能体、发射功率组合、Wi‑Fi网络的干扰等要素。状态表示：使用状态表示包括受到干扰的Wi‑Fi用户个数、D2D系统总吞吐量等信息，为智能体决策提供了全面的信息。实施和训练方法：经验回放：引入了经验回放策略，有助于降低数据间的相关性，提高训练效率。梯度下降法：使用梯度下降法来更新Q‑network的权重参数，这是深度强化学习中常见的方法。应用场景和适用性：适用性：该方法在D2D通信领域有潜在的应用，特别是在频谱资源受限的情况下，通过智能体的决策提高系统性能。场景描述：清晰地描述了场景中的D2D对、Wi‑Fi用户以及频谱利用的细节，增强了方法的实际应用性。