_科创中国

一种基于强化学习的工作排程优化方法

成果类型：: 发明专利

发布时间: 2023-09-15 11:19:34

科技成果产业化落地方案

方案提交机构：成果发布人| 熊鹏 | 2023-09-15 11:19:34

成果简介技术亮点应用前景团队概括产生的效益转化方式

本发明提出一种基于强化学习的工作排程优化方法，旨在通过考虑员工实时疲劳程度，优化员工工作排程，进而缩短最大完工时间。首先，分析员工工作与休息状态下的效率变化曲线，构建工作‑休息排程的数学模型，将员工作业流程建立为马尔可夫决策过程；其次，基于SAC(Soft Actor Critic)算法设计智能体决策框架，实时调整员工工作与休息时长，以最大限度提高员工平均工作效率；此外，设计工作量快速适应机制，仅通过少量迁移训练，实现快速适应不同任务目标。仿真结果表明本发明能够优化员工工作排程方案，缩短最大完工时间，同时在工作量任务较大的情况下，可得到更好的优化效果，工作量快速适应机制使模型可以更灵活的应用于动态场景中。

针对现有技术存在的问题，本发明提出了一种基于强化学习的工作排程优化方法。构建工作人员疲劳模型，并采用基于SAC算法的工作排程算法对其进行快速工作排程，调整员工工作与休息时长，提高员工平均工作效率，且在工作量发生变化时，对不同的工作量有一定快速响应能力。为达到以上目的，本发明采用如下具体技术方案予以解决：S1：分析员工工作与休息状态下的效率变化曲线，构建工作‑休息排程的数学模型，采用0.5次幂函数模拟休息时间对疲劳恢复的关系，采用三次函数模拟疲劳积累与工作时间的关系，每执行一次工作和休息过程的交替，为一次工息循环，反复进行工息循环，直至完成整个工作量；S2：初始化设定，建立员工作业流程所对应马尔可夫决策过程，包含以下步骤：S2.1：设定环境状态集S，环境状态集为：S＝{WT,Ew,Er,twork_last,trest_last,ttotal} (3)式中，WT为当前工息循环的剩余工作量，Ew为上一工息循环中工作过程结束时的工作效率，Er为当前时刻工作效率，twork_last

生产过程中，工人需要连续不断投入工作，期间消耗大量体力与精力，产生作业疲劳，导致作业能力下降。因此，安排合理的工作排程，设计有效的优化算法，减轻作业者的工作疲劳，对生产任务的顺利进行具有重要意义。

针对优化工作排程的问题，传统优化算法通常以最小化总完工时间作为算法的优化目标。然而，传统优化算法在解决工作排程的问题上普遍存在迭代时间长、动态性能差等缺陷，且大多在理论中得到证明。此外，由于实际任务中需完成的工作量处于一种动态变化的状态，因此要求设计的优化算法对于动态性能具备较强的适应能力。

此技术为哈尔滨理工大学栾添添研发，承担本专科及研究生层次普通高等学历教育工作承担科学技术研究工作

与现有技术相比，此技术产生的效益如下：(1)本发明根据环境特点，设计了相应奖励重塑机制避免造成奖励稀疏，解决了模型在训练过程中难以收敛的问题；

(2)本发明提出了一种工作量快速适应机制，通过少量迁移训练,使模型快速适应不同任务目标,减少了模型在切换不同任务后的训练时间；

(3)本发明提出的方法相较于传统遗传算法在工作量较大的情况下可以获得更好的优化效果。在8000工作量时，优化效果提升约25.3％；在10000工作量时，优化效果提升约33.6％。

技术转让，许可，合作所需资金需双方协商，此项技术想尽快落地保定，希望具备此项技术研发的技术方，能够尽快承接此项目。