新刊速递|哈尔滨工程大学计算机科学与技术学院冯光升教授团队:基于强化学习的多目标微服务部署方法

哈尔滨工程大学计算机科学与技术学院冯光升教授团队在《郑州大学学报(理学版)》上发表题为：“基于强化学习的多目标微服务部署方法”的研究型论文。

Cite: ZHANG Menyao, ZHANG Yingxi, ZHENG Wenqi, et al. A Reinforcement Learning Based Approach to Multi-objective Microservice Deployment[J]. Journal of Zhengzhou University(Natural Science Edition), 2026, 58(2): 33-39, 47.

01 研究背景与意义

随着物联网与5G技术的快速发展，边缘计算通过在数据源头附近进行处理，有效缓解了传统云计算在延迟和带宽方面的瓶颈。然而，边缘节点资源受限，对应用架构提出了更高要求。微服务凭借其轻量、模块化和独立部署等优势，成为构建边缘智能应用的主流范式。在此背景下，研究如何对微服务进行有效部署至关重要。

现有微服务部署方法多聚焦于降低通信开销或均衡节点负载，但普遍存在两大局限：其一，仅依据节点间物理距离建模通信成本，忽视了微服务间交互频率的异质性，导致高频交互服务被分散部署，引入不必要的延迟；其二，虽有研究尝试将高交互服务集中部署以减少通信，却易造成局部节点资源过载，引发负载失衡，反而损害整体服务质量。

针对上述挑战，亟需一种能够协同优化通信效率与资源均衡的多目标部署机制。强化学习因其在序贯决策问题中的强大能力，为该问题提供了新思路。本文提出一种基于深度Q学习的多目标微服务部署方法，构建融合交互感知通信开销与节点资源加权方差的联合优化模型，并设计改进的(microservice-optimized reward enhanced deep Q-learning，MORE-DQL)算法，通过共享奖励机制提升策略学习的稳定性与有效性。该方法不仅更真实地刻画边缘微服务部署的复杂约束，也为资源受限环境下高可用、低延迟的服务编排提供了可行的技术路径。

02 文章亮点

构建双重优化目标模型，同时考虑微服务间交互感知通信开销与边缘节点资源加权方差，首次将交互频率权重纳入部署决策，避免“高交互-远距离”部署陷阱。

提出MORE-DQL强化学习算法，设计共享奖励机制，将最终联合成本作为全局奖励反馈至每一步动作，显著提升算法收敛稳定性与策略质量。

在真实CHM应用与Kubernetes集群上验证优越性，相比动态资源分配部署(DIM)与Kubernetes默认策略，MORE-DQL在TP90/TP95响应时间上平均降低20%以上，且资源分配更均衡。

03 文章简读

本文提出了最优多目标微服务部署(optimal multi-objective microservices deployment，OMMD)问题，旨在最小化通信开销的同时实现边缘节点的资源平衡，将微服务部署问题建模为马尔可夫决策过程(Markov Decision Process, MDP)。状态空间包含各边缘节点的资源占用情况与容器部署位置；动作空间为将某容器调度至某一节点；奖励函数由归一化的通信开销与资源加权方差线性组合构成，体现多目标权衡。

在此基础上，设计微服务优化奖励深度Q学习（MORE-DQL）算法。区别于传统DQN仅依赖即时奖励，MORE-DQL在每个部署回合结束后，将最终联合成本作为共享奖励回传至该回合所有决策步骤，使智能体能更准确评估早期动作的长期影响。同时引入经验回放与目标网络，保障训练稳定性。

实验基于心血管健康监测（CHM）开源应用，在含1云5边的Kubernetes集群中进行。结果表明：MORE-DQL能将高频交互的紧急诊断与预测服务部署于同一节点以减少通信，同时将其他服务合理分散，避免资源热点。在并发请求增至400时，其95%响应时间仍比Kubernetes默认策略低近40%，展现出优异的扩展性与鲁棒性。

04 图表导读

图1 CHM应用程序的微服务交互图。该图清晰展示四个微服务（客户端、预处理、紧急诊断、预测）间的通信权重（w₁₂=1, w₃₄=4等），凸显紧急诊断与预测服务交互最频繁，为部署策略提供依据程。

图2 MORE-DQL算法框架图。该图MORE-DQL算法由MORE-DQL智能体、环境和状态三部分组成。该算法的目标是通过与环境的动态互动来探索并学习最优部署策略。

图3 三种策略部署结果。MORE-DQL将ms₃（紧急诊断）与ms₄（预测）同置于N₀节点，而DIM将全部容器集中于单节点（资源浪费），DE则均匀分散（通信开销高），直观体现多目标平衡优势。

（a）90%响应时间

（b）95%响应时间

图4 相应时间性能对比。随着并发请求数增加，MORE-DQL的TP90/TP95响应时间始终最低且增长平缓，显著优于DIM与DE，证明其在高负载下的稳定性。

（a）MORE-DQL

（b）DQL

图5 MORE-DQL与DQN收敛性对比。MORE-DQL的联合成本曲线波动小、收敛快且稳定至更低值，而DQN剧烈震荡，验证共享奖励机制有效提升算法收敛性与策略质量。

05 作者简介

通信作者：冯光升教授

哈尔滨工程大学计算机科学与技术学院

研究方向：网络安全、边缘计算、物联网感知研究

E-mail:fengguangsheng@hrbeu.edu.cn

06 文章链接

引用格式：

张璊瑶, 张盈希, 郑文祺, 等. 基于强化学习的多目标微服务部署方法[J]. 郑州大学学报(理学版), 2026, 58(2): 33-39, 4.

ZHANG Menyao, ZHANG Yingxi, ZHENG Wenqi, et al. A Reinforcement Learning Based Approach to Multi-objective Microservice Deployment[J]. Journal of Zhengzhou University(Natural Science Edition), 2026, 58(2): 33-39, 47.

扫描上方二维码，或点击文末“阅读原文”查看文献。

https://html.rhhz.net/ZZDXXBLXB/html/20260205.htm

郑州大学学报（理学版）

● 中国中文核心期刊

● 中国高校优秀科技期刊

● Scopus、EBSCO、CA、JST等国际知名数据库收录

● 中国科技论文与引文数据库（CSTPCD）来源期刊

《郑州大学学报（理学版）》是郑州大学主办的自然科学类综合性学术刊物。主要刊登信息与计算机科学、数学、物理学、化学、生物工程科学、材料科学与电气工程科学等自然科学各学科的基础研究及应用研究方面的学术论文。本刊所发表的论文已被《中国数学文摘》、《中国物理文摘》、荷兰《Scopus数据库》、美国《数学评论》、俄罗斯《文摘杂志》及波兰《哥白尼索引》等国内外多家权威文摘杂志及数据库收录或评论，致力于促进自然科学领域的学术交流与发展。

点击下方 “阅读原文” 获取期刊内容

新刊速递|哈尔滨工程大学计算机科学与技术学院冯光升教授团队:基于强化学习的多目标微服务部署方法

发表回复 取消回复

发表回复取消回复