计算机科学与技术|2026年第2期
华南理工大学学报(自然科学版)
2026年 第54卷 第2期
月刊 1957年创刊
计算机科学与技术

1.基于多模态场景记忆与指令提示的目标导航方法
董敏 赖酉城 毕盛

摘 要:目标导航要求机器人能够根据自然语言指令或目标类别,在工作环境中自动规划路径并准确到达指定目标位置。现有目标导航方法主要分为端到端学习和基于规划两大类,其中端到端方法虽然能够直接学习从感知到动作的映射,但普遍存在泛化能力不足与可解释性差等问题;而基于规划的方法在一定程度上提升了泛化性和可解释性,但仍存在未针对已知环境进行优化、忽略自然语言指令中的提示信息、难以实现对目标指定距离的精确停靠等问题,且执行效率较低。针对上述问题,该文提出了一种基于多模态场景记忆与指令提示的目标导航方法(MEMO-Nav),旨在提升机器人在已知环境下的目标导航效果。该方法采用分层架构,上层规划层维护多模态场景记忆以记录环境信息,并利用大语言模型解析自然语言指令中的目标与提示信息,进而结合场景记忆与指令信息进行高效的路径点筛选和导航规划;底层执行层则负责基础导航功能,完成机器人的定位与移动,并集成目标检测模型与深度相机实现对目标物体的精确定位。规划层与执行层构成完整的目标导航系统,最终实现根据自然指令找到目标并停靠在目标指定距离的功能。该文在GAZEBO仿真平台和真实环境上开展了多次实验,结果表明,在已知环境下所提方法的导航效率、成功率以及停靠距离精度等指标相较于已有方法均有明显提升。综上,该文提出的方法为移动机器人在实际场景下实现高效、可解释且精确的目标导航提供了可行的实现方法。
作者简介:董敏(1977—),女,博士,副教授,主要从事智能系统研究。
引用格式:董敏, 赖酉城, 毕盛. 基于多模态场景记忆与指令提示的目标导航方法[J]. 华南理工大学学报(自然科学版), 2026, 54(2): 1-15.
DONG Min, LAI Youcheng, BI Sheng. Target Navigation Method Based on Multimodal Scene Memory and Instruction Prompting[J]. Journal of South China University of Technology(Natural Science Edition), 2026, 54(2): 1-15.
DOI:10.12141/j.issn.1000-565X.250152
2.基于样本互补锚点图的缺失多视图聚类算法
刘小兰 徐宇鸿

摘 要:随着多视图数据在现实场景中得到广泛应用,如何处理缺失视图下的聚类问题已成为机器学习领域的重要挑战。传统锚点图聚类算法依赖完整实例构建锚点图,这导致其在高缺失率下因锚点不足难以表征数据结构,在低缺失率时又无法发挥锚点的优势。针对传统锚点图聚类算法中存在的锚点选择受限、权重分配僵化和计算复杂度高的问题,该文提出了一种基于样本互补锚点图的缺失多视图聚类算法(IMVC-SAC)。该算法首先设计跨视图锚点互补机制,通过在共有样本与视图特有样本中自适应选取锚点,以解决高缺失率下数据结构表征不足的问题;然后建立缺失模式感知的权重模型,依据样本的缺失模式与程度调整视图对相似矩阵的贡献度;最后利用双随机非负矩阵可分解特性,将谱聚类的时间复杂度从样本规模的立方阶复杂度优化至线性阶复杂度。在5个公开数据集上的实验结果表明,该算法的聚类性能优于目前主流算法,尤其在高缺失率下仍能保持较好的聚类效果,验证了其鲁棒性与有效性。
作者简介:刘小兰(1979—),女,博士,教授,主要从事优化算法与机器学习研究。
引用格式:刘小兰, 徐宇鸿. 基于样本互补锚点图的缺失多视图聚类算法[J]. 华南理工大学学报(自然科学版), 2026, 54(2): 16-24.
LIU Xiaolan, XU Yuhong. Incomplete Multi-View Clustering Algorithm Based on Sample Complementary Anchor Graph[J]. Journal of South China University of Technology(Natural Science Edition), 2026, 54(2): 16-24.
DOI:10.12141/j.issn.1000-565X.250145
3.基于改进YOLOv5s的输电塔螺栓松动检测
王德弘 张子轩

摘 要:输电塔作为电力输送网络的关键基础设施,其结构安全性直接关系到电网的稳定运行。在长期服役过程中,输电塔螺栓受风荷载、温差效应及材料老化等多因素耦合作用,易逐渐发生松动。该文提出了一种基于改进YOLOv5s的输电塔螺栓松动智能检测模型(CCSGS-YOLO):采用坐标卷积替代主干网络中的标准卷积层,增强模型对目标位置信息的获取能力;引入卷积注意力模块(CBAM),通过通道与空间双重注意力机制,强化模型在复杂背景下的特征鉴别能力;构建Slim-Neck特征融合结构,借助跨阶段部分连接与深度可分离卷积的优化组合,在维持检测精度的同时降低计算复杂度;采用GIoU损失函数与Soft-NMS的联合优化策略,通过考虑预测框与真实框的重叠几何特性,提升目标检测的定位精度。实验结果表明:CCSGS-YOLO的精确率达91.7%,召回率为89.4%,平均精度均值达到95.3%,F1分数提升至90.0%,较基准模型YOLOv5s分别提高了1.6、3.0、1.4和1.0个百分点;在计算效率方面,CCSGS-YOLO模型检测速度达74.8 f/s,推理时延降低至13.4 ms,较YOLOv5s模型提升11.6%。此外,该文通过现场实验验证了CCSGS-YOLO在不同场景下的检测鲁棒性,为输电塔螺栓松动的智能巡检提供了一种新思路。
作者简介:王德弘(1985—),男,博士,教授,主要从事输电工程和结构抗震研究。
引用格式:王德弘, 张子轩. 基于改进YOLOv5s的输电塔螺栓松动检测[J]. 华南理工大学学报(自然科学版), 2026, 54(2): 25-37.
WANG Dehong, ZHANG Zixuan. Transmission Tower Bolt Looseness Detection Based on Improved YOLOv5s[J]. Journal of South China University of Technology(Natural Science Edition), 2026, 54(2): 25-37.
DOI:10.12141/j.issn.1000-565X.250172
4.基于改进EfficientNetV2的铝液泄漏声音识别与预警机制
梁艳辉 温承杰 闫军威 周璇 张洪涛

摘 要:铝液泄漏是导致铝加工深井铸造爆炸事故的直接原因。为解决实际工程中铝液泄漏判断方法滞后性强、准确率低和监测范围受限等问题,该文提出了基于改进EfficientNetV2的铝液泄漏声音识别方法。该方法通过声音特征判断铝液泄漏,以扩大监测范围;同时通过优化堆叠因子、引入高效通道注意力机制改进EfficientNetV2结构,以进一步提升识别速率与准确率。首先,利用拾音器采集不同场景下的声音数据,构建包含7类声音场景的声音数据库;然后,从声音信号中提取对数梅尔语谱图作为特征集,输入到改进的EfficientNetV2模型进行训练与验证,最终得到铝液泄漏声音识别模型。实验结果表明:改进的EfficientNetV2识别准确率达95.48%;与原始EfficientNetV2、ResNet、RegNet及DenseNet相比,改进模型的浮点运算次数分别为上述模型的12.34%、8.64%、11.14%和10.80%,参数量分别为上述模型的11.37%、9.55%、15.95%和17.24%,CPU环境下每秒处理图像帧数分别为上述模型的6.53倍、6.14倍、4.41倍和8.00倍,说明改进的EfficientNetV2具有快速准确的识别性能。此外,基于该文提出的铝液泄漏声音识别方法,构建了铝液泄漏风险预警机制,并将该机制应用于铸造单元的实时风险监测。实践结果验证了所提识别方法与预警机制的有效性,可为铝加工深井铸造爆炸事故的预防提供技术参考。
作者简介:梁艳辉(1990—),男,博士,工程师,主要从事铝加工安全研究。
引用格式:梁艳辉, 温承杰, 闫军威, 等. 基于改进EfficientNetV2的铝液泄漏声音识别与预警机制[J]. 华南理工大学学报(自然科学版), 2026, 54(2): 38-51.
LIANG Yanhui, WEN Chengjie, YAN Junwei, et al. Sound Recognition and Early Warning Mechanism for Liquid Aluminum Leakage Based on Improved EfficientNetV2[J]. Journal of South China University of Technology(Natural Science Edition), 2026, 54(2): 38-51.
DOI:10.12141/j.issn.1000-565X.250006
5.基于社交扩散和自适应负采样的推荐算法
蔡晓东 李婷 苏一峰

摘 要:基于图神经网络的社交推荐算法利用社交网络提升推荐系统的性能。但是现有算法大多直接将原始社交图整合到推荐系统中,忽略了社交网络中存在的非同质性社交连接,从而为推荐系统引入噪声信息。此外,现有负采样策略选择固定难度的负样本,容易产生假负样本,导致模型对用户偏好的区分度不足。为解决上述问题,该文提出了一种基于社交扩散和自适应负采样的推荐算法。首先,对社交网络执行前向扩散和用户兴趣引导去噪操作,生成用户的同质性社交表示;然后利用多视图表征对齐方法,以最大化用户表示在去噪社交图、原始社交图和用户-项目交互图间的互信息,进而优化用户表示质量;最后,根据正样本预测评分选择自适应难度的负样本,实现正负样本相似度边界的动态校准,以提升模型的整体性能。实验结果表明,该算法较当前先进推荐算法效果显著,在数据集Douban上的召回率和归一化折扣累积增益分别提升了11.99%和10.54%,在数据集Epinions上分别提升了15.62%和11.14%,在数据集Yelp上分别提升了13.80%和14.90%,验证了其能有效缓解噪声干扰,区分正负样本之间的细微差别。
作者简介:蔡晓东(1971—),男,博士,研究员,主要从事数据挖掘研究。
引用格式:蔡晓东, 李婷, 苏一峰. 基于社交扩散和自适应负采样的推荐算法[J]. 华南理工大学学报(自然科学版), 2026, 54(2): 52-61.
CAI Xiaodong, LI Ting, SU Yifeng. Recommendation Algorithm Based on Social Diffusion and Adaptive Negative Sampling[J]. Journal of South China University of Technology(Natural Science Edition), 2026, 54(2): 52-61.
DOI:10.12141/j.issn.1000-565X.250179
6.结合增强空间感知的远距离车道线检测方法
王耀琦 卢亚琦 王小鹏

摘 要:车道线检测作为智能汽车视觉导航系统的核心技术,其性能直接影响到车辆的路径引导与转向控制,对提升交通安全性和导航效率具有重要意义。车道线图像中背景信息往往占据主导地位,特别是远距离车道线存在特征小、标记缺失或被遮挡等问题,同时伴随视觉上的宽度变化,导致远距离车道线比正常车道线更加难以识别。为解决这一问题,该文提出了结合增强空间感知的车道线检测方法。该方法首先针对车道线在图像中呈细长结构的特点,在主干网络中引入条形池化,以细化车道线信息的表示;然后将增强空间感知优化器(ESAO)和车道线多尺度聚合器(LMSA)相结合,以抑制无关背景和增强远距离车道线特征,进而提高车道线检测的准确性和稳定性;最后,通过全局和局部斜率一致性损失函数自适应调整车道线形状与位置,以保持预测车道线与地面真实情况之间的形状一致性。在2个车道线检测数据集TuSimple和CULane上的实验结果表明,该方法优于对比实验中最优秀的方法,在数据集TuSimple上的F1 分数和准确率分别提高0.58和0.19个百分点,在数据集CULane上的F1@50提高1.14个百分点,特别是在远距离道路场景中表现的性能更加稳定。
作者简介:王耀琦(1976—),男,硕士,副教授,主要从事多媒体信息处理、嵌入式系统设计研究。
引用格式:王耀琦, 卢亚琦, 王小鹏. 结合增强空间感知的远距离车道线检测方法[J]. 华南理工大学学报(自然科学版), 2026, 54(2): 62-76.
WANG Yaoqi, LU Yaqi, WANG Xiaopeng. A Long-Range Lane Detection Method with Enhanced Spatial Perception[J]. Journal of South China University of Technology(Natural Science Edition), 2026, 54(2): 62-76.
DOI:10.12141/j.issn.1000-565X.250181
7.基于逐通道空间自适应选择核卷积与双向边界感知机制的乳腺超声图像病变分割网络
王洁 李璐瑶

摘 要:乳腺癌是全球女性最常见的恶性肿瘤之一,准确的病变分割对于乳腺癌的早期诊断与治疗具有重要意义。然而,由于病变形态的多样性以及超声成像机制的复杂性,现有基于深度学习的乳腺超声图像病变分割方法在分割准确性方面仍面临巨大挑战。为进一步提升乳腺超声图像中病变区域的分割精度,该文基于经典U-Net架构,提出了一种新型乳腺超声图像病变分割网络(CWSASKM-BBAM-Net)。首先,在网络中引入逐通道空间自适应选择核卷积模块(CWSASKM),根据不同通道的语义特征为每个空间位置自适应选择感受野大小,以增强多尺度信息的建模能力;然后,引入双向边界感知机制(BBAM),通过融合正向与反向注意力,对目标显著区域及其边界进行协同建模,同时逐步提升对非显著区域与病变区域的区分能力,以进一步强化边界信息的表达;最后,在3组公开乳腺超声图像数据集(BUSI、UDIAT和STU)上开展分割实验。结果表明:该方法在数据集BUSI上的杰卡德指数、精确率、召回率和Dice相似系数分别为71.97%、82.85%、81.40%和80.44%,较次优方法分别提升1.69、1.05、1.28和1.84个百分点;在数据集UDIAT上,这4项指标分别达到78.14%、88.31%、86.73%和86.10%,较次优方法分别提升了2.75、2.04、0.56和2.01个百分点;在外部数据集STU上,该方法也取得了优于其他方法的整体表现。实验结果表明,CWSASKM-BBAM-Net在乳腺超声图像分割任务中展现出更优的整体性能。
作者简介:王洁(1972—),女,博士,副教授,主要从事逻辑程序设计、面向Agent的程序语言和深度学习研究。
引用格式:王洁, 李璐瑶. 基于逐通道空间自适应选择核卷积与双向边界感知机制的乳腺超声图像病变分割网络[J]. 华南理工大学学报(自然科学版), 2026, 54(2): 77-90.
WANG Jie, LI Luyao. A Breast Ultrasound Images Lesion Segmentation Network Based on Channel-Wise Spatially Adaptive Selective Kernel Convolution and Bidirectional Boundary-Aware Mechanism[J]. Journal of South China University of Technology(Natural Science Edition), 2026, 54(2): 77-90.
DOI:10.12141/j.issn.1000-565X.250230

线上投稿网址:http://zrb.bjb.scut.edu.cn
编辑:牛晓光/初审:许花桃
复审:孙涛/终审:张乐平
戳左下角“阅读原文”在线翻阅本期期刊


评论