新刊速递|长春理工大学计算机科学技术学院李奇教授团队 :基于深度抑郁特征编码网络的语音抑郁检测
长春理工大学计算机科学技术学院李奇教授团队在《郑州大学学报(理学版)》上发表题为:“基于深度抑郁特征编码网络的语音抑郁检测”的研究型论文。
Cite: LI Qi, JI Shengwen, ZHAO Di, et al. Speech Depression Detection Based on Deep Depression Feature Encoding Network. Journal of Zhengzhou University(Natural Science Edition), 2026, 58(3): 10-16.
抑郁症是一种严重的精神疾病,其主要表现为持续情绪低落、兴趣减退,严重时甚至可能产生自杀倾向。世界卫生组织数据显示,全球已有超过3.5亿人受到不同程度抑郁症困扰。由于当前精神医疗资源紧张、医患比例失衡,许多患者无法得到及时有效的筛查与诊断,因此,开发一种高效、可靠、低成本的自动化抑郁检测方法具有重要现实意义。
近年来,基于语音信号的抑郁检测方法因其非侵入性、获取便捷和成本较低等优势,逐渐成为智能医疗与情感计算领域的重要研究方向。传统语音抑郁检测方法主要依赖人工设计的声学特征进行分类,但这类方法难以充分挖掘与抑郁相关的深层语音特征,容易出现特征缺失和识别精度不足的问题。
随着深度学习的发展,长短期记忆(long short-term memory,LSTM)网络、Transformer 等神经网络结构在语音特征建模方面取得了显著进展。其中,Wav2vec2.0 等自监督预训练模型能够从海量未标注语音中学习潜在表示,大幅降低对标注数据的依赖。然而,在语音抑郁检测任务中,Wav2vec2.0 提取的特征往往包含大量与抑郁状态无关的信息,如音色、口音等冗余特征,从而限制了模型性能。
针对上述问题,本文提出一种基于深度抑郁特征编码网络(Deep Depression Feature Encoding Network, D-DFENet)的语音抑郁检测方法,通过融合 Wav2vec2.0 与卷积变分自编码器(convolutional variational autoencoder network, CVAENet),实现语音特征的有效去冗余与深层抑郁特征提取,从而提升抑郁检测精度与泛化能力。
02 文章亮点
1
构建 D-DFENet 网络,实现深层抑郁特征编码,针对语音抑郁检测中存在的特征冗余问题,文章提出了深度抑郁特征编码网络 D-DFENet。该模型以 Wav2vec2.0 为基础提取语音潜在表征,并进一步通过卷积变分自编码器模块(CVAENet)对特征空间进行压缩与优化,有效筛除与抑郁状态无关的冗余信息。
2
引入卷积变分自编码器,增强去冗余能力,文章创新性地设计了 CVAENet 模块,在传统变分自编码器结构中逐层嵌入卷积神经网络,通过卷积操作提取语音时空依赖特征,并利用变分推断机制构建低维潜在空间。该结构不仅能够压缩高维特征空间,还能够强化抑郁相关特征表达,从而显著提升模型对抑郁与非抑郁状态的区分能力。
3
融合 SMOTE 数据增强,缓解样本不平衡问题,针对 DAIC-WOZ 数据集中“非抑郁”样本远多于“抑郁”样本的问题,研究引入合成少数类过采样技术(synthetic minority oversampling technique,SMOTE),通过生成新的少数类样本平衡数据分布,有效缓解分类偏差问题。
4
在 DAIC-WOZ 数据集上实现性能突破,实验结果表明,当 CVAENet 将特征维度降至128维时,模型性能达到最优。其中,结合随机森林(random forest, RF)分类器后,模型准确率与 F1 分数均达到90%,显著优于现有语音抑郁检测方法。与 W2V2、CNN AE+SVM、BiGRU AE 等主流方法相比,本文方法在分类准确率与综合评估指标方面均表现出更强竞争力。
03 文章简读
本文提出了一种基于深度抑郁特征编码网络(D-DFENet)的语音抑郁检测方法,旨在解决语音抑郁检测任务中存在的特征冗余与数据不平衡问题。
整体模型主要由 W2V2Net 特征提取模块、SMOTE 数据增强模块、CVAENet 特征编码模块以及分类器模块四部分组成。首先,模型利用 Wav2vec2.0 预训练网络从原始语音中提取潜在语义表征,通过自监督学习捕获丰富的上下文信息。随后,针对抑郁样本数量不足的问题,研究采用 SMOTE 技术对少数类样本进行过采样,提升模型对抑郁语音的敏感性。
在特征编码阶段,本文设计了卷积变分自编码器模块(CVAENet)。编码器部分通过多层卷积与池化操作逐步提取局部时空特征,并利用变分推断机制将高维语音特征映射至低维潜在空间;解码器部分则通过反卷积和反池化重构输入特征,从而实现有效的特征压缩与重建。该过程不仅能够保留与抑郁状态高度相关的关键特征,还能有效去除音色、口音等无关干扰信息。
在分类阶段,分别采用随机森林(RF)、多层感知机(multi-layer perceptron,MLP)与梯度提升(gradient boosting,GB)三种分类器对编码特征进行评估。实验结果显示,RF 分类器表现最佳,其准确率与 F1 分数均达到90%,说明 D-DFENet 提取的特征具有较强的判别能力与稳定性。
此外,本文还进一步开展了语音预处理实验、自编码器对比实验以及降维实验。结果表明,采用“5分钟静音移除后语音”作为输入能够获得最佳检测效果;同时,相比 Dense AE 与普通 VAE,本文提出的 CVAENet 在特征去冗余与分类性能方面表现更优。当特征维度降至128维时,模型能够在保留关键信息的同时实现最佳分类效果。
总体而言,本文通过融合自监督预训练模型与卷积变分自编码器,有效提升了语音抑郁检测的准确率与鲁棒性,为智能心理健康辅助诊断提供了新的技术思路。
04 图表导读

图1 D-DFENet整体框架图。该图展示了本文提出的语音抑郁检测系统整体流程。模型首先通过 Wav2vec2.0 提取语音潜在特征,再结合 SMOTE 完成数据增强,随后利用 CVAENet 去除冗余特征并提取深层抑郁特征,最后分别输入 RF、MLP 和 GB 分类器完成抑郁状态识别。直观体现了模型从“语音输入—特征提取—特征压缩—分类识别”的完整工作流。

图2 Wav2vec2.0 自监督模型框架。该图详细展示了 Wav2vec2.0 的自监督学习结构,包括 CNN 特征编码器、量化模块以及 Transformer 上下文编码器。模型通过随机掩码与对比学习机制,从未标注语音中自动学习潜在语义表示。这一结构为后续抑郁特征学习提供了丰富的上下文语义信息。

图3 CVAENet 总体结构图。图3展示了卷积变分自编码器(CVAENet)的完整结构。编码器部分通过多层卷积与池化操作提取局部特征,并构建低维潜在空间;解码器部分则通过反卷积重构输入数据。该结构有效实现了语音特征去冗余,并增强了抑郁相关特征表达能力。

图4 不同分类器的混淆矩阵。该图对比了 RF、MLP 与 GB 三种分类器在测试集上的分类效果。结果显示,RF 分类器在抑郁与非抑郁样本区分方面表现最优,其分类边界更加清晰,误分类率最低。这一结果进一步验证了 D-DFENet 特征在随机森林分类器中的高适配性。

图5 语音数据预处理对比实验。该图比较了不同语音预处理策略下的分类性能,包括原始语音、静音移除后语音以及5分钟裁剪语音等方案。实验结果表明,“5分钟静音移除后语音”在三种分类器上均取得最佳效果。说明静音移除与统一语音长度能够有效增强模型对抑郁相关语音特征的捕捉能力。

图6 降维实验结果对比。图6展示了不同特征维度下模型的分类性能变化。实验结果表明,当特征维度降至128维时,模型性能达到最佳;而进一步降至64维后,准确率出现下降。说明适度降维有助于去除冗余特征,但过度压缩会导致关键信息损失。
表1 不同自编码器对比实验结果
单位:%

该表对比了 Dense AE、VAE 与本文提出的 CVAENet 在不同分类器下的性能表现。结果显示,CVAENet 在 F1 分数、准确率、查准率与查全率等指标上均优于其他自编码器结构。这表明卷积变分机制能够更有效地学习抑郁相关语音特征。
表2 不同算法在DAIC-WOZ数据集上性能对比
单位:%

在 DAIC-WOZ 数据集上,本文方法与 W2V2、CNN AE+SVM、BiGRU AE、STFN 等多种主流算法进行了横向比较。结果显示,D-DFENet+RF 在准确率与 F1 分数方面均达到90%,整体性能优于现有方法。该结果充分验证了本文方法在语音抑郁检测任务中的有效性与竞争力。
05 作者简介
第一作者:李奇 教授
长春理工大学 计算机科学技术学院
研究方向:主要从事脑信息学与智能信息处理研究
E-mail:liqi@cust.edu.cn
06 文章链接
引用格式:
李奇, 姬生文, 赵迪, 等. 基于深度抑郁特征编码网络的语音抑郁检测. 郑州大学学报(理学版), 2026, 58(3): 10-16.
LI Qi, JI Shengwen, ZHAO Di, et al. Speech Depression Detection Based on Deep Depression Feature Encoding Network. Journal of Zhengzhou University(Natural Science Edition), 2026, 58(3): 10-16.

扫描上方二维码,或点击文末“阅读原文”查看文献。
https://html.rhhz.net/ZZDXXBLXB/html/20260302.htm
郑州大学学报(理学版)

● 中国中文核心期刊
● 中国高校优秀科技期刊
● Scopus、EBSCO、CA、JST等国际知名数据库收录
● 中国科技论文与引文数据库(CSTPCD)来源期刊
《郑州大学学报(理学版)》是郑州大学主办的自然科学类综合性学术刊物。主要刊登信息与计算机科学、数学、物理学、化学、生物工程科学、材料科学与电气工程科学等自然科学各学科的基础研究及应用研究方面的学术论文。本刊所发表的论文已被《中国数学文摘》、《中国物理文摘》、荷兰《Scopus数据库》、美国《数学评论》、俄罗斯《文摘杂志》及波兰《哥白尼索引》等国内外多家权威文摘杂志及数据库收录或评论,致力于促进自然科学领域的学术交流与发展。

-
点击下方 “阅读原文” 获取期刊内容

-
点击下方 “阅读原文” 获取期刊内容