文献传递:《计算机应用》烟草农业标准知识图谱命名实体识别方法
相关信息

作者:李珏,侯静静,李欣蓓,张晓芳,杨国涛,李素晓,张勍
相关单位:1.中国烟草总公司河南省公司;2.郑州大学物理学院;3.中国烟草总公司郑州烟草研究院
文献摘要
摘要:针对烟草农业标准条文要素的语义复杂性高、实体类别多样和上下文关联性强等特点,设计一种以全局特征为主通道,融合局部特征信息的命名实体识别(NER)方法BERT_I-B-M-C。该方法基于混合神经网络构建,包含BERT(Bidirectional Encoder Representations from Transformers)嵌入层、特征提取层、特征权重优化层和解码层。首先,使用BERT嵌入层实现文本向量化,并使用特征提取层通过融合全局信息与局部特征提取上下文特征;其次,依据多头注意力(MHA)分配特征权重,以强化关键特征;最后,利用解码层预测实体类别。在基于132篇烟草农业标准文档构建的实体标注语料库上的实验结果表明,所提方法优于双向长短期记忆(BiLSTM)网络和BiLSTM_CRF等8种常用基线方法。针对8类实体标注类别,所提方法的F1分数均在88%以上;除去形式固定易识别的标准号,所提方法对其他实体的识别平均F1分数为90.99%。此外,消融实验结果验证了所提方法各部分在NER中的有效性。
关键词:烟草农业标准;知识图谱;命名实体识别;混合神经网络;全局特征;局部特征
图文摘要

本文方法的整体框架
BERT预训练语言模型采用双向Transformer架构,能够将高度非结构化数据向量化。特征提取层包括IDCNN和BiLSTM这2个模型,分别进行基于全局语义信息的局部特征提取和基于全局语义信息及局部特征语义信息的上下文特征提取。基于BiLSTM所提取的特征,利用MHA进行特征权重,弱化无关特征,强化实用特征以提升实体识别准确率。解码层采用CRF解码器,最终输出模型预测结果。

DCNN的膨胀过程(以卷积核为3×3为例)
膨胀卷积神经网络(DilatedCNN,DCNN)的卷积层数为3,若膨胀宽度分别为1、1、2,随卷积层递进,所得空洞卷积分别为1、2、4,以3×3卷积核为例,膨胀过程如图所示。

LSTM的单元结构
LSTM通过引入门控机制调整信息的保留和遗忘以缓解传统RNN处理长序列文本时存在的梯度消失和爆炸的问题,能有效捕获长序列特征,它的单元结构如图所示。
超参数设置

不同于公开数据集,batch_size为8时各模型可达到较好效果,学习率依据是否包含有BERT嵌入层而不同。
不同方法在3个公开数据集和烟草农业标准命名实体识别数据集上的识别性能对比

可以看出,随着数据集语义复杂度的提高,各方法的识别性能均在下降。
本文方法对各实体类别的识别结果



评论