关键词抽取是指能自动抽取反映文本主题的词或者短语,被广泛应用于文本检索、文本摘要等领域中。目前关键词抽取任务主要依赖于预训练语言模型来获取文本表示,这类语言模型主要基于单一模态的通用文本语料进行训练,存在无法根据下游任...关键词抽取是指能自动抽取反映文本主题的词或者短语,被广泛应用于文本检索、文本摘要等领域中。目前关键词抽取任务主要依赖于预训练语言模型来获取文本表示,这类语言模型主要基于单一模态的通用文本语料进行训练,存在无法根据下游任务特性进行领域适配和语义表征能力有限的问题。该文提出一种多模态信息增强表示的中文关键词抽取方法MIEnhance-KPE,首先引入Adapter层将偏旁和部首信息集成到预训练语言模型层中,得到领域自适应的文本表示;其次利用卷积神经网络提取汉字的图像特征,同时使用交叉注意力机制融合汉字图像特征和文本特征,实现文本语义表示增强;最后利用条件随机场(conditional random field,CRF)模型进行序列标注任务,并计算词语的位置-词频权重对其进行排序获得关键词。与目前十分先进的关键词抽取方法KIEMP相比,MIEnhance-KPE在公开的中文科学文献数据集和自构建的中文教育关键词抽取数据集上的F值分别提升了15.71%和3.40%;消融实验结果表明,所提出的领域自适应模块和视觉语义增强表示模块均能有效提高关键词抽取的准确性。MIEnhance-KPE的提出有助于教育研究者精准了解教育发展趋势,促进教育理论和实践的创新。展开更多
文摘关键词抽取是指能自动抽取反映文本主题的词或者短语,被广泛应用于文本检索、文本摘要等领域中。目前关键词抽取任务主要依赖于预训练语言模型来获取文本表示,这类语言模型主要基于单一模态的通用文本语料进行训练,存在无法根据下游任务特性进行领域适配和语义表征能力有限的问题。该文提出一种多模态信息增强表示的中文关键词抽取方法MIEnhance-KPE,首先引入Adapter层将偏旁和部首信息集成到预训练语言模型层中,得到领域自适应的文本表示;其次利用卷积神经网络提取汉字的图像特征,同时使用交叉注意力机制融合汉字图像特征和文本特征,实现文本语义表示增强;最后利用条件随机场(conditional random field,CRF)模型进行序列标注任务,并计算词语的位置-词频权重对其进行排序获得关键词。与目前十分先进的关键词抽取方法KIEMP相比,MIEnhance-KPE在公开的中文科学文献数据集和自构建的中文教育关键词抽取数据集上的F值分别提升了15.71%和3.40%;消融实验结果表明,所提出的领域自适应模块和视觉语义增强表示模块均能有效提高关键词抽取的准确性。MIEnhance-KPE的提出有助于教育研究者精准了解教育发展趋势,促进教育理论和实践的创新。