中文电子病历实体关系抽取是构建医疗知识图谱,服务下游子任务的重要基础。目前,中文电子病例进行实体关系抽取仍存在因医疗文本关系复杂、实体密度大而造成医疗名词识别不准确的问题。针对这一问题,提出了基于对抗学习与多特征融合的...中文电子病历实体关系抽取是构建医疗知识图谱,服务下游子任务的重要基础。目前,中文电子病例进行实体关系抽取仍存在因医疗文本关系复杂、实体密度大而造成医疗名词识别不准确的问题。针对这一问题,提出了基于对抗学习与多特征融合的中文电子病历实体关系联合抽取模型AMFRel(adversarial learning and multi-feature fusion for relation triple extraction),提取电子病历的文本和词性特征,得到融合词性信息的编码向量;利用编码向量联合对抗训练产生的扰动生成对抗样本,抽取句子主语;利用信息融合模块丰富文本结构特征,并根据特定的关系信息抽取出相应的宾语,得到医疗文本的三元组。采用CHIP2020关系抽取数据集和糖尿病数据集进行实验验证,结果显示:AMFRel在CHIP2020关系抽取数据集上的Precision为63.922%,Recall为57.279%,F1值为60.418%;在糖尿病数据集上的Precision、Recall和F1值分别为83.914%,67.021%和74.522%,证明了该模型的三元组抽取性能优于其他基线模型。展开更多
针对自然语言文本中实体重叠情况复杂、多个关系三元组提取困难的问题,提出一种融合指针网络与关系嵌入的三元组联合抽取模型。首先利用BERT(Bidirectional Encoder Representations from Transformers)预训练模型对输入句子进行编码表...针对自然语言文本中实体重叠情况复杂、多个关系三元组提取困难的问题,提出一种融合指针网络与关系嵌入的三元组联合抽取模型。首先利用BERT(Bidirectional Encoder Representations from Transformers)预训练模型对输入句子进行编码表示;然后利用首尾指针标注抽取句子中的所有主体,并采用主体和关系引导的注意力机制来区分不同关系标签对每个单词的重要程度,从而将关系标签信息加入句子嵌入中;最后针对主体及每一种关系利用指针标注和级联结构抽取出相应的客体,并生成关系三元组。在纽约时报(NYT)和网络自然文本生成(WebNLG)两个数据集上进行了大量实验,结果表明,所提模型相较于目前最优的级联二元标记框架(CasRel)模型,整体性能分别提升了1.9和0.7个百分点;与基于跨度的提取标记方法(ETL-Span)模型相比,在含有1~5个三元组的对比实验中分别取得了大于6.0%和大于3.7%的性能提升,特别是在含有5个以上三元组的复杂句子中,所提模型的F1值分别提升了8.5和1.3个百分点,且在捕获更多实体对的同时能够保持稳定的提取能力,进一步验证了该模型在三元组重叠问题中的有效性。展开更多
通过对知网上252篇有关新工科的典型教育研究文献进行实体关系人工标注,建立了高等教育领域新工科视角下实验数据集NEDS(New Engineering Data Set),设计了一种层叠指针网络模型。实验结果表明,在高等教育领域NEDS上该模型表现突出,其...通过对知网上252篇有关新工科的典型教育研究文献进行实体关系人工标注,建立了高等教育领域新工科视角下实验数据集NEDS(New Engineering Data Set),设计了一种层叠指针网络模型。实验结果表明,在高等教育领域NEDS上该模型表现突出,其精确率、召回率和F1值分别达到了83.56、76.25和79.74,很好地解决了关系重叠问题。展开更多
针对传统实体关系抽取方法中主体特征与句向量难以有效融合、现有BIO标注策略难以有效处理重叠关系的问题,提出一种基于BERT和双重指针标注的家禽疾病诊疗文本实体关系联合抽取模型(Joint extraction of entity relationship of poultry...针对传统实体关系抽取方法中主体特征与句向量难以有效融合、现有BIO标注策略难以有效处理重叠关系的问题,提出一种基于BERT和双重指针标注的家禽疾病诊疗文本实体关系联合抽取模型(Joint extraction of entity relationship of poultry disease diagnosis and treatment text,JEER_PD)。JEER_PD使用双重指针标注(Dual-pointer labeling,DPL)策略,建立头、尾2个指针标注器,一次性标注出所有实体的开始和结束位置;引入CLN(Conditional layer normalization)网络层,强化主体抽取任务与客体关系联合抽取任务之间的联系;利用概率平衡策略PBS对抗正负类标签类别失衡,以加速模型收敛。实验表明,JEER_PD准确率、召回率和F1分别为97.69%、97.59%和97.64%,3项指标较现有方法均有显著提升,说明JEER_PD能够快速、准确地抽取家禽疾病诊疗复杂知识文本中的实体关系三元组。展开更多
文摘中文电子病历实体关系抽取是构建医疗知识图谱,服务下游子任务的重要基础。目前,中文电子病例进行实体关系抽取仍存在因医疗文本关系复杂、实体密度大而造成医疗名词识别不准确的问题。针对这一问题,提出了基于对抗学习与多特征融合的中文电子病历实体关系联合抽取模型AMFRel(adversarial learning and multi-feature fusion for relation triple extraction),提取电子病历的文本和词性特征,得到融合词性信息的编码向量;利用编码向量联合对抗训练产生的扰动生成对抗样本,抽取句子主语;利用信息融合模块丰富文本结构特征,并根据特定的关系信息抽取出相应的宾语,得到医疗文本的三元组。采用CHIP2020关系抽取数据集和糖尿病数据集进行实验验证,结果显示:AMFRel在CHIP2020关系抽取数据集上的Precision为63.922%,Recall为57.279%,F1值为60.418%;在糖尿病数据集上的Precision、Recall和F1值分别为83.914%,67.021%和74.522%,证明了该模型的三元组抽取性能优于其他基线模型。
文摘针对自然语言文本中实体重叠情况复杂、多个关系三元组提取困难的问题,提出一种融合指针网络与关系嵌入的三元组联合抽取模型。首先利用BERT(Bidirectional Encoder Representations from Transformers)预训练模型对输入句子进行编码表示;然后利用首尾指针标注抽取句子中的所有主体,并采用主体和关系引导的注意力机制来区分不同关系标签对每个单词的重要程度,从而将关系标签信息加入句子嵌入中;最后针对主体及每一种关系利用指针标注和级联结构抽取出相应的客体,并生成关系三元组。在纽约时报(NYT)和网络自然文本生成(WebNLG)两个数据集上进行了大量实验,结果表明,所提模型相较于目前最优的级联二元标记框架(CasRel)模型,整体性能分别提升了1.9和0.7个百分点;与基于跨度的提取标记方法(ETL-Span)模型相比,在含有1~5个三元组的对比实验中分别取得了大于6.0%和大于3.7%的性能提升,特别是在含有5个以上三元组的复杂句子中,所提模型的F1值分别提升了8.5和1.3个百分点,且在捕获更多实体对的同时能够保持稳定的提取能力,进一步验证了该模型在三元组重叠问题中的有效性。
文摘通过对知网上252篇有关新工科的典型教育研究文献进行实体关系人工标注,建立了高等教育领域新工科视角下实验数据集NEDS(New Engineering Data Set),设计了一种层叠指针网络模型。实验结果表明,在高等教育领域NEDS上该模型表现突出,其精确率、召回率和F1值分别达到了83.56、76.25和79.74,很好地解决了关系重叠问题。
文摘针对传统实体关系抽取方法中主体特征与句向量难以有效融合、现有BIO标注策略难以有效处理重叠关系的问题,提出一种基于BERT和双重指针标注的家禽疾病诊疗文本实体关系联合抽取模型(Joint extraction of entity relationship of poultry disease diagnosis and treatment text,JEER_PD)。JEER_PD使用双重指针标注(Dual-pointer labeling,DPL)策略,建立头、尾2个指针标注器,一次性标注出所有实体的开始和结束位置;引入CLN(Conditional layer normalization)网络层,强化主体抽取任务与客体关系联合抽取任务之间的联系;利用概率平衡策略PBS对抗正负类标签类别失衡,以加速模型收敛。实验表明,JEER_PD准确率、召回率和F1分别为97.69%、97.59%和97.64%,3项指标较现有方法均有显著提升,说明JEER_PD能够快速、准确地抽取家禽疾病诊疗复杂知识文本中的实体关系三元组。