针对大多数跨度模型将文本分割成跨度序列时,产生大量非实体跨度,导致了数据不平衡和计算复杂度高等问题,提出了基于跨度和边界探测的实体关系联合抽取模型(joint extraction model for entity relationships based on span and boundar...针对大多数跨度模型将文本分割成跨度序列时,产生大量非实体跨度,导致了数据不平衡和计算复杂度高等问题,提出了基于跨度和边界探测的实体关系联合抽取模型(joint extraction model for entity relationships based on span and boundary detection,SBDM)。SBDM首先使用训练Transformer的双向编码器表征量(bidirectional encoder representations from Transformer,BERT)模型将文本转化为词向量,并融合了通过图卷积获取的句法依赖信息以形成文本的特征表示;接着通过局部信息和句子上下文信息去探测实体边界并进行标记,以减少非实体跨度;然后将实体边界标记形成的跨度序列进行实体识别;最后将局部上下文信息融合到1个跨度实体对中并使用sigmoid函数进行关系分类。实验表明,SBDM在SciERC(multi-task identification of entities,relations,and coreference for scientific knowledge graph construction)数据集、CoNLL04(the 2004 conference on natural language learning)数据集上的关系分类指标S F1分别达到52.86%、74.47%,取得了较好效果。SBDM用于关系分类任务中,能促进跨度分类方法在关系抽取上的研究。展开更多
文摘针对大多数跨度模型将文本分割成跨度序列时,产生大量非实体跨度,导致了数据不平衡和计算复杂度高等问题,提出了基于跨度和边界探测的实体关系联合抽取模型(joint extraction model for entity relationships based on span and boundary detection,SBDM)。SBDM首先使用训练Transformer的双向编码器表征量(bidirectional encoder representations from Transformer,BERT)模型将文本转化为词向量,并融合了通过图卷积获取的句法依赖信息以形成文本的特征表示;接着通过局部信息和句子上下文信息去探测实体边界并进行标记,以减少非实体跨度;然后将实体边界标记形成的跨度序列进行实体识别;最后将局部上下文信息融合到1个跨度实体对中并使用sigmoid函数进行关系分类。实验表明,SBDM在SciERC(multi-task identification of entities,relations,and coreference for scientific knowledge graph construction)数据集、CoNLL04(the 2004 conference on natural language learning)数据集上的关系分类指标S F1分别达到52.86%、74.47%,取得了较好效果。SBDM用于关系分类任务中,能促进跨度分类方法在关系抽取上的研究。