电力安全三元组抽取是构建电力安全知识图谱及搜索系统的基础。面对特殊语句时,电力安全传统深度学习抽取方法识别率低且容易出现误差传播,而用联合抽取方法无法处理实体对重叠和单实体重叠问题。因此,提出基于三元组分类的联合抽取方法...电力安全三元组抽取是构建电力安全知识图谱及搜索系统的基础。面对特殊语句时,电力安全传统深度学习抽取方法识别率低且容易出现误差传播,而用联合抽取方法无法处理实体对重叠和单实体重叠问题。因此,提出基于三元组分类的联合抽取方法,用分类思想进行电力安全三元组抽取。首先从电力安全文本网站提取电力安全标准文本,并开发插件进行手动标注。然后利用Chinese-bert-wwm-ext(Chinese bidirectional encoder representations from transformers whole word masking extesion)预训练模型对电力安全文本数据向量化。随后将词向量枚举,将三元组转换为两对向量组,再设计分类器训练联合抽取模型抽取三元组向量,最后解码出三元组。实验结果:在电力安全数据集上取得了90.2%的F1值,比传统流水线方法Bert-BILSTM-CRF(Bidirectional encoder representations from transformers bidirectional long short-term memory conditional random fields)高10%,比联合抽取模型TPLinker(Token pair linker)高1.3%。该结果表明所提方法便于后续电力安全知识图谱建立。展开更多
文摘电力安全三元组抽取是构建电力安全知识图谱及搜索系统的基础。面对特殊语句时,电力安全传统深度学习抽取方法识别率低且容易出现误差传播,而用联合抽取方法无法处理实体对重叠和单实体重叠问题。因此,提出基于三元组分类的联合抽取方法,用分类思想进行电力安全三元组抽取。首先从电力安全文本网站提取电力安全标准文本,并开发插件进行手动标注。然后利用Chinese-bert-wwm-ext(Chinese bidirectional encoder representations from transformers whole word masking extesion)预训练模型对电力安全文本数据向量化。随后将词向量枚举,将三元组转换为两对向量组,再设计分类器训练联合抽取模型抽取三元组向量,最后解码出三元组。实验结果:在电力安全数据集上取得了90.2%的F1值,比传统流水线方法Bert-BILSTM-CRF(Bidirectional encoder representations from transformers bidirectional long short-term memory conditional random fields)高10%,比联合抽取模型TPLinker(Token pair linker)高1.3%。该结果表明所提方法便于后续电力安全知识图谱建立。