文本语义化表示对其识别准确率的影响研究--以中华美食本体库构建为例被引量：1

Study on Text Semantic Representation on Knowledge Extraction:Taking Knowledge Organization for Chinese Cuisine as an Example

原文传递

导出

摘要 [目的/意义]深度学习模型已经成为命名实体识别的主要方法,但当前多数模型的预处理忽略文本中词上下文的语义信息。因此,探明文本的语义化表示对于实体识别的影响具有重要意义。[方法/过程]文章以中华美食本体库构建为例,通过构建CRFs、BiLSTM-CRFs、Char2vec-BiLSTM-CRFs和BERT-BiLSTM-CRFs这4类模型,对比分析文本语义化表示对其识别效果的影响;联合比较了基于BERT-BiLSTM-CRFs模型的术语单独抽取和集合抽取的结果,并将该模型应用于美食本体库的构建。[结果/结论]实验表明,使用BERT-BiLSTM-CRFs模型的实体识别准确率要高于其他模型,整体F1值提升8.7%;并且实体单独识别抽取比集合抽取效果更好。[局限]研究的实验数据规模有限,后续研究将在更大数据集上进行。 [Purpose/significance]Deep learning model has become the main method of named entity recognition,but the preprocessing of most models ignores the semantic information of word context in text.Therefore,it is of great significance to explore the influence of semantic representation of text on entity recognition.[Method/process]This paper takes the construction of Chinese cuisine ontology as an example to analyze the influence of semantic representation on the recognition accuracy by constructing CRFs,BiLSTM-CRFs,Char2vec-BiLSTM-CRFs and BERT-BiLSTM-CRFs.The results of single term extraction and collection extraction based on BERT-BiLSTM-CRFs model are compared,and the model is applied to the establishment of cuisine ontology.[Result/conclusion]The experiment shows that the term recognition accuracy of BERT-BiLSTM-CRFs model is higher than that of other models,with an overall improvement of 8.7%(F1),and the single entity recognition method is better than the collection recognition method.[Limitations]The experimental data scale of this study is limited,and the follow-up study will be carried out on larger datasets.

作者赵梓博王昊邓三鸿张海潮 Zhao Zibo

机构地区南京大学信息管理学院江苏省数据工程与知识服务重点实验室

出处《情报理论与实践》 CSSCI 北大核心 2021年第10期8-17,共10页 Information Studies:Theory & Application

基金国家社会科学基金重点项目“大数据环境下领域知识加工与组织模式研究”(项目编号:20ATQ006) 南京大学文科青年跨学科团队专项“面向人文计算的方志文本的语义分析和知识图谱研究”的成果江苏青年社科英才和南京大学仲英青年学者(Tang Schloar)等人才培养计划的支持。

关键词文本语义化表示深度学习字向量美食实体识别本体 BERT-BiLSTM-CRFs semantic representation of text deep learning words vector food entity recognition ontology BERT-BiLSTM-CRFs

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TS971 [轻工技术与工程]

引文网络
相关文献

参考文献23

1谢腾,杨俊安,刘辉.基于BERT-BiLSTM-CRF模型的中文实体识别[J].计算机系统应用,2020,29(7):48-55. 被引量：92
2刘玉梅.山东运河区域美食文化遗产资源的开发与利用——以枣庄美食为例[J].美食研究,2016,33(4):11-13. 被引量：3
3程秀峰,张心怡,王宁.基于CART决策树的网络问答社区新兴话题识别研究[J].数据分析与知识发现,2018,2(12):52-59. 被引量：6
4俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
5张海潮,王昊,唐慧慧,薛蔚.CRFs字角色标注方法在中文附加关键词抽取中的应用研究[J].情报理论与实践,2019,42(2):169-176. 被引量：5
6朱丹浩,杨蕾,王东波.基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法[J].现代图书情报技术,2016(12):36-43. 被引量：22
7曹依依,周应华,申发海,李智星.基于CNN-CRF的中文电子病历命名实体识别研究[J].重庆邮电大学学报（自然科学版）,2019,31(6):869-875. 被引量：26
8尹浩然,曹金璇,曹鲁喆,王国栋.扩充语义维度的BiGRU-AM突发事件要素识别研究[J].数据分析与知识发现,2020,4(9):91-99. 被引量：2
9黄炜,黄建桥,李岳峰.基于BiLSTM-CRF的涉恐信息实体识别模型研究[J].情报杂志,2019,38(12):149-156. 被引量：24
10尹学振,赵慧,赵俊保,姚婉薇,黄泽林.多神经网络协作的军事领域命名实体识别[J].清华大学学报（自然科学版）,2020,60(8):648-655. 被引量：33

二级参考文献220

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：54
2董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
3张廉明.山东煎饼史话[J].民俗研究,1990(1):47-48. 被引量：4
4徐高潮.滕州大煎饼[J].民俗研究,1990(1):49-53. 被引量：3
5王崇德.情报学研究方法概论[J].情报科学,1985,6(6):1-7. 被引量：19
6张保明.数学在情报检索理论中的作用[J].情报科学,1981,2(3):11-16. 被引量：8
7朱敏,程佳,柏文阳.一种基于HBase的RDF数据存储模型[J].计算机研究与发展,2013,50(S1):23-31. 被引量：8
8栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,30(9):94-96. 被引量：115
9刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
10李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93

共引文献707

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2熊欣,王昊,张海潮,张宝隆.中文术语粒度对其区分能力测度的影响分析[J].数据分析与知识发现,2020,4(2):143-152. 被引量：2
3李欣儒,贺超城,黄茜,吴江.多层信任视角下的共享服务平台用户预定行为研究[J].知识管理论坛,2023(2):140-154. 被引量：2
4徐维军,付志能,李茂昌,张卫国.基于新闻文本挖掘的股指期货高频预测研究[J].系统科学与数学,2021,41(7):1856-1875. 被引量：2
5李灿,解丹.中医电子病历入院记录信息自动抽取方法研究[J].世界科学技术-中医药现代化,2023,25(5):1615-1622. 被引量：1
6屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：6
7步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
8刘雨可,周申培,石英,杜家宝.面向配网一次设备缺陷文本命名实体识别研究[J].武汉理工大学学报,2022,44(10):93-101. 被引量：2
9李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：5
10刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12

同被引文献16

1肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：31
2王昊,王密平,苏新宁.面向本体学习的中文专利术语抽取研究[J].情报学报,2016,35(6):573-585. 被引量：18
3赵耀全,车超,张强.基于新词发现和Lattice-LSTM的中文医疗命名实体识别[J].计算机应用与软件,2021,38(1):161-165. 被引量：8
4刘浏,秦天允,王东波.非物质文化遗产传统音乐术语自动抽取[J].数据分析与知识发现,2020,4(12):68-75. 被引量：16
5耿骞,邓斯予,靳健.融合词语义表示和新词发现的领域本体演化——以产品评论数据为例[J].图书情报工作,2021,65(8):85-96. 被引量：3
6张卫,王昊,邓三鸿,张宝隆.面向数字人文的古诗文本情感术语抽取与应用研究[J].中国图书馆学报,2021,47(4):113-131. 被引量：22
7蒋勋,朱晓峰,肖连杰.大数据环境领域知识组织方法研究[J].情报资料工作,2021,42(5):6-13. 被引量：9
8李娜.面向方志类古籍的多类型命名实体联合自动识别模型构建[J].图书馆论坛,2021,41(12):113-123. 被引量：14
9韩美群,周小芹.近二十年来非物质文化遗产数字化传承研究回顾与展望[J].中南民族大学学报（人文社会科学版）,2022,42(1):65-74. 被引量：49
10张爽,陈莉,李铮.融合相似性判断的网络新词发现算法[J].西北大学学报（自然科学版）,2022,52(2):239-247. 被引量：4

引证文献1

1汪琳,王昊,李晓敏,邓三鸿.融合学习扩展的非遗陶瓷工艺领域术语库构建及应用[J].图书馆论坛,2024,44(2):66-78. 被引量：4

二级引证文献4

1王仔涵,陈会征,崔旭.基于模糊Borda法的我国区域非遗文化话语权组合评价研究[J].数字图书馆论坛,2024,20(3):81-90.
2胡昊天,邓三鸿,孔玲,闫晓慧,杨文霞,王东波,沈思.生成式情报学术语自动抽取与多维关联知识挖掘研究[J].情报学报,2024,43(5):588-600.
3罗安琪,刘佳静,郑建明.2023年国内外文化遗产数字化研究述评[J].图书馆论坛,2024,44(10):72-82. 被引量：1
4曹星铃,杨一帆,康瑞芝,李佳.广西侗族刺绣汉英术语库建设研究[J].海外英语,2024(17):13-16.

1路上读书.消失的中华美食,惊艳了多少现代人的味蕾[J].川菜,2021(10):57-61.
2周苏岳.影视工业级黑白视频AI上色生产工艺研究及应用——经典黑白电影《雷锋》上色实践[J].影视制作,2021,27(9):13-23. 被引量：4
3褚荣浩,李萌,沙修竹,倪锋,谢鹏飞,蒋跃林,申双和.13种典型参考作物蒸散量估算模型在安徽省的适用性评价[J].节水灌溉,2021(9):61-70. 被引量：7
4杨垚,黄聪,王华军.基于低秩和稀疏模型的高光谱图像快速去噪方法[J].物探化探计算技术,2021,43(5):663-668. 被引量：1

情报理论与实践

2021年第10期

浏览历史

内容加载中请稍等...

文本语义化表示对其识别准确率的影响研究--以中华美食本体库构建为例被引量：1

参考文献23

二级参考文献220

共引文献707

同被引文献16

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

文本语义化表示对其识别准确率的影响研究--以中华美食本体库构建为例 被引量：1

参考文献23

二级参考文献220

共引文献707

同被引文献16

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

文本语义化表示对其识别准确率的影响研究--以中华美食本体库构建为例被引量：1