基于文本和公式的科技文档相似度计算被引量：8

Computing Similarity of Sci-Tech Documents Based on Texts and Formulas

导出

摘要【目的】针对仅利用文本信息计算科技文档相似度存在的不足,提出一种结合文本和公式信息计算科技文档相似度的方法。【方法】将单个公式的特征元素映射为位置向量,计算得到单个公式的相似度;计算文档间的公式覆盖度和相似度;结合文本和公式信息计算得到科技文档相似度。【结果】比较本文方法和传统向量空间方法的分类性能,结果显示本文方法在宏平均F值上最大可提高6.7%。【局限】没有包含文档公式信息的公开测试集,自行构建的数据集规模较小。【结论】结合公式信息计算文档相似度,不仅能有效提高文档相似度计算的准确性,而且可以实现跨语言文档的相似度计算。 [Objective] This paper proposes a new method to calculate the similarity of science and technology documents combining the information of texts and formulas, aiming to improve the performance of traditional methods.[Methods] Firstly, we mapped feature elements of single formula into position vector, which helped us calculate the similarity of single formula. Secondly, we computed the coverage and similarity of formula between documents. Finally, the similarity of science and technology documents were calculated by combining information of texts and formulas. [Resultsl We compared the classification results of the new method and the traditional ones. We found that the macro average F-score of the new method was increased by 6.7%. [Limitations] The test sets do not collect formula information of documents, which need to be expanded. [Conclusions] The new method could calculate document similarity more accurately.

作者徐建民许彩云 Xu Jianmin;Xu Caiyun(School of Cyber Security and Computer,Hebei University,Baoding 071002,China)

机构地区河北大学网络空间安全与计算机学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第10期103-109,共7页 Data Analysis and Knowledge Discovery

基金河北省自然基金项目"基于贝叶斯网络的话题识别与追踪方法研究"(项目编号:2015201142) 国家社会科学基金后期资助项目"基于术语关系的贝叶斯网络检索模型扩展"(项目编号:17FTQ002)的研究成果之一

关键词公式相似度文档相似度覆盖度科技文档 Formula Similarity Document Similarity Coverage Degree Scientific and Technical Documents

分类号 G202 [文化科学—传播学] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
2胡吉明,肖璐.向量空间模型文本建模的语义增量化改进研究[J].现代图书情报技术,2014(10):49-55. 被引量：6
3董刊生,方金云.基于向量距离的词序相似度算法[J].中文信息学报,2009,23(3):45-50. 被引量：11
4李湘东,阮涛,刘康.基于维基百科的多种类型文献自动分类研究[J].数据分析与知识发现,2017,1(10):43-52. 被引量：11
5徐建民,王平.小型中文信息检索测试集的构建与分析[J].情报杂志,2009,28(1):13-16. 被引量：13

二级参考文献63

1张秀坤,赵丹群.TREC概况及其最新发展研究[J].情报理论与实践,2004,27(5):537-540. 被引量：8
2徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
3王洁贞,赵跃进,马会妍,刘言训.Kappa统计量及其应用[J].中国卫生统计,1995,12(6):49-50. 被引量：22
4薛春香,夏祖奇,侯汉清.基于语料和基于标引经验的自动分类模式比较[J].南京农业大学学报（社会科学版）,2005,5(4):85-92. 被引量：10
5和艳会,李和娟,关琼,杨慧.浅谈网络图书馆、数字图书馆、虚拟图书馆的概念[J].农业图书情报学刊,2006,18(9):118-121. 被引量：8
6和艳会,李和娟,关琼,杨慧.浅谈网络图书馆、数字图书馆、虚拟图书馆的概念[J].农业图书情报学刊,2006,18(10):120-123. 被引量：1
7宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：43
8严莉莉,张燕平.基于类信息的文本聚类中特征选择算法[J].计算机工程与应用,2007,43(12):144-146. 被引量：7
9YANG Y, PEDERSEN J O. A comparative study on feature selection in text categorization[ C ]//Proc of the 14th International Conference on Machine Learning. San Francisco : Morgan Kaufmann, 1997:412- 420.
10GALAVOTTI L, SEBASTIANI F, SIMI M. Feature selection and negative evidence in automated text categorization [ C ]//Proc of KDD- 2000. Boston, MA:[s. n. ], 2000:16-22.

共引文献136

1宰新宇,田学东.基于公式描述结构和词嵌入的科技文档检索方法[J].数据分析与知识发现,2020,4(1):131-138. 被引量：4
2余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
3焦自程,赵旭章,史珂轩.双语问答小程序的设计与实现[J].新一代信息技术,2022,5(5):18-20.
4李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
5陈振亚,徐建民,吴树芳.利用术语本体关系扩展SBN检索模型[J].计算机研究与发展,2013,50(S1):257-263. 被引量：1
6罗长寿,张峻峰,孙素芬,魏清凤.基于改进VSM的农业实用技术自动问答系统研究[J].安徽农业科学,2009,37(28):13948-13950.
7孔令成,郑诚,吴永俊.一种基于VSM的中文网页分类方法[J].信息化纵横,2009(17):56-58.
8张玉峰,蔡皎洁.基于数据挖掘的Web文本语义分析与标注研究[J].情报理论与实践,2010,33(2):85-88. 被引量：7
9徐朝军.基于主题搜索的通用教学资源共享平台设计[J].中国远程教育,2010(5):64-66. 被引量：5
10徐建民,刘清江.基于同义词关系的局部查询扩展[J].郑州大学学报（理学版）,2010,42(1):45-48. 被引量：1

同被引文献69

1宰新宇,田学东.基于公式描述结构和词嵌入的科技文档检索方法[J].数据分析与知识发现,2020,4(1):131-138. 被引量：4
2陈振亚,徐建民,吴树芳.利用术语本体关系扩展SBN检索模型[J].计算机研究与发展,2013,50(S1):257-263. 被引量：1
3宋韶旭,李春平.基于非对称相似度的文本聚类方法[J].清华大学学报（自然科学版）,2006,46(7):1325-1328. 被引量：7
4杨燕,靳蕃,KAMEL Mohamed.聚类有效性评价综述[J].计算机应用研究,2008,25(6):1630-1632. 被引量：117
5徐建民,陈振亚,白彦霞.利用查询术语同义词关系扩展信念网络检索模型[J].情报学报,2008,27(3):363-368. 被引量：6
6葛继科,邱玉辉,吴春明,蒲国林.遗传算法研究综述[J].计算机应用研究,2008,25(10):2911-2916. 被引量：418
7徐建民,王平.小型中文信息检索测试集的构建与分析[J].情报杂志,2009,28(1):13-16. 被引量：13
8黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865. 被引量：70
9李卫疆,赵铁军,王宪刚.基于上下文的查询扩展[J].计算机研究与发展,2010,47(2):300-304. 被引量：32
10蔡东风,白宇,于水,叶娜,任晓娜.一种基于语境的词语相似度计算方法[J].中文信息学报,2010,24(3):24-28. 被引量：12

引证文献8

1李春霞,许键,彭艳兵.基于语义关联融合的案件识别[J].数字技术与应用,2024,42(3):155-160.
2刘菲.基于加权层次子树模型的XML文档相似度的计算[J].中国科技纵横,2019,0(14):39-40.
3徐建民,何丹丹,吴树芳.基于文档关系的扩展信念网络检索模型[J].情报学报,2019,38(11):1160-1165. 被引量：3
4何丹丹,吴树芳,徐建民.基于文档关系改进的向量空间模型[J].河北大学学报（自然科学版）,2020,40(3):322-327. 被引量：6
5徐以聪,田学东,李新福,杨芳,史青宣.基于犹豫模糊权重的数学表达式检索[J].数据分析与知识发现,2020,4(7):118-126. 被引量：1
6杨芳,尹曦,司建辉,刘宏媛,汪雪.基于侧重点聚类的数学表达式相似度计算方法[J].计算机工程与应用,2021,57(6):88-93. 被引量：1
7徐建民,王鑫.科技文档间非对称关系的双模态度量方法[J].河北大学学报（自然科学版）,2021,41(5):587-598. 被引量：1
8张国防,王鑫,徐建民.基于主题词共现的文档非对称关系量化研究[J].数据分析与知识发现,2023,7(3):110-120. 被引量：1

二级引证文献13

1刘洋,刘明利,王伟.基于决策偏好逼近的网络数据安全稳态评估分析[J].科技通报,2023,39(2):30-33.
2何丹丹,吴树芳,徐建民.基于文档关系改进的向量空间模型[J].河北大学学报（自然科学版）,2020,40(3):322-327. 被引量：6
3赵梓超,黄浩.基于Word2vec技术的主流媒体新闻报道主题研究[J].科学大众（科技创新）,2020(12):218-220.
4周钦强,李建勇,王明辉,陈冰怀.基于相似度排名的天气雷达故障案例检索[J].广东气象,2021,43(2):73-77.
5张海川,李胜东,石俊涛,吴建伟,王元.话题检测与跟踪任务中的话题跟踪研究[J].信息与电脑,2022,34(11):151-153.
6张亚婉,巫耿宇,黄迪帷,何胤康.一种改进YOLO的绝缘子缺陷检测[J].电子设计工程,2023,31(2):107-111. 被引量：7
7张雄涛,甘明鑫,李硕.多粒度关系融合的微博信念网络检索模型[J].管理科学,2022,35(5):67-79.
8鲍彩倩,徐建民,张国防.基于用户动态交互行为扩展的信念网络推荐模型[J].计算机应用,2023,43(4):1115-1121.
9张宇飞,王宏伟,翟翔,牛东晓,曹孟媛.基于知识图谱和犹豫模糊理论的复杂产品设计知识检索系统[J].高技术通讯,2023,33(2):208-220.
10张国防,王鑫,徐建民.基于主题词共现的文档非对称关系量化研究[J].数据分析与知识发现,2023,7(3):110-120. 被引量：1

1江小平,张巍,李成华,周航,孙婧.面向云存储的基于全同态密码技术的文档相似度计算方法[J].计算机工程与科学,2017,39(10):1807-1811. 被引量：2
2刘娇,崔荣一,赵亚慧.基于共现词映射的中英韩跨语种文档相似度计算[J].中文信息学报,2018,32(3):55-63.
3王雪梅,刘敏超,季磊,刘莉,李俊,周杰.病案首页元数据与FHIR元素映射关系研究[J].中国数字医学,2018,13(8):39-42. 被引量：2
4秦小燕.基于文本落点引导文本复述[J].小学生作文辅导（语文园地）,2018,0(8):1-1.
5许敏,石润华,罗振宇.基于非对称QKD的股票交易数据库隐私查询协议[J].量子电子学报,2017,34(5):588-595.
6杨思星,郭艳,李宁,孙保明,钱鹏.基于数据融合的压缩感知多目标定位算法[J].计算机科学,2018,45(9):161-165. 被引量：3
7商凯凯.守文本之正,出教学之新——浅析韩军《雷雨》教学解读[J].学周刊,2019(3):100-101. 被引量：1
8王雷震,汪定伟,王素欣.多起讫点货物转运配送车辆调度模型及其粒子群、蚁群算法混合求解[J].信息与控制,2018,47(5):564-572. 被引量：6
9陈天,张顺生.指向学生思维能力延展的初中英语阅读教学设计与思考[J].基础教育外语教学研究,2018,0(10):23-30.
10王旭明.全民学语文刻不容缓[J].教学管理与教育研究,2018,3(22):6-7.

数据分析与知识发现

2018年第10期

浏览历史

内容加载中请稍等...

基于文本和公式的科技文档相似度计算被引量：8

参考文献5

二级参考文献63

共引文献136

同被引文献69

引证文献8

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于文本和公式的科技文档相似度计算 被引量：8

参考文献5

二级参考文献63

共引文献136

同被引文献69

引证文献8

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于文本和公式的科技文档相似度计算被引量：8