一种面向科技文献元数据增量数据规范的多模式匹配算法被引量：1

A Multiple Pattern Matching Algorithm for Specifications of Incremental Metadata for Sci-Tech Literature

导出

摘要【目的】针对期刊文献元数据日增的小规模数据,设计一种基于Hash的多模式匹配算法,对其机构信息利用大规模的模式集进行规范化。【方法】使用Hash定位模式串,减少对系统内存的占用;抽取模式串的首个单词/字结合Word跳步匹配,减少匹配次数,加大跳转幅度,从而提升多模式匹配的效率。【结果】以CSCD机构库182万条数据作为模式集的实验中,该算法与Aho-Corasick(AC)算法对比,能够较为快速地构建模式集对应的字典;在字符集规模约为1万条时,有更优越的时间性能,尤其是英文语料下有9.39%时间性能的提升;与Wu-Manber(WM)算法相比,该算法不受最短模式串限制。【局限】针对不同的模式集和字符集,需要对算法或数据进行调整;该算法及其拓展的无首词模式,均不适用于模式集较小、字符集较大的场景。【结论】该算法可以应用于中文、英文、中英混合的文本,在模式集较大(106级)、字符集较小(1万左右)的情况下,有超越经典算法AC算法(0.08%-30.41%)和WM算法时间性能的表现。 [Objective]This paper designs a multiple pattern matching algorithm to standardize the institutional information of sci-tech literature metadata.[Methods]First,we used the Hash function to locate the pattern strings and reduced the system memory usage.Then,we extracted the first words of the pattern strings,which were combined with word skipping matching.The new algorithm reduced the number of matches and increased the jump range,which improved the efficiency of multiple pattern matching.[Results]We examined our model with the CSCD’s institutional library as the pattern string set.Compared with the Aho-Corasick(AC)algorithm,our method quickly constructed the dictionary corresponding to the pattern string sets.When the data volume reached about 10000,our model spent less time on the same tasks.For the English corpus,there was a 9.39%improvement in time performance.Compared with the Wu-Manber(WM)algorithm,our method was not restricted by the shortest pattern strings.[Limitations]The algorithm or data needs to be adjusted for different pattern strings and text strings.This algorithm and the extended headless mode are not suitable for small pattern string sets with large string sets.[Conclusions]The algorithm can be applied to Chinese,English,and ChineseEnglish mixed texts.The time performance of our algorithm is superior to the AC and WM algorithms in processing large pattern string set(106)and small string set(about 10,000).

作者董美常志军张润杰 Dong Mei;Chang Zhijun;Zhang Runjie(National Science Library,Chinese Academy of Sciences,Beijing 100190,China;Department of Library,Information and Archives Management,School of Economics and Management,University of Chinese Academy of Sciences,Beijing 100190,China;Electronics and Computer Science,University of Southampton,Southampton SO171BJ,UK)

机构地区中国科学院文献情报中心中国科学院大学经济与管理学院图书情报与档案管理系南安普顿大学电子与计算机科学学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第6期135-144,共10页 Data Analysis and Knowledge Discovery

基金中国科学院文献情报能力建设项目(项目编号:Y9100901)的研究成果之一。

关键词模式匹配数据规范化名称规范哈希算法 Pattern Match Data Standardization Name Authority Hash Algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1蔡婷,杨卫帅.一种改进的字符串模式匹配算法[J].物联网技术,2017,7(7):89-91. 被引量：7
2刘沛骞,冯晶晶.一种改进的BM模式匹配算法[J].计算机工程,2011,37(17):248-249. 被引量：10
3齐晖,曹旻,袁世忠.模式匹配算法性能对比试验结果在入侵检测系统中的应用[J].河南科学,2009,27(7):835-838. 被引量：3
4曹成宏,雷迎科.面向比特流的链路层未知帧分析技术综述[J].小型微型计算机系统,2018,39(2):297-303. 被引量：3
5屈正庚,赵杰.一种改进的高效多模式匹配算法[J].系统仿真技术,2014,10(2):116-120. 被引量：2
6刘邦国,陈庆春,类先富.一种面向PDF文本内容审查的高效多模式匹配算法[J].计算机应用研究,2020,37(6):1755-1759. 被引量：7
7赵国锋,叶飞,姚永安,赵岩.一种面向云中心网络入侵检测的多模式匹配算法[J].信息网络安全,2018,0(1):52-57. 被引量：6
8巫喜红,曾锋.AC多模式匹配算法研究[J].计算机工程,2012,38(6):279-281. 被引量：13
9王培凤,李莉.基于Aho-Corasick算法的多模式匹配算法研究[J].计算机应用研究,2011,28(4):1251-1253. 被引量：16
10李志东,杨武,张汝波,王巍.基于异构隐式存储的多模式匹配算法[J].通信学报,2009,30(3):119-124. 被引量：6

二级参考文献79

1郑庆良,张翔,杨莹.网络服务器模型分析与实现[J].杭州电子工业学院学报,2004,24(4):95-98. 被引量：4
2陈耿,朱玉全,杨鹤标,陆介平,宋余庆,孙志挥.关联规则挖掘中若干关键技术的研究[J].计算机研究与发展,2005,42(10):1785-1789. 被引量：62
3刘琦,卜佳俊,陈纯.基于Apriori算法的关键词推荐在面向主题的用户个性化搜索中的应用[J].模式识别与人工智能,2006,19(2):186-190. 被引量：5
4闵联营,赵婷婷.BM算法的研究与改进[J].武汉理工大学学报（交通科学与工程版）,2006,30(3):528-530. 被引量：19
5蔡晓妍,戴冠中,杨黎斌.改进的多模式字符串匹配算法[J].计算机应用,2007,27(6):1415-1417. 被引量：11
6AHO A V, CORASICK M J. Efficient string matching: an aid to bibliographie search [ J ]. Communications of the ACM, 1975,18 ( 6 ) : 333- 340.
7TAN Lin, SHERWOOD T. A high throughput string matching architecture for intrusion detection and prevention [ C]//Proc of the 32nd International Symposium on Computer Architecture. 2005 : 112-122.
8DHARMAPURIKAR S, LOCKWOOD J. Fast and scalable pattern matching for network intrusion detection systems[ J ]. IEEE Journal on Selected Areas in Communications, 2006,24 ( 10 ) : 1781- 1792.
9PIYACHON P,LUO Yah. Design of high performance pattern marching engine through compact deterministic finite automata[ C ]//Proc of the 45th Annual Design Automation Conference. New York: ACM Press, 2008 : 852 - 857.
10TUCK N, SHERWOOD T,CALDER T, et al. Deterministic memory- efficient string matching algorithms for intrusion detection [ C ]//Proc of the 23rd Annual Joint Conference of IEEE Computer and Communications Societies. New Jersey:IEEE Press,2004:2628-2639.

共引文献94

1刘义乐,刘峻岩.坦克驾驶协同动作模式表示与匹配方法[J].装甲兵工程学院学报,2019,33(3):63-67.
2洪海蓝,李文林,杨涛,李玥,梅文静.基于知识图谱的海洋中药智能问答系统的设计与实现[J].世界科学技术-中医药现代化,2023(6):1935-1941. 被引量：4
3苏林萍,韩淑宇.关于流量识别技术在新能源厂站中的研究[J].计算机应用研究,2020,37(S01):281-282.
4李晓,陈茂钢,向平,唐莎.农业技术创新系统综合实力评价与预测方法研究[J].农业图书情报学刊,2005,17(2):241-243.
5陈冠初.对中国科技核心期刊评价的探讨[J].中国科技期刊研究,2005,16(6):802-804. 被引量：8
6李树坤.中文期刊的分级势在必行[J].情报杂志,1998,17(3):50-51. 被引量：3
7马添翼.借助CSCD“排行表”搞好中文科技期刊订购[J].图书馆建设,1999(3):33-34. 被引量：4
8刘夏,刘萍,刘燕兵,谭建龙.面向移动终端的URL过滤方法[J].计算机工程与应用,2011,47(18):68-72. 被引量：1
9林辉.基于模糊聚类的入侵检测系统的研究[J].河南科学,2012,30(7):910-912.
10周延森,康艳梅.多模匹配算法AC_BMHS的研究与改进[J].计算机应用与软件,2012,29(10):304-307.

同被引文献6

1巫喜红,曾锋.AC多模式匹配算法研究[J].计算机工程,2012,38(6):279-281. 被引量：13
2黄勋,游宏梁,于洋.关系抽取技术研究综述[J].现代图书情报技术,2013(11):30-39. 被引量：24
3王元卓,贾岩涛,刘大伟,靳小龙,程学旗.基于开放网络知识的信息检索与数据挖掘[J].计算机研究与发展,2015,52(2):456-474. 被引量：96
4刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：971
5徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606. 被引量：512
6QIN Ying,ZENG Yingfei.Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J].Journal of Shanghai Jiaotong university(Science),2018,23(3):392-397. 被引量：15

引证文献1

1田轶群,林荣恒.基于知识图谱的查询显示系统的设计与实现[J].山东大学学报（工学版）,2022,52(2):67-73. 被引量：3

二级引证文献3

1李荣耀,徐倩,吴雨璐,刘秀峰.基于《本草纲目》的多模态知识图谱的构建研究[J].现代计算机,2022,28(13):10-17. 被引量：3
2肖朝晖.基于Web的数字化资源共享信息查询系统设计[J].微型电脑应用,2024,40(2):192-196. 被引量：1
3张锋,张朔严,乔利红,姚凯,韩伟,王博.基于知识图谱的变电站配置文件智能校核技术研究[J].电测与仪表,2024,61(4):64-72.

1杨嘉琪,韩晓红.基于自适应混合高斯的改进三帧差分算法[J].计算机工程与设计,2021,42(6):1699-1705. 被引量：6
2戚琴玉,黄飞,蒲爽.基于熵权-TOPSIS的装备价格第三方服务机构遴选机制研究[J].信息工程大学学报,2021,22(1):123-128. 被引量：3
3李贺,刘嘉宇,李世钰,吴迪,金帅岐.基于疾病知识图谱的自动问答系统优化研究[J].数据分析与知识发现,2021,5(5):115-126. 被引量：32
4顾勇,赵艳明,童培建,肖鲁伟.基于数据挖掘法探讨中药复方治疗股骨头坏死的组方规律[J].中医正骨,2021,33(6):49-53. 被引量：5
5杨粟,欧阳智,杜逆索.基于相关度距离的无监督并行哈希图像检索[J].计算机应用,2021,41(7):1902-1907. 被引量：5
6缪永伟,陈佳慧,张新杰,马文娟,孙树森.基于RGB-D视频流的室内环境3D目标高效检测[J].计算机辅助设计与图形学学报,2021,33(7):1015-1025. 被引量：5
7王飞平,施可著.一种基于ETW的高性能PDF文件实时监控系统[J].网络安全技术与应用,2021(6):48-50.
8陈普,万科.中国分省资本存量算法的改进及R包应用[J].统计与决策,2021(9):37-40. 被引量：4
9戴卫华,刘盛春,赵慎,彭华,张昊,黄志刚,李小林.采用局域像素匹配的随机抽样一致改进算法[J].国防科技大学学报,2021,43(4):38-43. 被引量：4
10刘悦如,何惠芬,郭利敏.德国高校图书馆开放出版服务特点与启示[J].图书馆杂志,2021,40(5):27-35. 被引量：7

数据分析与知识发现

2021年第6期

浏览历史

内容加载中请稍等...

一种面向科技文献元数据增量数据规范的多模式匹配算法被引量：1

参考文献18

二级参考文献79

共引文献94

同被引文献6

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种面向科技文献元数据增量数据规范的多模式匹配算法 被引量：1

参考文献18

二级参考文献79

共引文献94

同被引文献6

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种面向科技文献元数据增量数据规范的多模式匹配算法被引量：1