基于文本信息的PDF文档管理系统设计与实现被引量：7

Design and implementation of PDF document management system based on text information

下载PDF

导出

摘要随着信息化应用程度不断提高,企业中越来越多的文本信息被存储在PDF文档中,PDF文档的数量也随之变大,为了帮助用户尽快找到需求的文本信息,并建立企业知识共享平台,本文设计了一种基于文本信息的PDF文档管理系统。首先,针对PDF文档文本信息利用率不足的问题,研究了基于Stream流的PDF文档解析方案,该方案可以用于PDF文档检索模块来进行PDF文本内容解析;其次,针对TF-IDF算法的天然缺陷,从词频、文本长度和关键词位置进行改进,进而计算得到关键词的权重值,再通过空间向量模型计算PDF文档的相似度,按照文档的权重值进行排序;最后,进行系统与功能的验证,证明了本文PDF文档管理系统内容查询具有更高准确性,为企业级智能文档管理平台提供有效和实用的方案。 With the continuous improvement of information application,more and more text information in enterprises is stored in PDF documents,and the number of PDF documents is also increased.In order to help users find the required text information as soon as possible and establish the enterprise knowledge sharing platform,a PDF document management system based on text information is designed.Firstly,according to the problem of insufficient utilization of PDF document text information,the PDF document parsing scheme based on Stream is studied.This scheme can be used in PDF document retrieval module to parse PDF text content.Secondly,in view of the natural defects of the TF-IDF algorithm,the algorithm is improved from three aspects:word frequency,text length,and keyword position.So the weight value of the keywords is calculated.Then,the similarity of the PDF document is calculated by the space vector model,sort by weight value.Finally,the system and function are verified,which proves that the content query of the PDF document management system in this paper has higher accuracy,and provides an effective and practical solution for the enterprise-level intelligent document management platform.

作者王春伟侯方申升南赛李英伟 WANG Chunwei;HOU Fang;SHEN Sheng;NAN Sai;LI Yingwei(School of Information Science and Engineering,Yanshan University,Qinhuangdao,Hebei 066004,China;Beijing Branch,Daqing Oilfield Information Technology Company,Beijing 100043,China)

机构地区燕山大学信息科学与工程学院大庆油田信息技术公司北京分公司

出处《燕山大学学报》 CAS 北大核心 2020年第6期603-608,共6页 Journal of Yanshan University

基金国家自然科学基金资助项目(61827811)。

关键词文本信息文件解析文档检索权重值 text information file parsing document retrieval weight value

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1林迎迎.电子文件档案管理系统应用及实现分析[J].兰台内外,2018,0(3):28-29. 被引量：2
2张敏,刘建华,谢靖.网络科技信息监测中富文档识别与信息提取技术研究[J].情报科学,2017,35(1):128-132. 被引量：8
3邓晓衡,杨子荣,关培源.一种基于词义和词频的向量空间模型改进方法[J].计算机应用研究,2019,36(5):1390-1395. 被引量：17
4陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43

二级参考文献18

1Yiming Yang, An evaluation of statistical approaches to text categorization[J]. In:Journal of Information Retrieval,1999,1(2) :67 - 88.
2Jian-yun Nie, Jianfeng Gao etc. On the Use of Words and N-grams for Chinese Information Retrieval[A]. Fifth International Workshop on Information Retrieval with Asian Languages [ C ]. Hong Kong, September 30 - October 1,2000.
3熊忠阳,张鹏招,张玉芳.基于χ~2统计的文本分类特征选择方法的研究[J].计算机应用,2008,28(2):513-514. 被引量：44
4张秀秀,马建霞.PDF科技论文语义元数据的自动抽取研究[J].现代图书情报技术,2009(2):102-106. 被引量：10
5裴英博,刘晓霞.文本分类中改进型CHI特征选择方法的研究[J].计算机工程与应用,2011,47(4):128-130. 被引量：39
6刘建华,张智雄,谢靖,邹益民.基于规则的网络文本资源标题快速自动识别方法[J].现代图书情报技术,2011(6):27-31. 被引量：5
7邱云飞,王威,刘大有,邵良杉.基于方差的CHI特征选择方法[J].计算机应用研究,2012,29(4):1304-1306. 被引量：30
8王光,邱云飞,史庆伟.集合CHI与IG的特征选择方法[J].计算机应用研究,2012,29(7):2454-2456. 被引量：22
9Laurette P.Simmons,郭岚香(译),Ellen D.Hoadley,Faith D.Gilroy,李东风(译),史东承(译).文件中色彩、字形和字体变化的显著突出作用──在不同文化背景下的调查[J].计算机工程,2000,26(11):1-3. 被引量：4
10刘海峰,苏展,刘守生.一种基于词频信息的改进CHI文本特征选择[J].计算机工程与应用,2013,49(22):110-114. 被引量：24

共引文献66

1陆亮,孔芳.面向对话的融入交互信息的实体关系抽取[J].中文信息学报,2021,35(8):82-88. 被引量：4
2吕彦红,陈基漓,阮百尧.基于遗传算法的中文自动分类特征选择[J].山东理工大学学报（自然科学版）,2009,23(1):100-102. 被引量：1
3刘海峰,王元元,王倩.基于特征选择的文本分类方法评述[J].情报科学,2007,25(z1):193-196.
4吕德新,张桂平,蔡东风,朱江涛.基于SVM的疑问句问点语义角色标注[J].沈阳航空工业学院学报,2006,23(1):44-46. 被引量：4
5陈志雄,陈健,闵华清.基于信息增益的中文文本关联分类[J].中文信息学报,2007,21(3):61-68. 被引量：1
6王晓霞,尹四清.一种基于支持向量机的分类算法[J].山西电子技术,2007(3):17-18. 被引量：2
7LI Yanling,DAI Guanzhong,ZHU Yehang,QIN Sen.A High-Performance Extraction Method for Public Opinion on Internet[J].Wuhan University Journal of Natural Sciences,2007,12(5):902-906. 被引量：3
8刘海峰,王元元,张学仁.文本分类中一种改进的特征选择方法[J].情报科学,2007,25(10):1534-1537. 被引量：9
9李艳玲,戴冠中,朱烨行.基于类别空间模型的文本倾向性分类方法[J].计算机应用,2007,27(9):2194-2196. 被引量：12
10周凯,李芳,盛焕烨.基于向量空间模型的中文搜索引擎评测系统研究与实现[J].计算机应用研究,2007,24(12):16-19. 被引量：3

同被引文献73

1易尧华,何婧婧,卢利琼,汤梓伟.顾及目标关联的自然场景文本检测[J].中国图象图形学报,2020,0(1):126-135. 被引量：14
2赵健,李至轩,朱冰,李雅欣,孙玉泽.基于交互多模型的车辆质量与道路坡度估计[J].中国公路学报,2019,32(12):58-65. 被引量：9
3张付志,伍朝辉,姚芳.基于贝叶斯算法的垃圾邮件过滤技术的研究与改进[J].燕山大学学报,2009,33(1):47-52. 被引量：12
4李方,刘琼荪.基于改进属性加权的朴素贝叶斯分类模型[J].计算机工程与应用,2010,46(4):132-133. 被引量：12
5顾东晓,李童童,梁昌勇,徐健.基于云计算的管理信息系统迁移模式与策略研究[J].情报科学,2018,36(12):71-76. 被引量：20
6邓根强,董超雄,乐新,祝苗苗,朱岁松,郭梅梅.C-DRG医院信息系统改造总体架构设计[J].中国卫生经济,2018,37(12):96-99. 被引量：14
7杜远志,杜学绘,杨智.云计算环境下基于属性加密的信息流控制及实现[J].计算机工程,2018,44(3):27-36. 被引量：11
8李芊,许高强,韦海民.基于BIM的综合管廊运维管理系统研究[J].地下空间与工程学报,2018,14(2):287-292. 被引量：50
9赵宇宇,陈宁.基于B/S的船舶虚拟机舱信息管理系统设计[J].舰船科学技术,2018,40(4):126-129. 被引量：8
10杨晓花,高海云.基于改进贝叶斯的书目自动分类算法[J].计算机科学,2018,45(8):203-207. 被引量：17

引证文献7

1史渊源,周辉,于烨,周怡,马国武,吴佳静,马龙.基于Hadoop的车辆管理系统设计与实现[J].湘潭大学学报（自然科学版）,2021,43(1):97-106.
2罗旭红,付丛振.基于云计算平台的建筑工程概算信息管理系统[J].自动化技术与应用,2022,41(3):171-176. 被引量：7
3张敏丽,张誉心.基于深度学习的电子交互绘本阅读信息自动化采集系统设计[J].自动化与仪器仪表,2022(2):86-89.
4张凌,陈晗.基于云计算技术的医疗信息管理系统[J].自动化技术与应用,2022,41(9):76-78. 被引量：5
5辛梓铭,王芳.基于改进朴素贝叶斯算法的文本分类研究[J].燕山大学学报,2023,47(1):82-88. 被引量：7
6杨剑.基于数据挖掘的人力资源信息智能调配系统[J].信息技术,2023,47(7):102-106. 被引量：3
7苏蕊,刘宁,闫润珍,张自强,王琼.基于数据驱动的电网信息智能管理系统设计[J].自动化技术与应用,2024,43(3):181-184.

二级引证文献22

1陈吉祥.基于BIM提高工程概算准确性的方法研究[J].建筑与预算,2023(2):10-12.
2陈刚.基于云计算技术的运动信息自动管理系统设计[J].佳木斯大学学报（自然科学版）,2023,41(2):53-57.
3郭丽.基于朴素贝叶斯的网络异常流量攻击行为预测方法[J].信息与电脑,2023,35(9):46-48.
4李虎.基于云计算的临床医疗信息集成系统[J].信息与电脑,2023,35(11):68-70.
5邓明体.基于机器学习的网站漏洞预警研究——以代购系统为例[J].装备制造技术,2023(8):83-86. 被引量：1
6邹源.基于区块链技术的建筑工程项目管理系统设计[J].科学技术创新,2023(25):6-9.
7戴如之.建筑工程概算误差分析及控制研究[J].四川建筑,2023,43(5):289-290. 被引量：1
8赵紫德.基于云计算理念与技术的医疗信息化研究[J].电子元器件与信息技术,2023,7(10):170-173.
9王学俊,王军.肿瘤医院医疗设备系统信息化建设及流程管理研究[J].中国医疗器械信息,2024,30(5):141-143. 被引量：1
10徐炜.基于数据挖掘的人力资源信息智能调配方法研究[J].计算机应用文摘,2024,40(9):126-128.

1陶燕燕,赵敏,费建章.电力企业智能文档编制系统设计与应用[J].科技创新与应用,2020(34):65-66.
2李明谦.公共图书馆参考咨询服务升级探析[J].传媒论坛,2020,3(13):131-131. 被引量：1
3易超.企业财务共享服务中心项目风险管控策略研究[J].纳税,2020(23):101-102. 被引量：6
4程泽凯,谢宁宇,杨思春,佘星星.基于RoboCup仿真2D的数字孪生框架应用[J].苏州科技大学学报（自然科学版）,2020,37(4):64-67. 被引量：1
5罗文,任玉春,胡耀文.Revit几何模型提取与Web可视化研究[J].现代信息科技,2020,4(17):17-19. 被引量：1
6王卫东.危险化学品企业如何加强自我安全分类整治工作[J].化工安全与环境,2020,33(46):20-21.
7张威.企业科研人员考核晋升指标体系的设计[J].现代商贸工业,2020,41(34):83-84.
8高健.休闲零食品牌微博营销如何吸引粉丝互动——基于网络传播理论的实证研究[J].开封文化艺术职业学院学报,2020,40(10):209-211. 被引量：1
9白凤波,常林,王世凡,李彬,王颖洁,周红,刘耀.裁判文书关键词提取的改进方法研究[J].计算机工程与应用,2020,56(23):153-160. 被引量：4
10陈闻鹤,常志朋,宫晓虹.基于马田系统的企业疫情防控风险集对评估模型[J].软科学,2020,34(11):137-144. 被引量：3

燕山大学学报

2020年第6期

浏览历史

内容加载中请稍等...

基于文本信息的PDF文档管理系统设计与实现被引量：7

参考文献4

二级参考文献18

共引文献66

同被引文献73

引证文献7

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于文本信息的PDF文档管理系统设计与实现 被引量：7

参考文献4

二级参考文献18

共引文献66

同被引文献73

引证文献7

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于文本信息的PDF文档管理系统设计与实现被引量：7