基于统计的多文本网站文本内容抽取算法被引量：2

An Algorithm for Extracting Text from Multi-text Websites Based on Statistics

下载PDF

导出

摘要随着互联网的普及,网络数据的增长速度也呈现出井喷的态势。通过搜索引擎获取网络信息,已成为人们获取信息的主要途径,因此,搜索引擎的搜索精度,就成了亟待研究的问题。本文首先研究了文本摘要领域国内外的研究现状,分析了目前该领域的研究成果,对各种算法进行了综合分析,然后针对科研网站这类多文本内容的网站,提出了一种基于统计的网站文本信息的抽取算法。该算法利用宽度优先搜索策略爬虫,获取网站的HTML源码,对源码的结构进行分析,将其解析成DOM树,最后再利用基于统计的方法将网站的文本信息抽取出来。通过验证,该算法可以较好地实现用于网站摘要的综合文本的抽取。 With the popularity of the Internet,the growth rate of network data has shown a blowout trend.Accessing network information through search engine has become the main way for people to obtain information.Therefore,the study of search accuracy of the search engine takes a first priority.This paper first studies the research status of text summarization at home and abroad,analyzes the current research results in this field,and makes a comprehensive analysis of various algorithms.Then,aiming at the multi text content websites such as scientific research websites,this paper proposes a website text information extraction algorithm based on statistics.The algorithm uses the width first search strategy crawler to obtain the HTML source code of the website,analyzes the structure of the source code,parses it into DOM tree,and finally extracts the text information of the website by using the statistical method.This algorithm has been verified as a better way to extract the summarization of the comprehensive text from websites.

作者王晴 Wang Qing(Xuzhou Open University,Xuzhou 221116,China)

机构地区徐州开放大学

出处《安徽电子信息职业技术学院学报》 2021年第4期6-12,共7页 Journal of Anhui Vocational College of Electronics & Information Technology

基金 2019年度江苏开放大学(江苏城市职业学院)“十三五”科研规划课题“基于SPOC的高职混合教学模式探讨”(19TXZC-10)。

关键词自动文本摘要网页文本抽取宽度优先搜索 DOM树 ROUGE评价 automatic text summarization webpage text extraction breadth-first search DOM tree ROUGE evaluation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1马慧芳,王双,李苗,李宁.融合图结构与节点关联的关键词提取方法[J].中文信息学报,2019,33(9):69-78. 被引量：8
2肖升,何炎祥.改进的潜在语义分析中文摘录方法[J].计算机应用研究,2012,29(12):4507-4511. 被引量：8
3魏媛媛,倪建成,高峰,吴俊清.结合主题信息聚类编码的文本摘要模型[J].计算机技术与发展,2021,31(1):30-34. 被引量：2
4冯永,唐黎.视觉与标签信息的Deep Web查询页面内容提取[J].重庆大学学报（自然科学版）,2012,35(6):117-124. 被引量：1
5李金鹏,张闯,陈小军,胡玥,廖鹏程.自动文本摘要研究综述[J].计算机研究与发展,2021,58(1):1-21. 被引量：51
6刘家益,邹益民.近70年文本自动摘要研究综述[J].情报科学,2017,35(7):154-161. 被引量：18

二级参考文献47

1秦兵,刘挺,陈尚林,李生.多文档文摘中句子优化选择方法研究[J].计算机研究与发展,2006,43(6):1129-1134. 被引量：13
2余正涛,樊孝忠,郭剑毅,耿增民.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报,2006,29(10):1889-1893. 被引量：44
3石晶,戴国忠.基于PLSA模型的文本分割[J].计算机研究与发展,2007,44(2):242-248. 被引量：25
4MADHAVAN J, COHEN S, DONG X L, et al. Web- scale date intergration: you can only afford to pay as you go[C]//Proceedings of the 3rd Biennial Conference on Innovative Data Systems Research(CIDR), January 7-10, 2007. Asilomar, CA, USA: [-s.n.], 2007, 7: 342-350.
5EGLIN V, BRES S. Document page similarity based on layout visual saliency: application to query by example and document classification [C]//Proceedings of the Seventh International Conference on Document Analysis and Recognition, Aug. 3-6, 2003, Edinburgh, Scotland, UK. Washington, DC, USA: IEEE Computer Society, 2003, 2: 1208-1212.
6BALAKRISHNAN R, KAMBHAMPATI S. SourceRank: relevance and trust assessment for deep web sources based on inter-source agreement [C]// Proceedings of the 20th international conference on Wor[d Wide Web, March 28-April1, 2011. Hyderabad, India: [s. n. ], 2011: 227-236:
7HONG J L, SlEW E G, EGERTON S. WMS- extracting multiple sections data records from search engine results pages [C]//Proceedings of the 2010 ACM Symposium on Applied Coputing, March 22-29, 2010. Sierre, Switzerland: ACM, 2010: 1696-1701.
8LIU W, MENG X F, MENG W Y. VIDE: a vision- based approach for deep web data extraction [J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(3) : 447-460.
9AN Y J, GELLER J, WU Y T, et al. Semantic deep web: automatic attribute extraction from the deep web data sources[C]//Proceedings of the 22nd Annual ACM Symposium on Applied Computing, March 11-15, 2007. Seoul, Korea:[s.n.], 2007: 1667-1672.
10QIANG B H, XI J Q, ZHANG L. An effective schema extraction algorithm on the deep web[C]//Proceedings of the 4th International Conference on Wireless Communications, Networking and Mobile Computing, Oct. 12-14, 2008. Dalian, China: IEEE, 2008: 1-4.

共引文献80

1SHI Hui,WANG Tiexin.A Hybrid Method of Extractive Text Summarization Based on Deep Learning and Graph Ranking Algorithms[J].Transactions of Nanjing University of Aeronautics and Astronautics,2022,39(S01):158-165. 被引量：1
2蒋建洪,罗玫.在线商品的潜在语义信息提取及分类研究[J].计算机与数字工程,2014,42(1):112-116. 被引量：1
3陈燕红,刘风华.一种改进的潜在语义检索模型研究[J].计算机技术与发展,2014,24(9):120-124. 被引量：2
4段荣伟,付立冬,夏广锋.语义分析在水环境领域的应用研究[J].电子技术与软件工程,2015(22):263-264.
5刘娟娟,丁嘉宁.基于分布式集群环境的图聚类信息高效处理方案[J].计算机应用与软件,2016,33(2):217-222.
6张博.分布式集群环境下基于并行计算的图聚类信息高效处理方案[J].自动化技术与应用,2016,35(3):29-35. 被引量：2
7苟和平,景永霞,刘强,吴多智.基于潜在语义分析的Deep Web查询接口匹配研究[J].佳木斯大学学报（自然科学版）,2016,34(4):556-559. 被引量：1
8王振超,孙锐,姬东鸿.基于事件指导的多文档生成式摘要方法[J].计算机应用研究,2017,34(2):343-346. 被引量：6
9石磊,阮选敏,魏瑞斌,成颖.基于序列到序列模型的生成式文本摘要研究综述[J].情报学报,2019,38(10):1102-1116. 被引量：13
10王玮.基于C-R神经网络的生成式自动摘要方法[J].计算机与数字工程,2020,48(1):112-118. 被引量：3

同被引文献14

1黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：21
2罗毅辉,熊曙初.一种集成框架下的分布式多文档自动摘要方法[J].情报杂志,2013,32(11):133-136. 被引量：3
3张敏,刘建华,谢靖.网络科技信息监测中富文档识别与信息提取技术研究[J].情报科学,2017,35(1):128-132. 被引量：8
4刘志明,于波,欧阳纯萍,余颖,阳小华,翟云.基于主题的SE-TextRank情感摘要方法[J].情报工程,2017,3(3):97-104. 被引量：8
5王凯祥.面向查询的自动文本摘要技术研究综述[J].计算机科学,2018,45(B11):12-16. 被引量：5
6祖木然提古丽·库尔班,艾山·吾买尔.中文命名实体识别模型对比分析[J].现代计算机,2019,0(14):3-7. 被引量：11
7侯圣峦,张书涵,费超群.文本摘要常用数据集和方法研究综述[J].中文信息学报,2019,33(5):1-16. 被引量：21
8王博,华庆一,舒新峰.一种基于模型和模板融合的自动代码生成方法[J].现代电子技术,2019,42(22):69-74. 被引量：8
9刘译璟,徐林杰,代其锋.基于自然语言处理和深度学习的NL2SQL技术及其在BI增强分析中的应用[J].中国信息化,2019,0(11):62-67. 被引量：4
10唐晓波,顾娜,谭明亮.基于句子主题发现的中文多文档自动摘要研究[J].情报科学,2020,38(3):11-16. 被引量：8

引证文献2

1冯俊辉,刘晨,郭浩然.基于模板和规则的声明式代码生成[J].数字技术与应用,2022,40(2):151-154.
2涂著刚,李正军,杨敏.基于柔性粒度的文本摘要自动化技术创新研究[J].计算机科学与应用,2021,11(10):2546-2554.

1杨旭辉,张帆,胡涛.大数据环境下基于改进网格单元的DBSCAN算法[J].信息工程大学学报,2021,22(3):351-358. 被引量：4
2陈争.乡镇基层统计工作的探索与思考[J].中国集体经济,2020(30):33-34. 被引量：3
3张帅帅,黄杰,祁春阳,汪潇文.基于SOINN的在线物联网设备识别方法[J].东南大学学报（自然科学版）,2021,51(4):715-723. 被引量：2
4张伟,石倩,何霄,王晨,李禾香,李骥然.改进的TF-IDF算法在文本分类中的研究[J].信息技术与网络安全,2021,40(7):72-76. 被引量：14
5郭鹏,刘俊南.融合多种使用词信息方法的命名实体识别研究[J].现代信息科技,2021,5(6):25-27.
6栗萱.破题动漫人才困局[J].商周刊,2021(17):24-25.
7曹庆瑶,李锦宏.贵州省首批国家全域旅游示范区建设对区域经济增长的贡献研究[J].经营与管理,2021(8):176-182. 被引量：3
8罗芳,汪竞航,张宇恒,何道森,蒲秋梅.融合传播影响力的热点事件时序摘要研究[J].中文信息学报,2021,35(7):98-108. 被引量：1
9丁勇,程家桥,蒋翠清,王钊.基于主题和关键词特征的比较文本分类方法[J].计算机工程与应用,2021,57(17):196-202. 被引量：4

安徽电子信息职业技术学院学报

2021年第4期

浏览历史

内容加载中请稍等...

基于统计的多文本网站文本内容抽取算法被引量：2

参考文献6

二级参考文献47

共引文献80

同被引文献14

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于统计的多文本网站文本内容抽取算法 被引量：2

参考文献6

二级参考文献47

共引文献80

同被引文献14

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于统计的多文本网站文本内容抽取算法被引量：2