基于正文相关度的维吾尔网页正文提取被引量：2

Content Extraction of Uighur Web Based on Content Correlativity

下载PDF

导出

摘要网页表达的主要信息通常隐藏在大量无关的结构与文字中,使正文信息不能被迅速获取,影响文本检测的效率。为此,根据维吾尔网页的非规范化编码、论坛型网页较多等特点,提出一种基于正文相关度的正文提取算法,并建立上下文正文密度和节点间正文比例等数学模型对算法进行改进。对大量维吾尔网页的实验结果表明,该算法具有较好的正文提取正确率和召回率,能够有效地从维吾尔网页中提取到所需的正文信息。 In addition to the main content, most Uighur Web contain noises such as navigation panels, advertisements which are not related to the main content. To improve the efficiency of security detection, this paper presents a content extraction algorithm of Uighur Web based on Web text correlativity, and designs the model of text density and content scale to improve the algorithm. Experimental result shows that this algorithm can extract the main content from the Uighur Web efficiently.

作者王瑞周喜李晓

机构地区中国科学院新疆理化技术研究所中国科学院研究生院

出处《计算机工程》 CAS CSCD 2012年第21期153-156,160,共5页 Computer Engineering

基金新疆维吾尔自治区高技术研究发展基金资助项目(201012112) 新疆维吾尔自治区电子发展专项基金资助项目(XJDZZXZJ20109)

关键词正文提取正文相关度信息安全自然语言处理正文密度 content extraction content correlativity information security natural language processing content density

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Rahman A R, Alam H, Hartono R. Content Extraction from Html Documents[C]//Proc. of the 1st International Workshop on Web Document Analysis. Seattle, USA: [s. n.], 2001: 7-10.
2Liu Ling, Pu C, Han Wei. XWRAP: An XML-enabled Wrapper Construction System for Web Information Sources[C]//Proc. of International Conference on Data Engineering. San Diego, USA: [s. n.], 2000: 611-621.
3吴麒,陈兴蜀,谭骏.基于权值优化的网页正文内容提取算法[J].华南理工大学学报（自然科学版）,2011,39(4):32-37. 被引量：8
4Cai Deng, Yu Shipeng, Wen Jirong, et al. Extracting Content Structure for Web Pages Based on Visual Representation[C]//Proc. of the 5th Asian-Pacific Web Conference. Xi'an, China: [s. n.], 2003: 406-417.
5Cai Deng, Yu Shipeng, Wen Jirong, et al. VIPS: A Vision Based Page Segmentation Algorithm[R]. Microsoft Research, Technical Report: MSR-TR-2003-79, 2003.
6Sun Fei, Song Dandan, Liao Lejian. DOM Based Content Extraction via Text Density[C]//Proc. of the 34th Annual ACM SIGIR Conference. [S. 1 .]: ACM Press, 2011: 245-254.
7王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
8Hegaret P L. W3C Document Object ModeI[EB/OL]. (2009- 01-06). http://www.w3.org/DOM.
9Weninger T, Hsu W H, Cetr H J. Content Extraction via Tag Ratios[C]//Proc. of the 10th International World Wide Web Conference. New York, USA: [s. n.], 2010: 971-980.
10宗成庆.统计自然语言理解[M].北京:清华大学出版社,2008.

二级参考文献28

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
3Wang J Y,Lochovsky F H. Data-rich section extraction from HTML pages [ C ]//Proc of the 3rd International Conference on Web Information Systems Engineering. Singapore: IEEE Computer Society Press,2002:313-322.
4W3C DOM IG. Document object model[ EB/OL]. (2010- 6-5 ) http: //www. w3. org/DOM/.
5Lin S H, Ho J M. Discovering informative content blocks from web documents [ C ] //Proc of the ACM SIGKDD'02. Alberta : ACM ,2002 : 190-195.
6Lan Y, Liu B, Li X L. Eliminating noisy information in web pages for data mining [ C]//Proc of the Ninth ACM SIGKDD International Conference on Knowledge Disco- very and Data Mining. Washington : ACM,2003 : 296- 305.
7Debnath S, Mitra P, Pal N, et al. Automatic identification of informative sections of web pages [ J ]. IEEE Tran. on Knowledge and Data Engineering, 2005, 17 ( 9 ) : 1233- 1246.
8Suhit G, Gail K, David N, et al. DOM-based content extraction of HTML documents [ C]//Proc of the 12th International World Wide Web Conference. Budapest :ACM, 2003:207-217.
9Cai Deng, He Xiao-fei, Wen Ji-rong, et al. Block-level link analysis [ C ]//Proc of SIGIR'04. Sheffied : ACM, 2004 : 134-142.
10Song Rui-hua, Liu Hai-feng,Wen Ji-rong,et al. Learning block importance models for web pages [ C ] // Proc of World Wide Web Conference. New York: ACM, 2004: 343-348.

共引文献87

1赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
2张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
3吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
4吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
5贺智平,徐学洲,李爱玲.一种基于信息熵的Web页面主题信息抽取方法[J].计算机工程与应用,2007,43(4):164-166. 被引量：6
6赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
7谢华,刘卫国.基于局部语义的网页净化算法[J].计算机系统应用,2007,16(5):25-28.
8章勤,余洋,陶文兵.图像搜索中基于网页分块的图像分类研究[J].计算机工程与科学,2007,29(6):42-44. 被引量：1
9高琰,谷士文,谭立球.基于多种策略的页面内容提取算法[J].西南交通大学学报,2007,42(4):473-477. 被引量：4
10张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10

同被引文献25

1赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
2朱红灿,龙朝阳.基于熵的新闻网页抽取方法的研究[J].现代图书情报技术,2007(4):48-51. 被引量：2
3罗永莲,秦振吉.新闻网页主题内容提取方法研究[J].微计算机应用,2007,28(5):556-560. 被引量：5
4Grigalis T.Towards web-scale structured Web data extraction:WSDM 2013:Proceedings of the sixth ACM international conference on Web search and data mining,Rome,February 4-8,2013[C].New York:ACM,2013.
5Furche T,Gottlob G,Grasso G,et al.OXPath:A language for scalable data extraction,automation,and crawling on the deep web[J].VLDB,2013,22(1):47-72.
6Zheng S Y, Song R H, Wen J R. Template-independent News Extraction Based on Visual Consistency[C]. In: Proceedings of the AAAI'07, Vancouver, Canada. 2007.
7王文生,谢能付,基于Web的农业信息自动抽取方法研究[C].见:全闰农业信息分析理论与方法学术研讨会.2007:77-83.
8郑德权,张迪,赵铁军,于浩.Blog网页分类与识别技术研究[J].通信学报,2007,28(12):156-160. 被引量：6
9龙丽,庞弘燊.国外Web信息抽取研究综述[J].图书馆学刊,2008,30(5):13-16. 被引量：8
10曹冬林,廖祥文,许洪波,白硕.基于网页格式信息量的博客文章和评论抽取模型[J].软件学报,2009,20(5):1282-1291. 被引量：15

引证文献2

1陈荟慧,舒云星,林丽.多语种Web新闻语料抓取的通用模型研究[J].洛阳理工学院学报（自然科学版）,2013,23(4):34-39. 被引量：1
2李湘东,霍亚勇,黄莉.图书网页的自动识别及书目信息抽取研究[J].现代图书情报技术,2014(4):71-77. 被引量：3

二级引证文献4

1李晨,朱世伟,赵燕清,于俊凤.基于MapReduce的网络爬虫设计与实现[J].山东科学,2015,28(2):101-107. 被引量：1
2刘宝超,崔荣一.基于最大Jaccard相似度的互激励实体验证算法[J].延边大学学报（自然科学版）,2015,41(1):42-45. 被引量：1
3赵峰涛.基于视觉的图书馆在架错序图书自动识别技术应用研究[J].电子设计工程,2018,26(22):147-150. 被引量：3
4林正柏.重开发、重研制——“互联网+”背景下多语种平行语料库的建设思路[J].海外英语,2020(15):238-239.

1欧阳佳,林丕源.基于DBSCAN算法的网页正文提取[J].计算机工程,2011,37(3):64-66. 被引量：6
2杨丽萍.网页正文提取技术的分析与研究[J].计算机光盘软件与应用,2012,15(22):115-116. 被引量：1
3杨柳青,李晓东,耿光刚.基于布局相似性的网页正文内容提取研究[J].计算机应用研究,2015,32(9):2581-2586. 被引量：10
4熊忠阳,蔺显强,张玉芳,牙漫.结合网页结构与文本特征的正文提取方法[J].计算机工程,2013,39(12):200-203. 被引量：15
5苏秀芝.基于网页Title标签的正文提取方法[J].福建电脑,2016,32(4):43-44.
6付华峥,陈翀,向勇,刘春.分布式大数据采集关键技术研究与实现[J].广东通信技术,2015,35(10):7-10. 被引量：15
7杨钦,杨沐昀.一种基于标点密度的网页正文提取方法[J].智能计算机与应用,2015,5(4):42-44. 被引量：2
8熊子奇,张晖,林茂松.基于相似度的中文网页正文提取算法[J].西南科技大学学报,2010,25(1):80-84. 被引量：3
9陈阳,陈兴蜀,吴麒.基于信息量衰减幅度的网页正文提取[J].计算机工程与设计,2012,33(7):2555-2560. 被引量：1
10秦成磊,魏晓,杨阳.一种基于统计的复杂页面正文提取方法[J].计算机应用与软件,2015,32(7):90-92. 被引量：1

计算机工程

2012年第21期

浏览历史

内容加载中请稍等...

基于正文相关度的维吾尔网页正文提取被引量：2

参考文献10

二级参考文献28

共引文献87

同被引文献25

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于正文相关度的维吾尔网页正文提取 被引量：2

参考文献10

二级参考文献28

共引文献87

同被引文献25

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于正文相关度的维吾尔网页正文提取被引量：2