基于相似度的中文网页正文提取算法被引量：3

An Extraction Algorithm of Chinese HTML Content Based on Similarity

下载PDF

导出

摘要网页正文提取是WEB挖掘的重要步骤。传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块,提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页正文。该算法避免了传统网页提取算法的分块步骤,在规范网页之后,先提取网页的最大文本行,然后计算每行文本与最大行的内容相似度和标签相似度,再结合内容相似度与标签相似度来提取网页正文。实验中,利用随机抽取的网页进行了测试,其测试精度接近95%,表明该算法在实际中是有效的。 HTML Extraction is important to WEB Mining. A new web page content extracting method was proposed. It combined content similarity and tag similarity of line text to extract web page content. This approach avoided a traditional step called web page blocking when dealing with web pages. It first extracted the largest text line and computes the similarity of line text and line tags between each line, then, used text similarity and tag similarity to extract web page content. Finally some web pages have been collected to test this approach. In experiments, the accuracy of this approach closes to 95%, which shows that this method is effective in practice.

作者熊子奇张晖林茂松

机构地区西南科技大学计算机科学与技术学院

出处《西南科技大学学报》 CAS 2010年第1期80-84,共5页 Journal of Southwest University of Science and Technology

基金国家人事部留学归国人员启动基金(07ZD0105) 西南科技大学留学归国人员启动基金(07ZX0102)

关键词内容相似度标签相似度分块文本挖掘 Text similarity Tag similarity Blocking Text Mining

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1李蕾,王劲林,白鹤,胡晶晶.基于FFT的网页正文提取算法研究与实现[J].计算机工程与应用,2007,43(30):148-151. 被引量：15
2于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
3张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
4宋明秋,张瑞雪,吴新涛,李文立.网页正文信息抽取新方法[J].大连理工大学学报,2009,49(4):594-597. 被引量：20

二级参考文献31

1常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
4胡飞.基于标记树的Web页面区域划分和搜索方法[J].计算机科学,2005,32(8):182-185. 被引量：7
5王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
6Shian-Hua Lin, Jan-Ming Ho. Discovering informative content blocks from Web documents. In: SIGKDD, 2002
7Soumen Chakrabarti, Mukul M. Joshi and Vivek B. Tawde.Enhanced topic distillation using text, markup tags, and hyperlinks. In: SIGIR, 2001
8S. Chakrabarti, M. Joshi, and M. Subramanyam. Accelerated focused crawling through online relevance feedback. In :WWW, Hawaii. ACM, 2002
9Yiming Yang. Noise reduction in a statistical approach to text categorization. In: Proceedings of SIGIR-95, 18th ACM International Conference on Research and Development in Information Retrieval, 1995
10Li Xiaoli and Shi Zhongzhi. Innovating Web page classification through reducing noise. Journal of Computer Science & Technology, 2002 ,17(1): 9 ～ 17

共引文献135

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
3郑志材,张晶.基于JAVA的网络蜘蛛的设计与实现[J].硅谷,2009,2(14):46-47.
4贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
5陈雪,徐慧,沈家峻.基于网页结构的网页去噪算法设计[J].软件,2013,34(8):95-97. 被引量：1
6胡冬梅.泰达图书馆个性化信息服务系统的探索与实践[J].现代图书情报技术,2004(10):92-95. 被引量：8
7孟涛,闫宏飞,王继民.Web网页信息变化的时间局部性规律及其验证[J].情报学报,2005,24(4):398-406. 被引量：8
8翟东升,余旸.国际贸易技术壁垒信息采集系统设计与实现[J].情报杂志,2005,24(8):33-35. 被引量：3
9宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
10张健,欧红.应用正则式抽取Google网页内容[J].现代图书情报技术,2005(9):50-53. 被引量：6

同被引文献20

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2邹腊梅,肖基毅,龚向坚.Web文本挖掘技术研究[J].情报杂志,2007,26(2):53-55. 被引量：14
3赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
4刘兵.Web数据挖掘[M].北京:清华大学出版社,201l:113-119.
5Liu Ling, Pu C,Han Wei.XWRAP: An XML-en-abled Wrapper Construction System for Web In-formation Sources[C]//Proc.Of International Confer-ence on Data Engineering.San Diego, USA, 2000:611-621.
6Sun Fei, Song Dandan, Liao Lejian.DOM Based Con-tent Extraction via Text De-n sity [C]//Proc.of the 34th Annual ACM SIGIR Confer-ence: ACM Press, 2011:245.254.
7宋明秋,张瑞雪,吴新涛,李文立.网页正文信息抽取新方法[J].大连理工大学学报,2009,49(4):594-597. 被引量：20
8王利,刘宗田,王燕华,廖涛.基于内容相似度的网页正文提取[J].计算机工程,2010,36(6):102-104. 被引量：20
9王少康,董科军,阎保平.使用特征文本密度的网页正文提取[J].计算机工程与应用,2010,46(20):1-3. 被引量：13
10李国华,昝红英.基于相似度的网页标题抽取方法[J].中文信息学报,2011,25(2):32-37. 被引量：6

引证文献3

1李湘东,霍亚勇,张娇.基于LDA主题模型的图书网页书目信息提取研究[J].情报科学,2016,34(1):34-37. 被引量：7
2王海涌,冯兆旭,杨海波,张津栋.基于结构相似网页聚类的正文提取算法研究[J].计算机工程与应用,2018,54(11):122-127. 被引量：2
3王与尧.基于贝叶斯算法的用户阅读行为分析设计与实现[J].韶关学院学报,2018,39(3):7-13.

二级引证文献9

1周娜,李秀霞,高丹,焦红.基于潜在主题的知识组合分析研究——以传播学为例[J].农业图书情报学刊,2018,30(9):85-90. 被引量：4
2何跃,丰月,赵书朋,马玉凤.基于知乎问答社区的内容推荐研究——以物流话题为例[J].数据分析与知识发现,2018,2(9):42-49. 被引量：6
3郑幸子.移动数字图书馆的图书分类系统设计[J].现代电子技术,2018,41(7):165-169. 被引量：6
4石宇,胡昌平,时颖惠.个性化推荐中基于认知的用户兴趣建模研究[J].情报科学,2019,37(6):37-41. 被引量：10
5周娜,李秀霞,高丹.基于LDA主题模型的“作者—内容—方法”多重共现分析——以图书情报学为例[J].情报理论与实践,2019,42(6):144-148. 被引量：22
6崔彦青.动态分块网页主题信息准确自动提取仿真[J].计算机仿真,2019,36(10):349-352. 被引量：2
7袁润,刘邦国,潘颖.基于LDA的ESI研究前沿主题发现研究[J].中国集体经济,2021(1):70-72. 被引量：1
8陈前华,胡嘉杰,江吉,吴豪.采用长短期记忆网络的深度学习方法进行网页正文提取[J].计算机应用,2021,41(S01):20-24. 被引量：4
9余杨奎,王旅,李婉茹,程振林,刘洁.一种基于页面赋权的网页内容提取方法[J].通化师范学院学报,2021,42(10):20-28.

1程高伟,丁亦喆,吴振强.结合用户评分和项目标签的协同过滤算法[J].计算机技术与发展,2015,25(3):71-75. 被引量：2
2王瑞,周喜,李晓.基于正文相关度的维吾尔网页正文提取[J].计算机工程,2012,38(21):153-156. 被引量：2
3林清,董占球.XML与HTML在Web环境中的应用分析[J].计算机应用,2001,21(z1):67-68. 被引量：10
4杨乐,李雨濛,宫颖.交互设计在移动终端应用中的实施原则[J].神州,2012(32):29-29.
5胡三宁.一种基于相似度的混合推荐方法[J].三门峡职业技术学院学报,2015,14(2):140-144. 被引量：2
6刘卓然,胡杨,刘骊,冯旭鹏,刘利军,黄青松.基于标签相似度的不良信息多标签分类方法[J].计算机应用研究,2016,33(4):989-992. 被引量：8
7苏秀芝.基于网页Title标签的正文提取方法[J].福建电脑,2016,32(4):43-44.
8王健,李志斌,林鸿飞.一种基于社会化标注的查询扩展方法[J].郑州大学学报（工学版）,2012,33(5):114-117. 被引量：2
9张鹏,葛小青.融合标签相似度的k近邻Slope One算法[J].重庆邮电大学学报（自然科学版）,2016,28(4):518-524. 被引量：7
10高永兵,陈超,熊振华,王宇,马占飞.基于个人微博特征的事件提取研究[J].计算机应用与软件,2016,33(7):47-51. 被引量：3

西南科技大学学报

2010年第1期

浏览历史

内容加载中请稍等...

基于相似度的中文网页正文提取算法被引量：3

参考文献4

二级参考文献31

共引文献135

同被引文献20

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于相似度的中文网页正文提取算法 被引量：3

参考文献4

二级参考文献31

共引文献135

同被引文献20

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于相似度的中文网页正文提取算法被引量：3