基于互信息度量的Web信息抽取被引量：5

WEB INFORMATION EXTRACTION BASED ON MUTUAL INFORMATION METRIC

下载PDF

导出

摘要如何从纷繁复杂的网页中抽取有价值的信息是信息检索和Web数据挖掘中的重要问题。利用网页集信息所呈现的分布特点,提出基于互信息度量的Web信息抽取方法,它能够自动识别噪声信息并保留关键信息。该方法将网页解析成DOM树,计算叶子节点的互信息值;然后按DOM树结构对叶子节点进行分块聚集,向上递归求得标签<body>的互信息值,并以此作为阈值区分噪声与非噪声。最后与多个国内知名网站上的实验及对比结果证明了该方法的有效性。 How to extract valuable information from complex web pages is an important issue in information retrieval and Web data mining. We utihse the distribution feature presented by the information of webpage set and propose a mutual information metric-based Web information extraction method, it can automatically identify the noisy information and keep the key information. In this method, webpage is parsed into a DOM tree and the mutual information value of leaf nodes is calculated. Then the leaf nodes are block aggregated according to the structure of the DOM tree, the mutual information value of tag 〈 body 〉 is upward recursively computed and is set as the threshold to distinguish the non-noise from noise. Experiments and contrast results on various famous domestic websites prove the effectiveness of the proposed method.

作者张奇郝志峰温雯蔡瑞初

机构地区广东工业大学计算机学院南京大学计算机软件新技术国家重点实验室

出处《计算机应用与软件》 CSCD 北大核心 2013年第12期15-18,共4页 Computer Applications and Software

基金国家自然科学基金项目(61070033 61100148) 广东省自然科学基金项目(9251009001000005 S2011040004804)

关键词信息抽取 DOM 互信息阈值 Information extraction DOM Mutual information Threshold

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Byeong H K, Yang S K. Noise Elimination from the Web Documents by Using URL paths and Information Redundancy [ C ]//The 2006 Inter-national Conference on Information & Knowledge Engineering, 2006: 135 -141.
2Chang C H, Kayed M, Girgis R, et al. A survey of web information ex- traction systems[J]. IEEE Transactions on Knowledge and Data Engi- neering,2006, 15 (10) :1411-1428.
3陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5陈治昂,周知予,李大学.一种基于模板的快速网页文本自动抽取算法[J].计算机应用研究,2009,26(7):2646-2649. 被引量：11
6Weninger T, Hsu W H, Hart J. CETR-content extraction via tagratios [ C ]//Proceedings of the 19th international conference on World Wide Web. Raleigh : ACM Press ,2010:971 - 980.
7Sun F, Song D, Liao L. DOM based content extraction via text density [ C ]//Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval. Beijing: ACM Press ,2011:245 - 254.
8Cover T M ,Thomas J A. Elements of Information Theory[ M]. 2nd ed. John Wiley & Sons, Inc. , Hoboken,New Jersey, 2006.
9Pinto D, Branstein M, Coleman R, et al. Quasm : A system for ques- tionanswering using semi-structured data [ C ]//Proceedings of the 2nd ACM/IEEE-CS joint conference on Digital libraries,2002:46- 55.
10Gottron T. Content code blurring: A new approach to content extraction [ C]//DEXA08: Proceedings of the 19th International Conference on Database and Expert Systems Application,2008:29-33.

二级参考文献38

1杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
4张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
5赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
6MYLLYMAKI J. Effective Web data extraction with standard XML technologies [ J ]. Computer Network,2002,39 ( 5 ) :635- 644.
7HORS A L, HEGARET P L, WOOD L, et al. Document object model (DOM) level 2 core specification, World Wide Web Consortium (W3C) [ EB/OL]. (2000-11-13) [2008-08-01 ]. http://www.w3. org/TR/2000/REC-DOM-Level-2 -Core.
8CRESCENZI V, MECCA G, MERIALDO P. RoadRunner: automatic data extraction from data-intensive Web sites[ C ]//Proc of ACM SIGMOD International Conference on Management of Data. New York: ACM Press,2002:624.
9ARASU A, GARCIA-MOLINA H. Extracting structured data from Web pages [ R ]. Palo Alto, California : Stanford University,2002.
10AHONEN-MYKA H. Discovery of frequent word sequences in text, template detection via data mining and its applications[ R ]. Helsinki: University of Helsinki,2002.

共引文献109

1赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
2张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
3吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
4吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
5贺智平,徐学洲,李爱玲.一种基于信息熵的Web页面主题信息抽取方法[J].计算机工程与应用,2007,43(4):164-166. 被引量：6
6赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
7谢华,刘卫国.基于局部语义的网页净化算法[J].计算机系统应用,2007,16(5):25-28.
8章勤,余洋,陶文兵.图像搜索中基于网页分块的图像分类研究[J].计算机工程与科学,2007,29(6):42-44. 被引量：1
9高琰,谷士文,谭立球.基于多种策略的页面内容提取算法[J].西南交通大学学报,2007,42(4):473-477. 被引量：4
10张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10

同被引文献35

1Jie Zhao, Peiquan Jin. Extraction and Credibility Evaluation of Webbased Competitive Intelligence[J] Journal of Software, 2011, 6(8): 1513-1520.
2Vidya.V.L. A Survey of Web Data Extraction Techniques[J]. International Journal of Advance Research in Computer Science and Management Studies, 2014, 2(9): 76-79.
3Joaquim Fonseca, Ant6nio Grilo. WeCIM - Web Competitive Intelligence Methodology[J]. Journal of Economics, Business and Management. 2013, 1(1): 112-116.
4Madhavan J, Ko D, Kot L, et al. Google' s deep web crawl [ J ]. Proceedings of the VLDB Endowment, 2008,1 ( 2 ) : 1241 -1252.
5Stevanovic D, An Aijun, Vlajic N. Feature evaluation for Web crawler detection with data mining techniques [ J ]. Expert Sys- tems with Applications,2012,39(10) :8707-8717.
6Liu X, Gong D. A comparative study of a-star algorithms for search and rescue in perfect maze [ C]//Proc of ICECICE. [ s. l. ] :IEEE ,2011:24-27.
7Cali A, Martinenghi D. Querying the deep web[ C ]//Proceed- ings of the 13th international conference on extending database technology. [ s. l. ] : [ s. n. ] ,2010:724-727.
8丁艳辉,李庆忠,董永权,彭朝晖.基于集成学习和二维关联边条件随机场的Web数据语义标注方法[J].计算机学报,2010,33(2):267-278. 被引量：6
9王权,施韶亭.Web信息抽取技术在统一检索系统中的应用研究[J].计算机应用与软件,2010,27(10):120-122. 被引量：7
10张鑫,陈梅,王翰虎,王嫣然.基于视觉特征和领域本体的Web信息抽取[J].计算机技术与发展,2011,21(2):58-61. 被引量：5

引证文献5

1何云钢,曹宝香.基于DOM树和DBSCAN算法的Web信息提取[J].电子技术（上海）,2015,42(6):88-92. 被引量：1
2刘华春,王星捷.网络舆情信息提取技术研究与实现[J].计算机技术与发展,2016,26(9):8-11. 被引量：4
3詹沐清.基于陶瓷类电子商务网站的Web信息抽取系统的研究[J].电脑知识与技术,2014,10(8X):5799-5802.
4洪鸿辉,丁世涛,黄傲,郭致远.基于文本及符号密度的网页正文提取方法[J].电子设计工程,2019,27(8):133-137. 被引量：1
5杨大为,王诗念,包立岩,要虹吏,刘畅.基于文本及HTML标签密度的网页正文提取[J].沈阳理工大学学报,2022,41(4):14-19. 被引量：1

二级引证文献7

1肖慧华.政府网络舆情监测系统的功能分析[J].科技广场,2017(3):51-54. 被引量：1
2刘高军,印佳明.基于图书特征及词典的豆瓣图书垃圾评论识别[J].计算机技术与发展,2019,29(11):107-112. 被引量：1
3杨大为,王诗念,包立岩,要虹吏,刘畅.基于文本及HTML标签密度的网页正文提取[J].沈阳理工大学学报,2022,41(4):14-19. 被引量：1
4柏志安,廖健,曾剑平.基于DOM树与模板的自适应网络信息抽取方法[J].计算机应用与软件,2022,39(8):15-20. 被引量：2
5宋宇.基于Swing的HTML解析器的实现与应用[J].科技资讯,2024,22(14):43-45.
6陶影辉,道瑶瑶,殷晓靓,张小先.基于Hadoop的舆情分析系统模型研究[J].中国新通信,2019,0(14):167-167. 被引量：1
7童涛,陈平平,刘睿杰.基于Citespace的网络舆情研究知识图谱分析[J].服务科学和管理,2021,10(4):53-61.

1彭文滔,叶飞跃,李霞,员红娟.信息抽取中基于DOM树的过滤器方法的研究[J].微计算机信息,2008,24(30):217-219. 被引量：4
2朱青,吕晓旭.基于机器学习的HTML标题抽取[J].微计算机信息,2010,26(9):15-16. 被引量：4
3吴敏纲,詹沐清.Web信息抽取技术在景德镇旅游电子商务中的应用[J].信息与电脑（理论版）,2014,0(10):134-135.
4卢远征,叶晓彤.XML的DOM树结构在WEB挖掘中的应用[J].四川理工学院学报（自然科学版）,2013,26(3):64-67. 被引量：2
5李朝,彭宏,叶苏南,张欢,杨亲遥.基于DOM树的可适应性Web信息抽取[J].计算机科学,2009,36(7):202-203. 被引量：16
6田泽轶,彭设强,吴志勇.基于DOM结构的分布式IE浏览器漏洞挖掘探究[J].电子测试,2014,25(10):31-32.
7周源远,王继成,郑刚,张福炎.Web页面清洗技术的研究与实现[J].计算机工程,2002,28(9):48-50. 被引量：20
8梁党卫,彭文滔,边利亚.垂直搜索引擎中过滤器的设计与实现[J].计算机应用与软件,2009,26(12):148-151. 被引量：2
9沈娜.基于WEB新闻内容的信息抽取方法研究[J].江西科技学院学报,2015,10(3):25-29.
10黄武冠,朱明,尹文科.基于DOM树和视觉特征的网页信息自动抽取[J].计算机工程,2013,39(10):309-312. 被引量：6

计算机应用与软件

2013年第12期

浏览历史

内容加载中请稍等...

基于互信息度量的Web信息抽取被引量：5

参考文献11

二级参考文献38

共引文献109

同被引文献35

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于互信息度量的Web信息抽取 被引量：5

参考文献11

二级参考文献38

共引文献109

同被引文献35

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于互信息度量的Web信息抽取被引量：5