网页文本信息提取及结果评价被引量：10

Web Page Text Information Extraction and Result Estimation

下载PDF

导出

摘要由于HTML本身在自描述上的缺陷,网页信息中不可避免地存在大量的噪音信息。文章在分析了网页的HTML文档结构和噪音类型的基础上,给出了网页文本信息提取、对噪声抑制的方法,以及实现的过程。并尝试性地使用信噪比的概念作为评判文本信息提取去噪结果优劣的依据,实验结果显示,抽取去噪效果明显;同时实验表明,信噪比可以作为网页信息去噪结果优劣的评判标准。 Because of the limitation of HTML in self- description, Web pages contain lots of noised information. This article analyses the construct of HTML document and the type of noises, provides the news information exacting and noises restrain method, and the process of realization. This article also attempts to use SNR （ Signal - to - Noise Ratio） to estimate the quality of re - noise result. The experiment indicates that SNR can be used as the judgment standard of the quality of de - noising results.

作者张恒屈景辉张亮

机构地区第四军医大学生物医学工程系计算机教研室

出处《微计算机应用》 2007年第9期921-924,共4页 Microcomputer Applications

关键词信噪比信息提取网页去噪 Signal - to - noise Ratio, Information Extraction, Web de - noising

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Yi Lan,Liu Bing,Li Xiao-li.Eliminating noisy information in Web pages for data mining.Proceeding of the 8th ACM SIG XDD International Conference on Knowledge Discovery and Data Mining.Washington DC; ACM Press,2003,296 - 305
2常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
3于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
4荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
5吕铁强,于满泉,孟庆发,周立德.基于网页分块的个性化信息采集的研究与设计[J].微电子学与计算机,2005,22(10):120-123. 被引量：10
6欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
7王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81

二级参考文献44

1荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4[1]Lin Shian-hua, Ho Jan-ming. Discovering informative content blocks from Web documents [A]. Proceeding of the 8th ACM SIG KDD International Conference on Knowledge Discovery and Data Mining [C]. Edmonton :ACM Press,2002.588 - 593.
5[2]Yi Lan,Liu Bing, Li Xiao-li. Eliminating noisy information in Web pages for data mining [A]. Proceeding of the 8th ACM SIG KDD International Conference on Knowledge Discovery and Data Mining [C]. Washington, DC: ACM Press ,2003. 296 - 305.
6[3]Kovacevic Milos, Dilligenti Michelangelo, Gori Marco,et al. Recognition of common areas in a Web page using a visualization approach [A]. Proceeding of the 10th International Conference on Artificial Intelligence: Methodology, Systems, Applications [C]. Varna: Springer,2002.203 - 212.
7[4]Gupta Suhit, Kaiser Gail E, Neistadt David. et al. DOMbased content extraction of HTML documents [A].Proce-eding of the 12th International World Wide Web Conference [C]. Budapest: ACM Press ,2003. 207 - 214.
8[5]Cai Deng, Yu Shi-peng, Wen Ji-rong, et al. Extracting content structure for Web pages Based on visual representation [A]. Proceeding of the 6th Asia Pacific Web Conference [C]. Xian: Springer,2003. 406 - 417.
9O Buyukkokten, H Garcia-Molina, A Paepcke. Accordion summarization for end-game browsing on PDAs and cellular phones. In: Proc of ACM Conf on Human Factors in Computing Systems(CHI 2001). New York: ACM Press, 2001. 213～220
10Wang Tengjiao, Tang Shiwei, Yang Dongqing, et al. COMIIX:Towards effective WEB information extraction, integration and query answering. In: Proc of SIGMOD' 02. New York: ACM Press, 2002. 620

共引文献219

1赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
4孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
5郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
6郑志材,张晶.基于JAVA的网络蜘蛛的设计与实现[J].硅谷,2009,2(14):46-47.
7贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
8陈雪,徐慧,沈家峻.基于网页结构的网页去噪算法设计[J].软件,2013,34(8):95-97. 被引量：1
9胡飞.基于标记树的Web页面区域划分和搜索方法[J].计算机科学,2005,32(8):182-185. 被引量：7
10张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1

同被引文献103

1封化民,刘飚,刘艳敏,方勇,宋国森.含有位置坐标树的Web页面分析和内容提取框架[J].清华大学学报（自然科学版）,2005,45(S1):1767-1771. 被引量：8
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
4张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
5于磊,潘郁.智能学习型网络机器人[J].计算机工程,2004,30(13):135-137. 被引量：3
6陆勇,侯汉清.用于信息检索的同义词自动识别及其进展[J].南京农业大学学报（社会科学版）,2004,4(3):87-93. 被引量：25
7王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
8王树西.问答系统:核心技术、发展趋势[J].计算机工程与应用,2005,41(18):1-3. 被引量：28
9戴文华,焦翠珍,徐斌.基于统计的自然语言处理模型[J].咸宁学院学报,2005,25(3):79-82. 被引量：3
10许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15

引证文献10

1李伟通,皮德常.基于统计学习的自然语言对话系统的设计与实现[J].微计算机应用,2008,29(7):38-46.
2何普亮.多媒体课件自动生成系统的设计与实现[J].软件导刊.教育技术,2008,7(10):89-91. 被引量：1
3行情[J].现代计算机（中旬刊）,2010(2):81-84.
4毛先领,何靖,闫宏飞.网页去噪:研究综述[J].计算机研究与发展,2010,47(12):2025-2036. 被引量：18
5孙楠,张华伟.一种新的用于数据挖掘工具的网页净化算法[J].郑州轻工业学院学报（自然科学版）,2011,26(3):85-87.
6刘畅.网络中的搜索引擎关键技术探析[J].煤炭技术,2013,32(7):206-208. 被引量：1
7郭馨,高金行,武勋.基于Qrobot机器人的彩票服务软件系统[J].计算机系统应用,2013,22(11):42-46.
8马凯凯,钱亚赫,阮东跃.基于文本频率页面分割算法对论坛正文提取[J].中国水运（下半月）,2018,18(2):78-79.
9于丽.文本分类技术在陶瓷行业中的应用[J].现代计算机,2010,16(7X):60-63. 被引量：1
10王晓,罗永莲.基于决策树与单元距离抽取新闻网页内容[J].晋中学院学报,2019,36(3):66-71.

二级引证文献21

1徐慧,窦子辉,杨林,陈雪.面向终端用户的网页过滤模板动态生成技术研究[J].计算机科学,2012,39(S2):90-93. 被引量：2
2朱从旭.一种集成式多功能计算机辅助教学系统的设计与实现[J].软件导刊,2010,9(2):193-195. 被引量：1
3郭淼霞.网页分类中的数据预处理方法研究[J].莆田学院学报,2011,18(5):82-86.
4郭淼霞.中文网页分类研究综述[J].赤峰学院学报（自然科学版）,2011,27(12):51-53.
5干文敏,李俊,李剑.一种基于单模型的网页净化方法[J].计算机与现代化,2012(2):128-130.
6许鑫,郭金龙,姚占雷.基于Web文本挖掘的行业态势分析——以2011上海车展为例[J].图书情报工作,2012,56(16):25-31. 被引量：4
7杨晓娟,廖晨辉.一种两阶段的多媒体教育资源网页消重方法[J].现代教育技术,2012,22(9):93-96.
8薛永大.网页分类技术研究综述[J].电脑知识与技术,2012,8(9):5958-5961. 被引量：2
9罗钊航,李旭伟.基于搜索结果的聚类算法[J].计算机与现代化,2012(11):35-38.
10熊志斌,王冬,尹成国.舆情监测技术及应用综述[J].软件,2012,33(12):322-326. 被引量：2

1朱红军,马秀峰.面向文本的信息提取概述[J].商情（科学教育家）,2008,0(3):45-45. 被引量：1
2杨利艳.CAD图纸文本信息提取与处理技术研究[J].消费电子,2014(12):160-160.
3唐思源,高琦,邢俊凤.一种基于角点与BP神经网络的文本检测及定位算法[J].现代电子技术,2016,39(4):112-115. 被引量：1
4周必水,郦泓.用Java实现基于向量空间的搜索引擎优化[J].计算机应用研究,2003,20(2):150-153.
5江延湖,白似雪.复杂背景图像文本信息提取技术研究[J].江西教育学院学报,2008(3):18-21.
6李东勤,徐勇.自然场景图像中的文本信息提取研究[J].黑龙江科技信息,2015(36):131-133.
7胡辉,胡松,陈伽,蔡映雪,陈军,蔡昭权.自然场景文本信息提取关键技术探究[J].电子制作,2016,24(07X):70-71.
8胡健,陆一鸣,马范援.基于HTML文档结构的向量空间模型的改进[J].情报学报,2005,24(4):433-437. 被引量：10
9朱逢春.基于DOM树的网页去噪技术[J].电子制作,2015,23(8Z). 被引量：1
10王达伟,曹俊兴.一种基于噪音类型估计的端点检测系统[J].计算机工程与应用,2005,41(19):87-89. 被引量：1

微计算机应用

2007年第9期

浏览历史

内容加载中请稍等...

网页文本信息提取及结果评价被引量：10

参考文献7

二级参考文献44

共引文献219

同被引文献103

引证文献10

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

网页文本信息提取及结果评价 被引量：10

参考文献7

二级参考文献44

共引文献219

同被引文献103

引证文献10

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

网页文本信息提取及结果评价被引量：10