基于Web的新闻信息抽取被引量：11

News Information Extraction for Web Resource

下载PDF

导出

摘要随着互联网的普及,信息技术的发展,形成了大量的新闻信息资源。从海量的新闻信息中抽取出有用的资源,是当前迫切需要解决的问题。该文在分析新闻网页结构的基础上,结合了基于DOM的结构抽取和基于文本特征模式抽取两种处理技术的优点,提出了基于Web新闻网页的半自动化抽取技术,自动下载了有用的Web页面,抽取了所需的新闻信息。最后,该文描述了一个面向奥运新闻的信息抽取系统,并给出了该系统的实验结果。 With the widespread use of Internet and the development of information technology, there are a tremendous amount of news information resource. The ability to quickly obtain useful resource from the huge news information is a crucial problem at present, Based on the analysis of news information, this paper introduces an approach of semi automatically extracting from Web resource. Moreover, it gives the system which extracts useful Olympic news information and experiment results of it.

作者朱永盛武港山

机构地区南京大学计算机软件新技术国家重点实验室南京大学计算机科学与技术系

出处《计算机工程》 CAS CSCD 北大核心 2006年第10期74-76,共3页 Computer Engineering

基金国家"863"计划基金资助项目(2002AA117010-10)

关键词信息抽取包装器 DOM 抽取规则 Information extraction Wrapper DOM Extraction rule

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Muslea I.Extraction Patterns for Information Extraction Tasks:A Survey[C].AAAI-99 Workshop on Machine Learning for Information Extraction,1999.
2李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101
3Eikvil L.Information Extraction from World Wide Web-A Survey[R].Norwegian Computer Center,Tech.Rep:945,1999-07.
4World Wide Web Consortium:The Document Object Model[EB/OL].http://www.w3.org/DOM,2004.
5Chang Chiahui,Lui Shaochen.IEPAD:Information Extraction Based on Pattern Discovery[C].Proceedings of the Tenth International Conference on World Wide Web,Hong Kong,2001-05.

二级参考文献17

1Florescu D, Levy A Y, Mendelzon A. Database techniques for the World-Wide Web: A Survery. In: ACM The SIGMOD Record, 1998.59-74
2Atzeni P, Mecca G, Merialdo P. To weave the Web. In: Proc the 23rd International Conference on Very Large Data Bases. Athens, Greece, 1997. 206-215
3Pemberton S et al. XHTML 1.0: The extensible hyperText markup language. In: http://www.w3.org/MarkUp/
4Cattell R G G. The Object Database Standard ODMG-93. San Mateo,California: Morgan Kaufmann Publishers,1994
5Mitchell T. Machine Learning. New York: McGraw Hill, 1997
6Wall L et al. Programming Perl(3rd Edition). O'Reilly & Associates,2000
7Birbeck M et al. Professional XML. Wrox Press Inc, 2000
8Liu L, Pu C, Han W. XWRAP: An XML-enabled wrapper construction system for web information sources. In: Proc International Conference on Data Engineering (ICDE), San diego, California, 2000. 611-621
9Chamberlin D, Robie J, Florescu D. Quilt: An XML query language for heterogeneous data sources. In: Proc International Workshop on the Web and Databases (WebDB'2000), Dallas, Texas, 2000. 53-62
10Sahuguet A, Azavant F. Building light-weight wrappers for legacy web datasources using w4f. In: Proc International Conference on Very Large Databases, Edinburgh, Scotland, 1999. 738-741

共引文献100

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
5王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
6王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6
7孟宪福,狄慧.基于Agent和XML的Web页面信息抽取研究与设计[J].计算机工程与设计,2004,25(8):1411-1414. 被引量：6
8李向阳,张亚非.一种网上图书信息抽取方法[J].情报学报,2004,23(6):655-660. 被引量：6
9张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量：5
10LIXiang-yang,ZHANGYa-fei,LUJian-jiang,XUBao-wen.A Classification Method for Web Information Extraction[J].Wuhan University Journal of Natural Sciences,2004,9(5):823-827. 被引量：2

同被引文献75

1张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
2胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量：21
3王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
4赫枫龄,左万利.利用超链接信息改进网页爬行器的搜索策略[J].吉林大学学报（信息科学版）,2005,23(1):59-63. 被引量：8
5张丙奇.基于领域知识的个性化推荐算法研究[J].计算机工程,2005,31(21):7-9. 被引量：34
6李彦刚,魏海平,侯兴华.基于HTMLParser的Web信息抽取系统的设计与实现[J].辽宁石油化工大学学报,2006,26(2):83-86. 被引量：8
7王斌,李少波,谢庆生.基于ASP的网络化制造资源智能检索知识库模型设计[J].贵州工业大学学报（自然科学版）,2006,35(2):18-22. 被引量：4
8胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
9宋琦,薛建武.智能检索系统中用户兴趣模型构建技术研究[J].情报杂志,2007,26(1):57-60. 被引量：4
10陈凌晖.基于RSS技术的信息门户个性化信息服务理念与实现[J].现代图书情报技术,2007(1):33-36. 被引量：9

引证文献11

1林昌平,郑皎凌.基于DOM规范的网页分析技术研究[J].成都信息工程学院学报,2007,22(z1):113-117. 被引量：2
2陈天,黄敏.Web信息抽取中的数据交叉定位[J].华南理工大学学报（自然科学版）,2008,36(5):43-47. 被引量：2
3方辉,谭建荣,谭颖,冯毅雄.基于Web的制造信息主动推荐服务研究[J].计算机集成制造系统,2008,14(11):2253-2260. 被引量：10
4张霞亮,陈家骏.基于逻辑行和最大接纳距离的网页正文抽取[J].计算机工程与应用,2009,45(25):125-128. 被引量：5
5胡瑜,王立志.基于HTML结构特征的网页信息提取[J].辽宁石油化工大学学报,2009,29(3):65-69. 被引量：5
6李烯,徐朝军.基于分块和统计相结合的新闻正文抽取[J].情报理论与实践,2010,33(1):117-120. 被引量：4
7姜子进,吐尔根.依布拉音,赛依旦.阿不力米提,田生伟.Web环境下自动获取汉、维语料库[J].计算机应用与软件,2011,28(12):19-21. 被引量：1
8梁正友,欧杰,俞闽敏.基于图文有效信息量的网页正文定位[J].计算机工程,2011,37(23):276-278. 被引量：2
9王孟頔,邰泳,薛安荣.基于Hadoop平台的人才发现与推荐系统研究[J].软件导刊,2014,13(1):4-6. 被引量：5
10沈娜.基于WEB新闻内容的信息抽取方法研究[J].江西科技学院学报,2015,10(3):25-29.

二级引证文献36

1许应成,王理,夏国平,高辉.基于Web的心墙堆石坝仿真系统建模与应用研究[J].计算机工程与应用,2010,46(30):199-204. 被引量：3
2柳刚,吴德萍.Web Proxy在高校图书馆数字资源中的应用[J].电脑编程技巧与维护,2010(22):100-102.
3夏天.基于扩展标记树的网页正文抽取[J].广西师范大学学报（自然科学版）,2011,29(1):133-137. 被引量：2
4夏天.Web数据的深度定向采集[J].山东大学学报（理学版）,2011,46(5):34-38. 被引量：1
5王存昕,蒋文蓉.针对淘宝商家客户管理系统的研究与开发[J].上海第二工业大学学报,2011,28(2):165-170. 被引量：2
6柳永念,钟诚,焦小焦.基于单元识别的网页信息抽取方法[J].广西大学学报（自然科学版）,2011,36(5):787-791. 被引量：1
7赵晓峰,凌天斌,彭波,王转妮.一种基于网页源文件的信息提取算法[J].计算机与现代化,2012(2):38-39. 被引量：1
8蔡李,单艳,薛化建,苏国平.维吾尔文网页正文抽取系统的研究与实现[J].计算机工程与设计,2012,33(2):551-555. 被引量：3
9屈武江.基于网页数据抽取技术的图书著录系统设计与实现[J].辽宁师专学报（自然科学版）,2012,14(2):45-48.
10黄昱阳,李慧伦.基于XML的Web信息数据库的建立[J].计算机与现代化,2012(9):222-224.

1张成琳.新闻客户端的社交化传播策略分析[J].西部广播电视,2016,37(10):1-2. 被引量：2
2郭威.基于Web应用结构抽取技术研究[J].信息与电脑（理论版）,2011(9):113-115.
3王亮.基于XML异构数据库数据转换技术的研究[J].信息安全与技术,2012,3(8):77-79. 被引量：1
4刘继红,吴军华,任明鑫.基于改进的网络蜘蛛算法抽取Web站点结构的方法[J].江南大学学报（自然科学版）,2009,8(5):555-559. 被引量：5
5葛晓玢,刘杰,崔健.基于版权信息的新闻网页去重策略研究[J].电脑知识与技术（过刊）,2012,18(9X):6211-6214. 被引量：1
6孙霞,程宏斌.基于加权层次结构的XML文档相似度算法[J].武汉理工大学学报,2009,31(18):76-79. 被引量：1
7一啸倾城.今夜无眠我和奥运有个约会[J].电脑迷,2012(8S):46-47.
8冯雁,王申康.Web站点层次结构抽取算法的分析和实现[J].浙江大学学报（工学版）,2005,39(10):1507-1511. 被引量：3
9猛小蛇.秋日传奇[J].计算机应用文摘,2000(11):5-5.
10卢晓蓉,陈传波,李兵.基于XML的多数据库系统集成数据模型[J].华中科技大学学报（自然科学版）,2002,30(8):18-20. 被引量：3

计算机工程

2006年第10期

浏览历史

内容加载中请稍等...

基于Web的新闻信息抽取被引量：11

参考文献5

二级参考文献17

共引文献100

同被引文献75

引证文献11

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于Web的新闻信息抽取 被引量：11

参考文献5

二级参考文献17

共引文献100

同被引文献75

引证文献11

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于Web的新闻信息抽取被引量：11