归纳学习XPATH Web信息提取规则被引量：7

Inductively Learn XPATH Web Information Extraction Rules

下载PDF

导出

摘要 XPATH在Web信息提取中起重要作用,但是这些XPATH规则通常要人工生成。文中讨论了在XPATH与基于文本上下文规则的信息提取方法结合的系统中如何归纳学习XPATH规则。生成的XPATH规则结构简单,可以为基于文本上下文的信息提取系统提供较为准确的信息定位。 XPATH plays an important role in Web information extraction, but these XPATH rules usually generated by hand. Discusses about how to inductively learn XPATH rules used in an XPATH and text - context - based rules combined infomlation extraction system. The generated rules have simple structure, and they can support as an accurate locator for text- context- based informstation extraction system.

作者郭太飞何洁月

机构地区东南大学计算机科学与工程学院

出处《计算机技术与发展》 2007年第3期98-101,共4页 Computer Technology and Development

基金江苏省高技术研究计划(G2004034)

关键词信息提取系统 XPPATH 归纳 information extraction systems XPATH induction

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1Sahuguet A,Azavant F.Building Light-Weight Wrappers for Legacy Web Data-Sources Using W4F[C]∥Proceedings of the 25th International Conference on Very Large Data Bases VLDB '99.[s.l.]:Morgan Kaufmann Publishers Inc,1999:738-741.
2Liu Ling,Pu Calton,Han Wei.XWRAP:An XML-enabled Wrapper Construction System for WEB Information Source[C]∥Data Engineering,2000.Proceedings.16th International Conference.[s.l.]:[s.n.],2000:611-621.
3Bauamgartner R,Flesrs S,Gottlob G.Visual Web information Extraction with Lixto[C]∥Proceedings of the 27th International Conference on Very Large Data Bases VLDB'01.[s.1.]:Morgan Kaufmann Publishers Inc,2001:119-128.
4Freitag D.Machine Learning for information extraction in informal domains[J].Machine Learning,2000,39 (2-3):169-202.
5Califf M E,Mooney R J.Relational Learning of Pattern -Match Rules for Information Extraction[C]∥In:Proc.of the Sixteenth National Conf,on Artificial Intelligence and Eleventh Conference on Innovative Applications of Artificial Intelligence.Orlando,Florida:[s.n.],1999:328-334.
6SoderLan S.Learning Informatin Extraction Rules for Semi -Structured and Free Text[J].Machine Learning,1999,34(1-3):233-272.
7俞巍.XPath的两种解析技术[J].计算机时代,2006(1):49-51. 被引量：1
8张昱,付雄.含XPath的表达式的解析与应用[J].小型微型计算机系统,2004,25(3):442-446. 被引量：2
9王钊,耿蓉,王国仁.XPath的轴连接查询技术研究[J].小型微型计算机系统,2005,26(11):1942-1947. 被引量：2
10王强,武港山.对XPath模式定位能力的扩充[J].计算机研究与发展,2001,38(6):674-678. 被引量：4

二级参考文献22

1[1]Tim Bray, Jean Paoli, C M Sperberg-McQueen. Extensible Markup Language(XML), version 1.0, 1998. http://www.w3.org/TR/1998/REC-xml-19980210
2[2]James Clark, Steve DeRose. XML Path Language(XPath), version 1.0, 1999. http://www.w3.org/TR/1999/REC-xpath-19991116
3[3]DeRose, Steven J. XQuery: A unified syntax for linking and querying general XML documents. In: Proc of QL'98—The Query Languages Workshop. Boston: World Wide Web Consortium, 1998
4[4]Derick Wood. Theory of Computation. New York: Harper & Row Publishers Inc, 1987
5[5]Hartmut Liefke. Horizontal query optimization on ordered semistructured data. In: WebDB'99. 1999. http://citeseer.nj.nec.com/246796.html
6[2]Aaron Skonnard.XML精要快速参考手册.人民邮电出版社,2002.
7[3]http://java.sun.com/j2se/1.5.0/docs/api/javax/xml/xpath/package-summary.html.2004.
8[4]http://www.jdom.org/docs/apidocs/org/jdom/xpath/XPath.html.2004.
9XML Path Language (XPath) 2.0. November 2002. W3C Recommendation[EB/OL]. Available at http://www.w3.org/TR/2002/WD-xpath20-20021115.
10Abiteboul S, Quass D, McHugh J et al. The lorel query language for semistructured data[J]. International Journal on Digital Libraries, 1997,1(1): 68-88.

共引文献5

1陈华竣,郑智,倪德明.真前缀标记树——一种面向用户的子树选取策略表示方法[J].计算机技术与发展,2006,16(12):9-12. 被引量：1
2周健,孙丽艳.用JavaCC和JJTree构造扩展模式文档解析器[J].计算机技术与发展,2008,18(9):87-90. 被引量：2
3陈华竣.真前缀标记树在子树选取策略中的应用[J].广东技术师范学院学报,2006,27(6):32-34.
4汪万根.XML数据流中的后兄弟查询算法[J].计算机工程,2009,35(8):107-109.
5朱碧颖,赵爽.基于市场情绪挖掘的PSM_Black_Litterman资产配置模型[J].时代金融,2016(18):224-226. 被引量：2

同被引文献50

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
3苏志华,杨冬青,唐世渭,王腾蛟.基于结构分析和实体识别的信息集成[J].计算机研究与发展,2004,41(10):1823-1828. 被引量：5
4高军,杨冬青,唐世渭,王腾蛟.基于树自动机的XPath在XML数据流上的高效执行[J].软件学报,2005,16(2):223-232. 被引量：33
5邹高禄,渠文晋,邓沛,杨东,廖颖,韦玮.二手房价格对于住房特征和区位变化敏感性分析[J].西南师范大学学报（自然科学版）,2005,30(3):552-555. 被引量：9
6王煜,王光明.比较购物现状之研究[J].计算机时代,2005(8):1-2. 被引量：5
7李禹生,周建中.基于HTML的W eb信息元数据提取技术应用[J].武汉工业学院学报,2005,24(4):7-10. 被引量：4
8李晓文,方精云,朴世龙.上海城市土地利用形成、变化及其空间作用机制[J].长江流域资源与环境,2006,15(1):34-40. 被引量：17
9张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
10CORMEN T H. , LEISERSON C E, RONSLD L. 算法导论[M].北京:机械工业出版社,2006:1-8.

引证文献7

1何章鸿,董守斌.基于XPath的广告数据提取研究[J].江西师范大学学报（自然科学版）,2008,32(2):153-156. 被引量：1
2张英.农业Web信息获取系统的研究与设计[J].农业网络信息,2009(8):42-45.
3苏秀芝,楼新远.正则表达式与XML配置文件相结合的数据提取[J].计算机与现代化,2009(9):30-31. 被引量：2
4周合明,奚建清.基于模板的Web信息提取系统的设计与实现[J].计算机技术与发展,2011,21(11):105-108. 被引量：5
5苏金波,叶红.一种基于规则的桌面搜索索引机制[J].电脑知识与技术,2012,8(3):1521-1523.
6王荩梓,赖雯洁.基于房产交易网站的数据获取与在线工具开发[J].计算机技术与发展,2017,27(5):154-159. 被引量：2
7何春辉.一种基于文本相似度的网页新闻标题自动抽取算法[J].湖南城市学院学报（自然科学版）,2019,28(1):58-61. 被引量：2

二级引证文献12

1苏秀芝,楼新远.正则表达式与XML配置文件相结合的数据提取[J].计算机与现代化,2009(9):30-31. 被引量：2
2盛帅,郝改琴.一种基于XML和正则表达式的简单验证框架[J].知识经济,2010(14):122-123.
3黄昱阳,李慧伦.基于XML的Web信息数据库的建立[J].计算机与现代化,2012(9):222-224.
4赵静.高校图书馆搜索引擎中Web使用记录挖掘研究[J].现代电子技术,2013,36(2):1-5. 被引量：2
5成卫青,于静,杨晶,杨龙.基于页面分类的Web信息抽取方法研究[J].计算机技术与发展,2013,23(1):54-58. 被引量：5
6邵振凯.网页信息提取技术[J].计算机技术与发展,2013,23(9):36-38. 被引量：1
7张玲,许亮,姜华.Web采集中信息组合自学习的研究[J].计算机技术与发展,2013,23(11):216-219.
8张汉中,张倩,王斌,周小平,黄继风.上海市商品住房价格分布及其影响因子分析[J].中国市场,2018(2):42-48. 被引量：1
9张汉中,张倩,董起航,周小平,王斌.大数据下基于房屋交易网站的数据获取的二手房价格走势分析——以上海为例[J].科学技术创新,2017(21):142-144.
10方挺立,黄玮,戴霖.MBD模型质量检测系统研发与应用研究[J].机械设计与制造工程,2018,47(6):73-77. 被引量：1

1朱强.基于网络信息提取系统中用户兴趣模型建立的研究[J].科技致富向导,2013(11):23-23.
2赵美艳,王会进,张诗军.WEB数据库XML数据发布及信息提取系统[J].华侨大学学报（自然科学版）,2004,25(3):315-317. 被引量：3
3黄荣.基于模板的网页主题信息抽取模型[J].科技信息,2011(4):250-251. 被引量：1
4张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
5苏秀芝,楼新远.正则表达式与XML配置文件相结合的数据提取[J].计算机与现代化,2009(9):30-31. 被引量：2
6洪辉,刘子敬,李石君,欧伟杰.智能WEB信息提取系统的研究和设计[J].微计算机信息,2005,21(11X):71-74. 被引量：8
7刘松业.正则表达式的Web数据提取研究[J].电脑编程技巧与维护,2008(15):89-91. 被引量：4
8周刚,邬义杰,潘晓弘.STEP-NC数控加工程序信息提取系统的研究[J].计算机集成制造系统,2007,13(10):1985-1990. 被引量：2
9张胜文.柴油机复杂零件CAD图形信息提取系统的研究[J].机械科学与技术,2001,20(4):623-625. 被引量：2
10孙家波,曲杰卿,张超,杨建宇,赵冬玲.基于高分辨率遥感影像的土地利用信息提取系统的设计与实现[J].测绘与空间地理信息,2012,35(11):12-15. 被引量：1

计算机技术与发展

2007年第3期

浏览历史

内容加载中请稍等...

归纳学习XPATH Web信息提取规则被引量：7

参考文献10

二级参考文献22

共引文献5

同被引文献50

引证文献7

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

归纳学习XPATH Web信息提取规则 被引量：7

参考文献10

二级参考文献22

共引文献5

同被引文献50

引证文献7

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

归纳学习XPATH Web信息提取规则被引量：7