一种无改写的正则表达式分析树构造算法被引量：2

AN ALGORITHM FOR CREATING REGULAR EXPRESSION PARSE TREES WITHOUT REWRITING

下载PDF

导出

摘要数据抽取常用正则表达式(RE)来描述数据源。为实现可视化描述,需将RE转换成分析树。但现有基于改写的RE分析树构造方法会破坏数据对象的内在结构,不能用于数据抽取问题。提出了一种无改写的RE分析树构造算法。实验表明,该算法在时空间性能和实用性等方面优于现有RE分析树构造算法。 Data extraction often applies regular expressions （REs） to describe data sources. In order to visualize the description, REs must be converted into parse trees. However, as the present methods for creating rewriting-based RE parse trees will destroy the inner structure of data objects,they are not fit for data extraction An algorithm for creating RE parse trees without rewriting is proposed. Experiments show that the algorithm outperforms the present counterparts not only in time and space behaviors, but also in practicality.

作者邓绪斌

机构地区浙江财经学院信息学院

出处《计算机应用与软件》 CSCD 北大核心 2007年第12期65-66,84,共3页 Computer Applications and Software

基金浙江省教育厅项目:高自动化Web信息抽取工具研究(20060144)

关键词正则表达武分析树数据抽取改写 Regular expression Parse tree Data extraction Rewriting

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1邓绪斌,朱扬勇.ReDE:一个基于正则表达式的生物数据抽取方法[J].计算机研究与发展,2005,42(12):2184-2191. 被引量：8
2邓绪斌,朱扬勇.L-Tree Match： A New Data Extraction Model and Algorithm for Huge Text Stream with Noises[J].Journal of Computer Science & Technology,2005,20(6):763-773. 被引量：4

二级参考文献22

1胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量：21
2Meng X F, Lu H J, Wang H Yet al. Data extraction from the web based on pre-defined schema. Journal of Computer Science and Technology, 2002, 17(4): 377-388.
3Embley D W, Jiang Y, Ng Y K. kecord-boundary discovery in web documents. In Proc. 1999 ACM SIGMOD Int. Conf.Management of Data ( SIGMOD'99), Philadelphia, Pennsylvania, USA, June 1-3, 1999, pp.467-478.
4Yamada Y, Ikeda D, Hirokawa S. Automatic wrapper generation for multilingual web resources. In Proc. 5th Int. Conf.Discovery Science (DS'02), Liibeck, Germany, November 24-26, 2002, pp.332-339.
5Frisch A, Cardelli L. Greedy regular expression matching. In Proc. POPL '04 Workshop on Programming Languages Technologies for XML (PLAN-X'04), Venice, Italy, January 13,2004, pp.1-12.
6Schwinn A, Schelp J. Data integration patterns. In Proc. 6th Int. Conf. Business Information Systems ( BIS'03), Colorado Springs, Colorado, USA, June 4-6, 2003, pp.232-238.
7Laend-er A, Ribeiro-Neto B, da silva A. DEByE: Data extraction by example. Data and Knowledge Engineering, 2002,40(2): 121-154.
8Adelberg B. NoDoSE: A tool for semi-automatically extracting structured and semistructured data from text documents.In Proc. 1998 ACM SIGMOD Int. Conf. Management of Data (SIGMOD'98), Seattle, Washington, USA, June 2-4,1998, pp.283-294.
9Arasu-A, Garcia-Molina H. Extracting structured data from web pages. In Proc. 2003 ACM SIGMOD Int. Conf. Management of Data (SIGMOD'03), San Diego, California, USA,June 10-12, 2003, pp.337-348.
10Crescenzi V, Mecca G, Merialdo P. RoadRunner: Towards automatic data extraction from large web sites. In Proc. 27th Int. Conf. Very Large Data Bases ( VLDB'01), Roma, Italy,September 11-14, 2001, pp.109-118.

共引文献9

1朱扬勇,熊赟.DNA序列数据挖掘技术[J].软件学报,2007,18(11):2766-2781. 被引量：37
2刘玉葆,蔡嘉荣,印鉴,傅蔚慈.Clustering Text Data Streams[J].Journal of Computer Science & Technology,2008,23(1):112-128. 被引量：7
3宋友,梁士兴,黄璐.通用文本处理方法的研究与设计[J].计算机工程,2010,36(6):1-4. 被引量：3
4姚振军,黄德根,纪翔宇.正则表达式在汉英对照中国文化术语抽取中应用[J].大连理工大学学报,2010,50(2):291-295. 被引量：9
5许光,黄宏志,刘娜.正则表达式在Web数据验证中的优化机制研究[J].计算机与数字工程,2011,39(4):50-52. 被引量：1
6杨雨,胡亚娟,林萍.正则表达式在英语语调统计分析中的应用研究[J].平顶山学院学报,2013,28(5):75-83.
7杨雨,王文虎,胡亚娟,林萍.中原地区英语语调统计分析系统设计与实现[J].计算机与数字工程,2013,41(12):1928-1931.
8周兴旺.正则表达式中的与或非解析[J].计算机光盘软件与应用,2014,17(18):63-63.
9SUN Wei.A feature representation method for biomedical scientific data based on composite text description[J].Chinese Journal of Library and Information Science,2009(4):43-53.

同被引文献4

1孟岩.理解正则表达式(上)[J].程序员,2007(3):48-49. 被引量：2
2汪永好.表达式解析器在工作流管理系统中的应用[J].计算机工程与设计,2007,28(12):3020-3022. 被引量：4
3[美]RobertC.Martin敏捷软件开发:原则、模式于实践[M].邓辉译.北京:清华大学出版社,2003:238-242.
4曹京,谭建龙,刘萍,郭莉.布尔表达式匹配问题研究[J].计算机应用研究,2007,24(9):70-72. 被引量：5

引证文献2

1黄国贤,周喜.文本模式的结构化描述法[J].福建电脑,2008,24(11):88-89.
2孙高飞,王瑞平.面向对象的表达式解析算法框架研究与实现[J].现代计算机,2009,15(10):151-155. 被引量：1

二级引证文献1

1何华,商临峰.数学表达式遥测工程参数解析系统实现[J].飞行器测控学报,2013,32(2):127-131. 被引量：2

1李立志.正则表达在有效性验证中的应用（下）[J].电脑高手,2001(12):91-92.
2王志佳,顾健.一种改进的自动机压缩算法在深度包检测中的应用[J].信息网络安全,2010(10):76-78. 被引量：2
3李立志.正则表达在有效性验证中的应用（中）[J].电脑高手,2001(11):91-92.
4李立志.正则表达在有效性验证中的应用（上）[J].电脑界（电脑高手）,2001(10):97-98.
5王红伟,程学军.剖析C#正则表达式[J].科技风,2009(7). 被引量：2
6徐安令.正则表达式的应用研究[J].数字技术与应用,2016,34(5):68-68. 被引量：8
7陈曦,奚红宇.Ada语言重载的分析和处理[J].北京航空航天大学学报,1997,23(1):41-45.
8马岚,王厚军.使用表达式分析的通用故障诊断系统设计与实现[J].中国测试技术,2006,32(2):29-32. 被引量：1
9吴晨.一种基于Storm及Hadoop的海量日志安全分析系统[J].西安邮电大学学报,2016,21(2):119-126. 被引量：1
10钱勇,李训根.基于迁移边减少DFA压缩算法[J].电子世界,2014(22):400-401.

计算机应用与软件

2007年第12期

浏览历史

内容加载中请稍等...

一种无改写的正则表达式分析树构造算法被引量：2

参考文献2

二级参考文献22

共引文献9

同被引文献4

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种无改写的正则表达式分析树构造算法 被引量：2

参考文献2

二级参考文献22

共引文献9

同被引文献4

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种无改写的正则表达式分析树构造算法被引量：2