基于HMM的Web信息抽取算法的研究与应用被引量：12

Improvement of Web Information Extraction Algorithm Based on HMM

下载PDF

导出

摘要随着因特网技术的迅速发展,网上信息成几何级数增长,如何从这些海量联机非结构化文本中自动抽取出结构化信息成为目前重要的研究课题。研究了基于隐马尔可夫模型的Web信息抽取算法,着重探讨了隐马尔可夫模型在文本信息抽取中应该如何应用,数据应该如何标记,并对隐马尔可夫模型在文本信息抽取中的应用提出了几个改进的方法,建立了基于HMM的Web信息抽取模型,并对信息抽取后的数据进行了分析对比,验证了改进算法的有效性。 With thc development of the Internet technologies,the information on the Internet increases exponentially. One important research focuses on how to extract structured data from these great capacities of online documents in un- structured texts. This thesis mainly studied relative algorithms on Web information extraction based on hidden Markov model（HMM）,discussed how to use HMM and how to mark data in text information extraction, offered several metho- ds to improve the hidden Markov model in information extraction,introduced the establishment of Web information ex traction model based on HMM, Comparatively analysed the output data of information extraction, verified the validity of the algorithm through experiments.

作者祝伟华卢熠刘斌斌

机构地区重庆大学软件学院

出处《计算机科学》 CSCD 北大核心 2010年第2期203-206,共4页 Computer Science

基金国家自然科学基金项目(No.101022820080079)资助

关键词隐马尔可夫模型信息抽取机器学习 HMM, Information extraction,Machine learning

分类号 TP311.56 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1钟敏娟,郝谦,刘云中.基于多模板隐马尔可夫模型的文本信息抽取算法[J].计算机工程,2006,32(2):203-205. 被引量：9
2王雷,陈治平,李志成.基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J].山东大学学报（理学版）,2006,41(3):25-28. 被引量：4
3杜世平,李海.二阶隐马尔可夫模型及其在计算语言学中的应用[J].四川大学学报（自然科学版）,2004,41(2):284-289. 被引量：20
4林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
5钱云涛,谢维信.一种由模糊逻辑神经元网络实现的聚类分析方法[J].西安电子科技大学学报,1995,22(1):1-7. 被引量：12
6Frietag D, McCallum A. Information extraction with HMMs and shrinkage[A]//Proceedings of the AAAI'9 9 Workshop on Machine Learning for Information Extraction[C] . Orlando :AAAI Press, 1999 : 31-36.
7Freitag D, McCallum A. Information extraction with HMM structures learned by stochastic optimization[A] //Proceedings of the Eighteenth Conference on Artificial Intelligenee[C] . Edmonton : AAAI Press, 2002 : 584-589.
8Ray S, Craven M. Representing sentence structure in hidden Markov models for information extraction[A]//Proceedings of the Sev2 enteentb International Joint Conference On Artificial lnte/ligence[C]. Washington: Morgan Kaufmann, 2001: 1273- 1279.
9Scheffer T, Decomain C, Wrobel S. Active hidden Markov models for information extraction[A] //Proceedings of the Fourth International Sym2 posium on Intelligent Data Analysis[C] . Lisbon : Springer, 2001 : 301-309.
10朱征宇,周智,罗颖,李力沛.基于浏览行为量化分析的兴趣网页提取[J].重庆工学院学报（自然科学版）,2009,23(7):79-84. 被引量：5

二级参考文献40

1马亮,陈群秀,蔡莲红.一种改进的自适应文本信息过滤模型[J].计算机研究与发展,2005,42(1):79-84. 被引量：18
2钟茂生.面向用户兴趣的网页信息过滤系统研究[J].科技广场,2004(10):23-24. 被引量：1
3林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
4赵银春,付关友,朱征宇.基于Web浏览内容和行为相结合的用户兴趣挖掘[J].计算机工程,2005,31(12):93-94. 被引量：36
5钱云涛,谢维信.一种由模糊逻辑神经元网络实现的聚类分析方法[J].西安电子科技大学学报,1995,22(1):1-7. 被引量：12
6何颖.基于用户浏览行为挖掘的网站个性化推荐系统.电脑知识与技术,2007,(12):528-529.
7S Lawrence,L Giles,K Bollacker.Digital libraries and autonomous citation indexing[J].IEEE Computer,1999,32(6):67-71.
8E Riloff,R Jones.Learning dictionaries for information extraction by multi-level bootstrapping[A].Proceedings of the Sixteenth National Conference on Artificial Intelligence[C].Orlando:AAAI Press,1999.811-816.
9Kushmerick N.Wrapper induction:Efficiency and expressiveness[J].Artificial Intelligence,2000,118(12):15-68.
10Kristie Seymore,Andrew McCallum,Ronal Rosenfel.Learning hidden Markov model structure for information extraction[A].Proceedings of the AAAI'99 Workshop on Machine Learning for Information Extraction[C].Orlando:AAAI Press,1999.37-42.

共引文献88

1孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：5
2张雪英,闾国年,叶鹏.大数据地理信息系统:框架、技术与挑战[J].现代测绘,2020(6):1-8. 被引量：8
3贾钰峰,章蓬伟,邵小青,张玉茜.印刷维吾尔文识别后处理[J].智能计算机与应用,2020(4):239-242.
4缪嘉嘉,李爱平,贾焰,吴泉源.信息集成中数据获取关键技术的研究[J].计算机研究与发展,2007,44(z3):452-457.
5姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：68
6钟敏娟,郝谦,刘云中.基于多模板隐马尔可夫模型的文本信息抽取算法[J].计算机工程,2006,32(2):203-205. 被引量：9
7杜世平.混合二阶隐马尔可夫模型的Baum-Welch算法[J].云南大学学报（自然科学版）,2006,28(2):98-102. 被引量：5
8杜世平,陈涛.与观测信息相关的二阶隐马尔可夫模型的参数估计[J].西南师范大学学报（自然科学版）,2006,31(3):24-27. 被引量：4
9王雷,陈治平,李志成.基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J].山东大学学报（理学版）,2006,41(3):25-28. 被引量：4
10杜世平.对经典隐马尔可夫模型学习算法的改进[J].高等数学研究,2006,9(4):58-60. 被引量：2

同被引文献107

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
3林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
4何明,冯博琴,马兆丰,傅向华.一种基于遗传算法的Rough集多知识抽取方法[J].小型微型计算机系统,2005,26(4):651-654. 被引量：2
5张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
6刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
7黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
8刘迁,焦慧,贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究,2007,24(7):6-9. 被引量：41
9DALVI N, BOHANNON P, SHA F. An approach based on a probabilistic tree-Edit model [A]. Proceedings of the 35th SIGMOD International Conference on Management of Data (SIGMOD'09)[C]. New York : ACM Press,2009:335-348.
10Wang Jiying, FRED H. LOCHOVSKY.Data-rich section extraction from HTML pages [A]. Proc 3rd International Conference on Web Information System Engineering (WISE' 02)[C].Singapore : IEEE Computer Society Press, 2002: 1-10.

引证文献12

1朱梦麟,李光耀,周毅敏.基于树比较的Web页面主题信息抽取[J].微型机与应用,2011,30(19):67-69.
2李荣,胡志军,郑家恒.基于遗传算法和隐马尔可夫模型的Web信息抽取的改进[J].计算机科学,2012,39(3):196-199. 被引量：8
3邹丽娜,凌捷.一种基于特征提取的二级文本分类方法[J].广东工业大学学报,2012,29(4):65-68. 被引量：1
4白晓雷,黄广君,段建辉.一种基于BP神经网络的关键词抽取方法[J].合肥工业大学学报（自然科学版）,2014,37(7):808-811. 被引量：4
5李嘉,徐前,王梓,陈钊.基于语义的林产品贸易Web信息抽取算法[J].计算机工程与应用,2014,50(19):199-204. 被引量：1
6曾凡涛.基于信息抽取技术的中大布市导购助手的设计与实现[J].广东轻工职业技术学院学报,2015,14(3):1-4.
7薛安荣,王丹,黄祖卫.基于CSS模板的职位信息并行抽取系统设计[J].电子科技,2016,29(10):93-96. 被引量：1
8王玉娇,耿思,李宁.东巴古籍资源的数字化及数据管理[J].电子测量与仪器学报,2017,31(4):636-643. 被引量：6
9温雯,伍思杰,蔡瑞初,郝志峰.面向专业文献知识实体类型的抽取和标注[J].中文信息学报,2018,32(1):102-115. 被引量：5
10付华炉,马豫超.不同寿命下变流器的故障诊断综述[J].新一代信息技术,2019,2(8):39-47.

二级引证文献35

1陈平,匡尧,陈婧.基于BERT-wwm-ext多特征文本表示的经济事件主体抽取方法研究[J].武汉电力职业技术学院学报,2020(2):45-50. 被引量：1
2李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
3李伟男,李书琴,景旭,魏露,李新乐.基于模拟退火算法和二阶HMM的Web信息抽取[J].计算机工程与设计,2014,35(4):1264-1268. 被引量：7
4王吉发,郭楠,蒋亚朋.企业转型因子的识别方法研究[J].华东经济管理,2014,28(7):121-125. 被引量：13
5王勇,许钟涛,王瑛.大数据环境下竞争情报系统的研究与实现[J].广东工业大学学报,2014,31(3):27-31. 被引量：9
6刘志强,杨培培,倪捷,冯新颖.面向模拟驾驶训练的驾驶意图识别方法[J].重庆理工大学学报（自然科学）,2014,28(10):1-7. 被引量：2
7卢建中,程浩.改进GA优化BP神经网络的短时交通流预测[J].合肥工业大学学报（自然科学版）,2015,38(1):127-131. 被引量：36
8王宁,李石君.基于模拟退火算法和隐马尔可夫模型的文本信息抽取[J].微电子学与计算机,2014,31(12):52-56.
9郭建波,谢飞.基于多特征的关键词抽取算法[J].合肥工业大学学报（自然科学版）,2015,38(9):1215-1219. 被引量：7
10王克永,刘纪平,罗安,王勇.前后缀与特征词相结合的地名地址提取[J].测绘通报,2016(2):64-68. 被引量：17

1陆晓华,张宇,钱进.基于图数据库的电影知识图谱应用研究[J].现代计算机,2016,22(5):76-83. 被引量：8
2周玉新.命名实体识别研究发展综述[J].科技风,2016(16):99-99. 被引量：1
3程洪涛.基于XML的非结构化文本数据转换研究与实现[J].现代计算机,2013,19(6):51-54. 被引量：3
4谢子超.非结构化文本的自动分类检索平台的研究与实现[J].软件,2015,36(11):112-114. 被引量：10
5李毅,胡金凤,王正友.一种面向中文依赖语法的观点挖掘模型[J].河北省科学院学报,2014,31(2):11-17.
6亓祥波,南琳,张福顺.基于元数据和XML的信息抽取与集成技术研究[J].信息与控制,2008,37(1):52-57. 被引量：10
7王树锋,王文,费贤举.一种基于上下文信息的个性化推荐模型[J].常州工学院学报,2014,27(2):27-31. 被引量：1
8曾道建,来斯惟,张元哲,刘康,赵军.面向非结构化文本的开放式实体属性抽取[J].江西师范大学学报（自然科学版）,2013,37(3):279-283. 被引量：11
9王毅.非结构化文本关键短语提取技术研究[J].图书馆学研究,2016(14):64-68. 被引量：1
10宋培彦,张冬梅.一种基于C#正则表达式的汉语文本信息检索方法[J].现代计算机,2009,15(12):33-36. 被引量：1

计算机科学

2010年第2期

浏览历史

内容加载中请稍等...

基于HMM的Web信息抽取算法的研究与应用被引量：12

参考文献10

二级参考文献40

共引文献88

同被引文献107

引证文献12

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于HMM的Web信息抽取算法的研究与应用 被引量：12

参考文献10

二级参考文献40

共引文献88

同被引文献107

引证文献12

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于HMM的Web信息抽取算法的研究与应用被引量：12