基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用被引量：10

RESEARCH AND APPLICATION FOR WEB INFORMATION EXTRACTION BASED ON IMPROVED HIDDEN MARKOV MODEL

下载PDF

导出

摘要信息抽取是从大量的数据中准确、快速地获取目标信息,提高信息的利用率。考虑网页数据的特点,提出一种适用于网页信息抽取改进的隐马尔科夫模型(HMM),即结合最大熵模型(ME)在特征知识表示方面的优势,在HMM模型中加入后向依赖,利用发射单元特征来调整模型参数。改进后的HMM状态转移概率和观察输出概率不仅依赖于模型的当前状态值,而且可以以模型的前向状态值和后向特征值加以修正。实验结果表明,使用改进后的HMM模型应用到网页信息抽取中,可以有效地提高网页信息抽取的质量。 The task of information extraction is to obtain the objective information precisely and quickly from a large scale of data and improve the utilization of information. According to the characteristics of web data,an improved hidden Markov model（HMM） for web information extraction is proposed,which means combining the advantage of maximum entropy（ME） model in the representation of feature knowledge. The backward dependency assumption in the HMM is added and the model parameters are adjusted by using the characteristic of the emission unit. The state transition probability and the output probability of the improved HMM are not only dependent on the current state of the model,but also be corrected by the forward and backward state values of the historical state of the model. The experimental results show that applying the improved HMM model to web information extraction can effectively improve the quality of web information extraction.

作者双哲孙蕾

机构地区华东师范大学计算机科学技术系

出处《计算机应用与软件》 2017年第2期42-47,共6页 Computer Applications and Software

基金国家自然科学基金项目(61502170)

关键词隐马尔可夫模型最大熵模型网页信息抽取 Hidden markov model Maximum entropy model Web information extraction

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献4

1杨少华,林海略,韩燕波.针对模板生成网页的一种数据自动抽取方法(英文)[J].软件学报,2008,19(2):209-223. 被引量：45
2郭喜跃,何婷婷.信息抽取研究综述[J].计算机科学,2015,42(2):14-17. 被引量：86
3李荣,冯丽萍,王鸿斌.基于改进遗传退火HMM的Web信息抽取研究[J].计算机应用与软件,2014,31(4):40-44. 被引量：3
4陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22

二级参考文献65

1杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
4张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
5林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
6张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：66
7俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：159
8周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
9赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
10Chang CH, Kayed M, Girgis MR, Shaalan K. A survey of Web information extraction systems. IEEE Trans. on Knowledge and Data Engineering, 2006,18(10): 1411-1428.

共引文献152

1孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：5
2陈平,匡尧,陈婧.基于BERT-wwm-ext多特征文本表示的经济事件主体抽取方法研究[J].武汉电力职业技术学院学报,2020(2):45-50. 被引量：1
3张海瑜,陈庆龙,张斯静,张子怡,杨帆,李鑫星.基于语义知识图谱的农业知识智能检索方法[J].农业机械学报,2021,52(S01):156-163. 被引量：13
4王竹,谷松原.基于裁判文书争议焦点的民事案由逻辑图谱构建研究——以产品责任领域为例[J].民商法争鸣,2022(2):13-25.
5李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：21
6吴天昊,古丽拉·阿东别克.基于神经元块级别注意力机制的LSTM关系抽取[J].计算机应用研究,2020,37(S02):76-79. 被引量：6
7程乔,王映华,李冉,李友建.基于互联网+舆情数据发掘支撑网络优化新思路的研究[J].广西通信技术,2020(1):1-7.
8丁若尧.面向古汉语史料的信息抽取方法综述[J].中国科技纵横,2019,0(14):50-51. 被引量：1
9赵靖,王侨文,管马周,单传佳.自动提取布局结构相似网页的结构化信息[J].安徽科技学院学报,2010,24(6):37-42. 被引量：1
10李舒晨,刘云,李勇.网络舆情分析中网页信息预处理方案的实现[J].电脑与电信,2008(10):30-33. 被引量：2

同被引文献76

1Youbo LIU,Yang LIU,Junyong LIU,Maozhen LI,Zhibo MA,Gareth TAYLOR.High-performance predictor for critical unstable generators based on scalable parallelized neural networks[J].Journal of Modern Power Systems and Clean Energy,2016,4(3):414-426. 被引量：3
2成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
3于江德,樊孝忠,尹继豪,顾益军.基于隐马尔可夫模型的中文科研论文信息抽取[J].计算机工程,2007,33(19):190-192. 被引量：9
4韩忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].计算机应用研究,2008,25(12):3568-3571. 被引量：15
5朱洪玉.关于质点弹簧系统在重力作用下的静平衡与振动[J].大学物理,2009,28(1):1-10. 被引量：3
6曹冬林,廖祥文,许洪波,白硕.基于网页格式信息量的博客文章和评论抽取模型[J].软件学报,2009,20(5):1282-1291. 被引量：15
7刘守群,朱明,谭晓彬.一种基于树匹配的网页语义块挖掘算法[J].小型微型计算机系统,2009,30(8):1541-1545. 被引量：7
8李亚子,方安,陈薇,朱峰.Web页面最大有意义节点发现算法研究[J].现代图书情报技术,2009(10):22-27. 被引量：3
9祝伟华,卢熠,刘斌斌.基于HMM的Web信息抽取算法的研究与应用[J].计算机科学,2010,37(2):203-206. 被引量：12
10师雪霖,程文涛.Web信息抽取与语义检索框架[J].郑州大学学报（理学版）,2010,42(1):29-32. 被引量：4

引证文献10

1付淇.社会化短文本及其技术研究[J].景德镇学院学报,2018,33(2):113-117.
2张潇文.网页设计中计算机图像处理技术应用探讨[J].无线互联科技,2018,15(24):74-76. 被引量：3
3李玲玲,李华.基于扩展FEAST的大规模特征值求解问题研究[J].计算机应用与软件,2021,38(7):289-294.
4贺纪桦.计算机图像处理技术在网页设计中的应用[J].无线互联科技,2021,18(11):66-67. 被引量：5
5陈春玲,夏旻,王珂,曹辉.基于分组空洞残差网络的非侵入式负荷分解[J].计算机应用与软件,2021,38(9):53-59. 被引量：5
6李磊,王路路,吐尔根·依布拉音,姜丽婷,艾山·吾买尔.基于词典分类器的细粒度机构名识别[J].计算机工程与设计,2022,43(1):245-251.
7董坤.基于依存关系与主题差异的非遗知识元抽取方法研究[J].图书情报导刊,2023,8(1):72-79.
8李志义,沈之锐.基于重复模式识别的网页信息抽取研究[J].情报科学,2019,37(3):88-92. 被引量：6
9刘志强,都云程,施水才.基于改进的隐马尔科夫模型的网页新闻关键信息抽取[J].数据分析与知识发现,2019,3(3):120-128. 被引量：9
10Xuedong Tian,Ruihan Bai,Fang Yang,Jinyuan Bai,Xinfu Li.Mathematical Expression Extraction in Text Fields of Documents Based on HMM[J].Journal of Computer and Communications,2017,5(14):1-13.

二级引证文献26

1王浩.彩色图像视觉目标区域轨迹点跟踪方法[J].周口师范学院学报,2020(2):129-133.
2陈平,匡尧,陈婧.基于BERT-wwm-ext多特征文本表示的经济事件主体抽取方法研究[J].武汉电力职业技术学院学报,2020(2):45-50. 被引量：1
3李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
4管艺博.计算机图像处理技术在网页设计中的应用[J].无线互联科技,2019,16(6):143-144. 被引量：1
5李亚男.计算机网页设计中图像处理技术的应用[J].无线互联科技,2019,16(23):136-137. 被引量：3
6陈志泊,李钰曼,许福,冯国明,师栋瑜,崔晓晖.基于TextRank和簇过滤的林业文本关键信息抽取研究[J].农业机械学报,2020,51(5):207-214. 被引量：15
7闫磊.计算机图像处理技术在网页设计中的运用[J].大众标准化,2020(19):132-134. 被引量：6
8朱琪.基于网络爬虫的舆情分析预警系统设计[J].电子设计工程,2020,28(22):56-60. 被引量：10
9白曙光,林民,李艳玲,张树钧.文本关键词抽取方法及在几种民族语言上的应用[J].内蒙古师范大学学报（自然科学版）,2021,50(2):134-144. 被引量：1
10邓子云.一种通过筛选和位置感知精准提取资讯类网页标题的方法[J].信息化研究,2021,47(4):8-15.

1王达,张坤.隐马尔可夫模型在命名实体中的应用[J].黑龙江科技信息,2007(12S):78-78. 被引量：1
2潘奇明,程咏梅.基于隐马尔可夫模型的运动目标轨迹识别[J].计算机应用研究,2008,25(7):1988-1991. 被引量：10
3党小超,马峻,郝占军.基于Improved-HMM的进程行为异常检测[J].计算机工程与设计,2011,32(4):1264-1267. 被引量：2
4吴莉萍,莫蓉,常智勇,张定华.一种用于快速草图设计的草图单元特征插入法[J].计算机工程与应用,2005,41(8):198-200.
5潘奇明,周文辉,程咏梅.运动目标轨迹分类与识别[J].火力与指挥控制,2009,34(11):79-83. 被引量：9
6方浩,许鸿文,蔡益宇.一种基于语义关系改进的隐马尔可夫模型研究[J].通信技术,2008,41(5):157-159. 被引量：3
7王秀坤,王宇宁,陈浩.基于改进的隐马尔可夫模型的网页预取[J].吉林大学学报（信息科学版）,2008,26(1):89-93. 被引量：1
8温凯,郭帆,余敏.自适应的Web攻击异常检测方法[J].计算机应用,2012,32(7):2003-2006. 被引量：7
9常军林,吴笑伟,吴芬芬,刘磊.基于特征和隐马尔可夫模型的文本信息抽取[J].河南科技大学学报（自然科学版）,2008,29(2):55-57. 被引量：3
10胡磊,卢珞先,黄涛.一种改进的隐马尔可夫模型在语音识别中的应用[J].信息与控制,2007,36(6):715-719. 被引量：5

计算机应用与软件

2017年第2期

浏览历史

内容加载中请稍等...

基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用被引量：10

参考文献4

二级参考文献65

共引文献152

同被引文献76

引证文献10

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用 被引量：10

参考文献4

二级参考文献65

共引文献152

同被引文献76

引证文献10

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用被引量：10