基于特征和隐马尔可夫模型的文本信息抽取被引量：3

Information Extraction Based on Character Extraction and HMMs

下载PDF

导出

摘要基于文本分块提出一种新的文本信息抽取技术,该技术利用文本的语义特征和结构特征,抽取具有特征的状态,以此结果为基础,进一步运用改进的隐马尔可夫模型,抽取剩余的无特征状态。对美国CMU大学CORA搜索引擎研制组提供的数据集中的100篇进行测试,结果显示精确度和召回率比基于单词和传统隐马尔可夫模型的方法都有所提高,并进一步提高了效率。 This paper brings forward a kind of new text information extraction technology based on text blocks.This technology utilizes the semanteme characteristic and structure characteristic of the text to make certain the states with characteristic.On the basis of this result,the remainder states of no characteristic with the improved hidden Markov models(HMMs) are extracted.This paper has tested 100 pieces of headers of computer science paper of the data provided by the search-engine research group from CMU university of USA.The result shows that the recall and precision rate are all improved a lot compared with existing methods which are based on words and traditional HMMs.

作者常军林吴笑伟吴芬芬刘磊

机构地区河南交通职业技术学院吉林大学计算机科学与技术学院

出处《河南科技大学学报（自然科学版）》 CAS 2008年第2期55-57,70,共4页 Journal of Henan University of Science And Technology:Natural Science

基金吉林省科技发展计划项目(20050527)

关键词文本分块特征提取隐马尔可夫模型 Text block Character extraction HMMs

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1孙斌.信息提取技术概述(下)[J].术语标准化与信息技术,2003(1):34-37. 被引量：11
2Srihari R. A Question Answering System Supported by Information Extraction [ C ]//Proceedings of ANLP 2000. Seattle, 2000.
3Freitag D, McCallum A. Information Extraction with HMMs and Shrinkage [ C ]/! Working Notes of the AAAI - 99 Workshop on Machine Learning for Information Extraction, Orlando, FL, 1999, AAAI Press.
4McCallum A, Freitag D. Maximum Entropy Markov Models for Information Extraction and Segmentation[ C l//Proceedings of the Seventeenth International Conference on Machine Learning. Stanford,CA,Morgan Kaufmann,2000:591 -595.
5Seymore K, McCallum A,Rosenfeld R. Learning Hidden Markov Model structure for Information Extraction [ C ]//Working Notes of the AAAIWorkshop on Machine Learning for Information Extraction. AAAI Press,1999:37 -42.
6Rohini K, Srihari. InfoXtraet : A Customizable Intermediate Level Information Extraction Engine [ C ]//Proceedings of HLT/ NAACL 2003 Workshop on Software Engineering and Architecture of Language Technology Systems (SEALTS) ,2003:52 -59.

二级参考文献9

1卢正鼎,董泽锋.文法推断与HMM相结合的信息提取[J].计算机工程与科学,2005,27(8):1-3. 被引量：1
2李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
3邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
4尹继豪,樊孝忠,赵攀超,于江德.基于组块分析技术的中文机构名称识别[J].哈尔滨工程大学学报,2006,27(B07):466-470. 被引量：5
5尹继豪,樊孝忠,于江德.基于类语言模型的中文机构名称自动识别[J].计算机科学,2006,33(11):212-214. 被引量：3
6李蕾,王劲林.二维网络信息聚合的研究与系统设计[J].高技术通讯,2007,17(11):1125-1130. 被引量：3
7常军林,吴笑伟,吴芬芬,刘磊.基于特征和隐马尔可夫模型的文本信息抽取[J].河南科技大学学报（自然科学版）,2008,29(2):55-57. 被引量：3
8金砚硕,迟呈英,战学刚.一种基于隐马尔可夫聚类的信息提取方法[J].情报杂志,2008,27(3):96-98. 被引量：6
9郭庆琳,樊孝忠.基于NLU的智能搜索和信息提取技术的研究[J].计算机应用研究,2004,21(2):14-16. 被引量：2

共引文献10

1卢正鼎,董泽锋.文法推断与HMM相结合的信息提取[J].计算机工程与科学,2005,27(8):1-3. 被引量：1
2李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
3邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
4尹继豪,樊孝忠,赵攀超,于江德.基于组块分析技术的中文机构名称识别[J].哈尔滨工程大学学报,2006,27(B07):466-470. 被引量：5
5尹继豪,樊孝忠,于江德.基于类语言模型的中文机构名称自动识别[J].计算机科学,2006,33(11):212-214. 被引量：3
6李蕾,王劲林.二维网络信息聚合的研究与系统设计[J].高技术通讯,2007,17(11):1125-1130. 被引量：3
7金砚硕,迟呈英,战学刚.一种基于隐马尔可夫聚类的信息提取方法[J].情报杂志,2008,27(3):96-98. 被引量：6
8韩雪,张业,朱聪慧.企业经营范围文本自动分类方法探究[J].标准科学,2012(1):93-96. 被引量：1
9霍娜,吕国英.基于规则匹配的灾难性追踪事件信息抽取的研究[J].电脑开发与应用,2012,25(6):7-9. 被引量：6
10郭庆琳,樊孝忠.基于NLU的智能搜索和信息提取技术的研究[J].计算机应用研究,2004,21(2):14-16. 被引量：2

同被引文献41

1么键,刘冀伟,韩旭,王志良.基于光流的运动人体提取[J].北京邮电大学学报,2006,29(z2):148-150. 被引量：3
2卢正鼎,董泽锋.文法推断与HMM相结合的信息提取[J].计算机工程与科学,2005,27(8):1-3. 被引量：1
3何卫华,李平,文玉梅,叶波.复杂背景下基于图像融合的运动目标轮廓提取算法[J].计算机应用,2006,26(1):123-126. 被引量：16
4李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
5邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
6尹继豪,樊孝忠,赵攀超,于江德.基于组块分析技术的中文机构名称识别[J].哈尔滨工程大学学报,2006,27(B07):466-470. 被引量：5
7尹继豪,樊孝忠,于江德.基于类语言模型的中文机构名称自动识别[J].计算机科学,2006,33(11):212-214. 被引量：3
8李蕾,王劲林.二维网络信息聚合的研究与系统设计[J].高技术通讯,2007,17(11):1125-1130. 被引量：3
9Johansson G. Visual Perception of Biological Motion and a Model for Its Analysis [ J ]. Perception Psychophysics, 1973,14 (2) :201 -211.
10Shotton J, Fitzgibbon A, Cook M, et al. Real-time Human Pose Recognition in Parts from Single Depth Images [ C ]// Computer Vision and Pattern Recognition (CVPR) ,2011 IEEE Conference. 2011:1297 - 1304.

引证文献3

1陈曦,孟庆虎.骨架关节点跟踪的人体行为识别方法[J].河南科技大学学报（自然科学版）,2015,36(2):43-48. 被引量：5
2曾江峰,刘园园,程征,段尧清.基于UniLM模型的学术文摘观点自动生成研究[J].图书情报工作,2023,67(2):131-139. 被引量：1
3孙斌.信息提取技术概述(下)[J].术语标准化与信息技术,2003(1):34-37. 被引量：11

二级引证文献17

1卢正鼎,董泽锋.文法推断与HMM相结合的信息提取[J].计算机工程与科学,2005,27(8):1-3. 被引量：1
2李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
3邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
4尹继豪,樊孝忠,赵攀超,于江德.基于组块分析技术的中文机构名称识别[J].哈尔滨工程大学学报,2006,27(B07):466-470. 被引量：5
5尹继豪,樊孝忠,于江德.基于类语言模型的中文机构名称自动识别[J].计算机科学,2006,33(11):212-214. 被引量：3
6李蕾,王劲林.二维网络信息聚合的研究与系统设计[J].高技术通讯,2007,17(11):1125-1130. 被引量：3
7常军林,吴笑伟,吴芬芬,刘磊.基于特征和隐马尔可夫模型的文本信息抽取[J].河南科技大学学报（自然科学版）,2008,29(2):55-57. 被引量：3
8金砚硕,迟呈英,战学刚.一种基于隐马尔可夫聚类的信息提取方法[J].情报杂志,2008,27(3):96-98. 被引量：6
9韩雪,张业,朱聪慧.企业经营范围文本自动分类方法探究[J].标准科学,2012(1):93-96. 被引量：1
10霍娜,吕国英.基于规则匹配的灾难性追踪事件信息抽取的研究[J].电脑开发与应用,2012,25(6):7-9. 被引量：6

1吴芬芬,刘磊,肖宪.一种启发式的信息抽取算法[J].吉林大学学报（理学版）,2007,45(1):73-76. 被引量：3
2刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004,16(3):507-510. 被引量：51
3何岸,胡伟刚.中文文本数字水印算法的研究[J].中南林业科技大学学报,2011,31(8):204-210. 被引量：2
4王雷,陈治平,李志成.基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J].山东大学学报（理学版）,2006,41(3):25-28. 被引量：4
5张付志,侯娜,刘慧,马玉静.一种基于启发式搜索的论文元数据提取算法[J].计算机应用与软件,2009,26(9):86-88. 被引量：1
6王玉峰.CORBA vs.Web Service:选择CORBA(下)[J].程序员,2003(5):96-100.
7双哲,孙蕾.基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用[J].计算机应用与软件,2017,34(2):42-47. 被引量：10
8程韵如.基于维基百科的领域实体上下位关系抽取[J].价值工程,2016,35(18):160-163. 被引量：2
9王达,张坤.隐马尔可夫模型在命名实体中的应用[J].黑龙江科技信息,2007(12S):78-78. 被引量：1
10于洪涛,虞海明,张付志.基于三阶条件随机场的论文元数据提取方法[J].小型微型计算机系统,2014,35(3):606-609. 被引量：1

河南科技大学学报（自然科学版）

2008年第2期

浏览历史

内容加载中请稍等...

基于特征和隐马尔可夫模型的文本信息抽取被引量：3

参考文献6

二级参考文献9

共引文献10

同被引文献41

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于特征和隐马尔可夫模型的文本信息抽取 被引量：3

参考文献6

二级参考文献9

共引文献10

同被引文献41

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于特征和隐马尔可夫模型的文本信息抽取被引量：3