基于领域本体的中文Web文本主题特征抽取方法被引量：5

Topic Extracting Method of Chinese Web Documents Based on Domain Ontology

下载PDF

导出

摘要为了快速有效地自动处理中文Web文本,提出了一种基于领域本体的主题特征抽取方法。该方法针对Web文本特点,介绍了一种领域词典的半自动化构建方法。基于领域词典切分文本,通过对词条的主题映射,采用领域本体的概念表示文本向量,从而有效地降低文本特征向量的维数,提高主题抽取的质量。考虑文本信息的不同位置与频率,计算主题特征的权值,并且基于领域本体的结构,对主题概念的权值进行调整和排序。实例验证了该方法的有效性。 In order to process Chinese Web documents rapidly, effectively and automatically, a topic extracting method based on domain ontology is proposed. Considering the characteristics of Web documents, this paper brings forward a semi - automation construction method of domain dictionary. Based on the domain dictionary, the words of the documents are firstly segmented. Then, by mapping the words to the concepts of domain ontology, the documents are represented by these concepts, thus the dimension of the feature vector is effectively reduced and the quality of topic extracting is improved. The weight of topic is computed according to different places and frequencies of document features, and modified based on the structure of domain ontology. An example proves that this method is effective.

作者朱恒民马静黄卫东

机构地区南京邮电大学经济与管理学院南京航空航天大学经济与管理学院

出处《情报理论与实践》 CSSCI 北大核心 2008年第2期286-288,285,共4页 Information Studies:Theory & Application

基金江苏省高校自然科学基础研究项目(项目编号:KJD520151) 国防技术基础项目的研究成果之一

关键词主题抽取领域本体文本挖掘 topic extracting domain ontology text mining

分类号 G350 [文化科学—情报学]

引文网络
相关文献

参考文献9

1Luhn H P. A statistical approach to mechanized encoding and searching of literary information [ J ]. IBM Journal, 1957 (10)
2Edmundson H P. New methods in automatic extracting [ J ]. Journal of the ACM , 1969 , 16 (2) : 264-285
3Gerard S, James A, Chris B, et al. Automatic analysis, theme generation, and summarization of machine-readable texts [ J ]. Science, 1994, 264 (3) : 1421- 1426
4朱靖波,姚天顺.文本内容主题的识别方法[J].东北大学学报（自然科学版）,2002,23(5):425-427. 被引量：8
5罗杰,陈力,夏德麟,王凯.基于新的关键词提取方法的快速文本分类系统[J].计算机应用研究,2006,23(4):32-34. 被引量：17
6尹中航,王永成,蔡巍,韩客松.利用串匹配技术实现网上新闻的主题提取(英文)[J].软件学报,2002,13(2):159-167. 被引量：11
7许建潮,胡明.中文Web文本的特征获取与分类[J].计算机工程,2005,31(8):24-25. 被引量：24
8韩客松,王永成,沈洲,吴芳芳.三个层面的中文文本主题自动提取研究[J].中文信息学报,2001,15(4):20-27. 被引量：13
9贾焰,王永恒,杨树强.基于本体论的文本挖掘技术综述[J].计算机应用,2006,26(9):2013-2015. 被引量：17

二级参考文献46

1唐振民,靳从,杨静宇,李远复.一种用于自动标引系统的主题词自动切分方法[J].南京理工大学学报,1995,19(5):401-404. 被引量：2
2牛凯.中文科技文献计算机自动标引系统的研究[J].情报学报,1995,14(1):16-26. 被引量：2
3靳从,樊春丽,杨静宇.主题词自动标引中的知识处理方法[J].情报理论与实践,1996,19(2):30-33. 被引量：3
4朱靖波.面向英汉机器翻译的统计消岐技术研究[M].沈阳:东北大学,1999..
5唐振民，南京理工大学学报，1995年，19卷，5期，401页
6Yang Y. An Evaluation of Statistical Approaches to Text Categorization. Journal of Information (Retrieval 1 ),1999:69-90.
7Mladenic M. Feature Subset Selection in Text-learning. http://www.ai.ijs.si/DunjaMladenic.
8Wulfekuhler M R,Punch W F,Finding Salient Features for Personal Web Page Categorization. In Proc.of 6th International World Wide Web Conference,1997.
9Salton G,Wong A,Yang C. A Vector Space Model for Automatic Indexing. Communications of the ACM,1995,18:613-620.
10Lin Shian-hua. Extracting Classification Knowledge of Intemet Documents With Mining Term Associations: a Semantic Approach. In Proceedings of International ACM SIGIR Conference on Research and Development in Information Retrieval,1998:241-240.

共引文献82

1李乐强,唐常杰,左劼,邱源枞,段磊,李川.基于同现度和自学习的中文字符组合发现[J].计算机研究与发展,2007,44(z3):268-272. 被引量：2
2张雷生 ,万绍俊 ,许鹏文 .简单中文自动摘要系统研究[J].装备指挥技术学院学报,2004,15(3):105-109. 被引量：1
3陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
4朱靖波,陈文亮.基于领域知识的文本分类[J].东北大学学报（自然科学版）,2005,26(8):733-735. 被引量：12
5唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报（信息科学版）,2005,23(5):535-540. 被引量：16
6王圆,孙铁利,李杨.Web文本挖掘中的特征表示和特征提取[J].电脑知识与技术,2006,1(5):67-68. 被引量：2
7雷震,谢毓湘,吴玲达.一种基于反例样本修剪支持向量机的事件追踪算法[J].小型微型计算机系统,2006,27(8):1472-1477. 被引量：1
8田苗苗,许建潮,汪津,丁桂英.基于遗传算法的Web信息自动标引研究[J].吉林大学学报（信息科学版）,2006,24(5):542-547. 被引量：6
9曹海.基于文本内容分析的过滤技术研究[J].四川大学学报（自然科学版）,2006,43(6):1248-1252. 被引量：9
10邹腊梅,肖基毅,龚向坚.Web文本挖掘技术研究[J].情报杂志,2007,26(2):53-55. 被引量：14

同被引文献40

1袁静.基于本体的数字图书馆个性化服务研究[J].图书馆建设,2009(1):66-69. 被引量：28
2车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
3刘鲁红,刘力强,胡亚军.信息抽取技术在数字图书馆中的应用研究[J].情报理论与实践,2005,28(3):321-324. 被引量：12
4吴丽花,刘鲁.个性化推荐系统用户建模技术综述[J].情报学报,2006,25(1):55-62. 被引量：104
5王凯,王辉,渠芳.信息抽取系统在高校数字图书馆的应用[J].现代情报,2006,26(4):86-88. 被引量：3
6龙朝阳,秦素娥.数字图书馆个性化信息组织模式构建[J].情报理论与实践,2006,29(3):355-357. 被引量：16
7廖君华,白如江.基于ontology的数字图书馆门户网站模型[J].图书情报工作,2007,51(2):34-37. 被引量：11
8丁晟春,李岳盟,甘利人.基于顶层本体的领域本体综合构建方法研究[J].情报理论与实践,2007,30(2):236-240. 被引量：45
9张树良,冷伏海.Web环境下个性化信息的获取和个性化服务的实现[J].中国图书馆学报,2007,33(4):77-81. 被引量：48
10FONSECA F. The double role of ontologies in information science research [ J ]. Journal of the American Society for Information Science and Technology, 2007 (6) : 786-793.

引证文献5

1司徒俊峰,曹树金.面向个性化服务的信息组织本体模式[J].情报理论与实践,2009,32(11):93-97. 被引量：5
2张冰波,谢磊,张旭毅.基于本体的信息过滤系统的研究与实现[J].软件导刊,2010,9(10):10-12.
3朱孟平,张东戈.基于本体的作战信息分发[J].情报科学,2011,29(8):1244-1247.
4李禾.微信息环境下高校馆藏资源微聚合服务的研究[J].图书馆学研究,2015(4):66-70. 被引量：4
5姜浩然,周萍,杨肖光.大众媒体视野下的“健康中国”——基于2016—2017年部分媒体报道的文本分析[J].中国卫生政策研究,2018,11(9):76-82. 被引量：2

二级引证文献11

1刘甲学,王佳琦.基于多维排列图谱的国内个性化信息服务研究热点分析[J].现代情报,2011,31(3):32-37. 被引量：3
2刘洁,闫世江,崔时宁.数字图书馆的信息组织与个性化信息服务[J].农业网络信息,2011(11):68-71. 被引量：3
3张晗,孙翌.面向用户的高校图书馆网站服务资源重组模式研究[J].图书情报工作,2013,57(16):51-55. 被引量：1
4李晓静.图书馆微服务研究综评与反思[J].山东图书馆学刊,2015(6):59-63. 被引量：10
5曹霞.国内基于本体的个性化服务研究综述[J].图书馆工作与研究,2016(8):27-31. 被引量：6
6徐一男,李禾.基于艺术语义特征抽取的艺术档案信息聚合初探[J].图书情报导刊,2017,2(4):52-56. 被引量：2
7王福,毕强,张艳英.移动图书馆场景化信息接受内容适配剖析[J].图书情报工作,2018,62(11):16-22. 被引量：7
8李宏芳,郭荣梅,许正兴.基于超星发现系统的个性化服务体验研究——以开放获取研究文献为例[J].图书馆界,2018(5):27-31. 被引量：1
9叶全伟,杨肖光,叶丽萍,刘静,周萍.基于文本挖掘技术的脑卒中文献计量分析:以PubMed数据库为例[J].中国卫生质量管理,2023,30(3):25-30. 被引量：2
10孙致宣,公令臣,那昕,王峻霞,褚淑贞.我国药品集中采购政策发展及对药品生产企业影响分析[J].中国医药工业杂志,2024,55(1):143-148. 被引量：1

1张伟舒,吕云翔.微博情感倾向算法的改进与实现[J].知识管理论坛,2013(9):21-27. 被引量：8
2陈小青,马亚平,段永强.基于主题映射元数据的数据库访问和集成系统[J].系统仿真学报,2009,21(14):4268-4273. 被引量：2
3陈宝平.浅议多媒体语文教学要适合学科特点及文本特点[J].甘肃科技纵横,2008,37(3):185-185. 被引量：1
4许建潮,胡明.中文Web文本的特征获取与分类[J].计算机工程,2005,31(8):24-25. 被引量：24
5罗忠文,白玉祺,童恒建.新一代帮助系统HTML Help[J].微电脑世界,1999(Z1):83-84. 被引量：1
6曹勇,吴顺祥.使用KNN算法的中文Web文本分类技术研究[J].软件导刊,2007,6(1):107-109. 被引量：2
7崔瑞飞,于洪涛,杨赟,李星.基于评论树的微博社区热门话题检测方法[J].计算机应用研究,2014,31(12):3776-3779. 被引量：4
8孙师尧,妙全兴.基于改进HMM的半结构化文本信息抽取算法研究[J].电子科技,2014,27(10):111-114. 被引量：5
9吕维先.WinHelp和HTML Help[J].苏州丝绸工学院学报,2000,20(4):55-60. 被引量：2
10赵荣.半自动化构建的大型数据仓库体系结构[J].湖北职业技术学院学报,2004,7(4):81-83.

情报理论与实践

2008年第2期

浏览历史

内容加载中请稍等...

基于领域本体的中文Web文本主题特征抽取方法被引量：5

参考文献9

二级参考文献46

共引文献82

同被引文献40

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于领域本体的中文Web文本主题特征抽取方法 被引量：5

参考文献9

二级参考文献46

共引文献82

同被引文献40

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于领域本体的中文Web文本主题特征抽取方法被引量：5