基于领域知识的文本分类被引量：12

An Approach Based on Domain Knowledge to Text Categorization

下载PDF

导出

摘要提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能. A knowledge-based text categorization method is proposed, taking domain features as textual features to improve text representation function and considering text categorization as aggregation computation procedure. A feature re-selection and reweighting technique is proposed for text indexing procedure. To learn feature aggregation functions from labeled training collection automatically, a learning method based on mutual information is employed. Comparative experiment results showed that the text categorization method based on domain knowledge works better than the conventional naive Bayes classifier based on beg-of-words model as a whole and that using domain knowledge will improve effectiveness of classifying similaror or antithetical topics.

作者朱靖波陈文亮

机构地区东北大学信息科学与工程学院

出处《东北大学学报（自然科学版）》 EI CAS CSCD 北大核心 2005年第8期733-735,共3页 Journal of Northeastern University(Natural Science)

基金国家自然科学基金资助项目(60203019)微软亚洲研究院联合资助项目(60473140)国家教育部科学技术研究重点项目(104065).

关键词领域知识文本分类集聚计算机器学习朴素贝叶斯模型 domain knowledge text categorization aggregation computation machine lemming naive Bayes model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1朱靖波,姚天顺.文本内容主题的识别方法[J].东北大学学报（自然科学版）,2002,23(5):425-427. 被引量：8
2Boykin S, Merlino A. Machine learning of event segmentation for news on demand[J]. Communications of the ACM, 2000,43(2):35-41.
3Luhn H P. A statistical approach to mechanized encoding and searching of literary information[J]. IBM Journal, 1957,10(1):309-317.
4Edmundson H. New methods in automatic extracting[J]. Journal of the ACM, 1969,16(2):264-285.
5Salton G, James A, Buckley C. Automatic analysis, theme generation, and summarization of machine-readable texts[J]. Science, 1994,264(3):1421-1426.
6Lehnert W, Loiselle C. An introduction to plot unit[A]. Semantic Structures-Advances in Natural Language Processing[C]. Hillsdale: Lawrence Erlbaum Associates, 1989.88-111.
7Hearst A. Context and structure in automated full-text information access[D]. Berkeley:University of California, 1994.103-105.
8Peter W F. Latent semantic analysis for text-based research, behavior research methods[J]. Instruments and Computers, 1996,28(2):197-202.
9Fabrizio S. Machine learning in automated text categorization[J]. ACM Computing Surveys, 2002,34(1):1-47.
10Sangkon L, Masami S. Passage segmentation based on topic matter[J]. Computer Processing of Oriental Languages, 2002,15(3):305-340.

二级参考文献2

1朱靖波.面向英汉机器翻译的统计消岐技术研究[M].沈阳:东北大学,1999..
2林鸿飞,高天,姚天顺.中文文本的可视化表示[J].东北大学学报（自然科学版）,2000,21(5):501-504. 被引量：7

共引文献7

1曹海.基于文本内容分析的过滤技术研究[J].四川大学学报（自然科学版）,2006,43(6):1248-1252. 被引量：9
2朱恒民,马静,黄卫东.基于领域本体的中文Web文本主题特征抽取方法[J].情报理论与实践,2008,31(2):286-288. 被引量：5
3何增颖,陈建锐,钟足峰.基于因果岭回归的多数据源科研主题识别方法[J].四川大学学报（自然科学版）,2018,55(6):1204-1210. 被引量：2
4戚晓妮,柳茹婷,赵丙琪.文本视角下我国乡村振兴政策内容挖掘分析[J].科技创业月刊,2020,33(4):158-162.
5韩凤舞,佟振声,黄敏.基于多Agent的邮件过滤系统[J].重庆工商大学学报（自然科学版）,2003,20(2):27-29.
6朱靖波,陈文亮.基于FIFA的主题相似性计算模型[J].东北大学学报（自然科学版）,2003,24(11):1041-1044. 被引量：3
7顾益军,于江德,刘群,樊孝忠.受限领域中文文本内容主题概念识别研究[J].计算机工程与应用,2004,40(1):58-59. 被引量：1

同被引文献82

1邵惠鹤.支持向量机理论及其应用[J].自动化博览,2003,20(z1):90-95. 被引量：7
2朱卫星,王智学,李宗勇,刘影.基于领域知识复用的需求建模[J].解放军理工大学学报（自然科学版）,2009,10(1):30-36. 被引量：4
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
4胡浩.机床电机的过热保护[J].机电工程技术,2005,34(3):102-103. 被引量：3
5李凡,林爱武,陈国社.一种基于VSM文本分类系统的设计与实现[J].华中科技大学学报（自然科学版）,2005,33(3):53-55. 被引量：19
6贾泂,梁久祯.基于支持向量机的中文网页自动分类[J].计算机工程,2005,31(10):145-147. 被引量：12
7朱恒民,姬小利,王宁生.一种挖掘意外规则的方法[J].南京航空航天大学学报,2005,37(3):381-385. 被引量：1
8韦素云,吉根林,曲维光.关联规则的冗余删除与聚类[J].小型微型计算机系统,2006,27(1):110-113. 被引量：15
9张剑,李春平.基于WordNet概念向量空间模型的文本分类[J].计算机工程与应用,2006,42(4):174-178. 被引量：16
10唐小力,吕宏伟.基于SVM的文本多类分类方法研究[J].电脑知识与技术,2006,1(3):162-162. 被引量：1

引证文献12

1王琦.自动分类技术研究[J].河南财政税务高等专科学校学报,2008,22(4):91-93. 被引量：1
2毕静.自动分类技术研究[J].电脑知识与技术,2009,5(2):1020-1021. 被引量：2
3吴波.网络环境下文本自动分类方法研究综述[J].鸡西大学学报（综合版）,2009,9(5):151-152.
4李超,王会珍,朱慕华,张俐,朱靖波.基于领域类别信息C-value的多词串自动抽取[J].中文信息学报,2010,24(1):94-98. 被引量：7
5杨丽华,袁方,姚增利,王煜.基于启发式规则的Deep Web接口发现[J].河北大学学报（自然科学版）,2010,30(1):107-112. 被引量：1
6贺欢,李文强,李彦,胡连军.支持产品创新的机电领域知识库构建技术研究[J].组合机床与自动化加工技术,2014(8):37-39. 被引量：2
7唐守利,徐宝祥.基于本体的云服务语义检索系统研究[J].现代图书情报技术,2014(12):27-35. 被引量：3
8张玲玲,周全亮,唐广文,李兴森,石勇.基于领域知识和聚类的关联规则深层知识发现研究[J].中国管理科学,2015,23(2):154-161. 被引量：18
9沈加.关于高校教学资源的自动分类研究[J].福建电脑,2015,31(5):101-102.
10杨莹,王庆文.面向制造领域文本的多标签分类方法[J].制造业自动化,2016,38(2):10-13. 被引量：2

二级引证文献35

1常凯.基于TF＊IDF垃圾邮件过滤改进算法的研究[J].电脑知识与技术,2010,6(9):6928-6930. 被引量：2
2李渝勤,孙丽华.面向互联网舆情的热词分析技术[J].中文信息学报,2011,25(1):48-53. 被引量：17
3马甲林,张桂珠,刘金岭.中英文文本分类系统异同因素的探讨[J].电脑学习,2011(2):111-112.
4胡阿沛,张静,刘俊丽.基于改进C-value方法的中文术语抽取[J].现代图书情报技术,2013(2):24-29. 被引量：23
5张付志,杜宝瑞.面向OA期刊站点的论文资源发现方法[J].情报学报,2013,32(5):497-502.
6王宁,刘海园,周雪珂.基于粗糙集的应急案例中概率规则挖掘方法[J].运筹与管理,2018,27(12):84-94. 被引量：2
7孙茂松,李莉,刘知远.面向中英平行专利的双语术语自动抽取[J].清华大学学报（自然科学版）,2014,54(10):1339-1343. 被引量：8
8周绍钧,吕学强,李卓,都云程.基于多策略融合的专利术语自动抽取[J].计算机应用与软件,2015,32(2):28-32. 被引量：4
9车振辉.支持产品创新的机电领域知识库构建技术思考[J].中国新技术新产品,2016(2):33-34.
10蒋勋,徐绪堪,唐明伟,苏新宁.适应突发事件演化的知识表示模型研究[J].情报理论与实践,2016,39(3):122-124. 被引量：12

1包红云,李秋丹,宋双永,高珩.基于相关反馈的微博相似主题时序查询[J].计算机科学,2013,40(4):169-171. 被引量：2
2岳建辉,庞丽萍,邵志远.基于集群的CORBA中的集聚计算[J].华中科技大学学报（自然科学版）,2003,31(3):58-59.
3卢秉亮,朱健,张磊,曹一鹏.Internet搜索引擎索引数据库的设计与实现[J].微处理机,2006,27(3):44-46. 被引量：4
4刘畅.全文索引结构的研究[J].计算机光盘软件与应用,2012,15(24):86-87. 被引量：1
5唐焕玲,王敬东,陆玉昌.基于减少相似主题分类错误的权重分配新策略[J].计算机工程与应用,2004,40(13):185-188.
6朱靖波,姚天顺.文本内容主题的识别方法[J].东北大学学报（自然科学版）,2002,23(5):425-427. 被引量：8
7薛胜军,厉志.基于Hadoop的位图索引的空间和效率研究[J].科学技术与工程,2015,35(25):161-168.
8田萱,孟祥光,刘希玉,孟强.基于BP神经网络的文档特征表示研究[J].情报学报,2003,22(1):22-26. 被引量：4
9刘晖.会搜索的花蝴蝶 MSN Desktop Search[J].电脑迷,2005,0(3):68-69.
10老杨.行值扬帆者江分又不同——Sun合作伙伴软件应用大会侧记[J].中国计算机用户,2002(4):58-58.

东北大学学报（自然科学版）

2005年第8期

浏览历史

内容加载中请稍等...

基于领域知识的文本分类被引量：12

参考文献11

二级参考文献2

共引文献7

同被引文献82

引证文献12

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于领域知识的文本分类 被引量：12

参考文献11

二级参考文献2

共引文献7

同被引文献82

引证文献12

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于领域知识的文本分类被引量：12