基于相对词频的文本特征抽取方法被引量：9

Method of Text Feature Extraction Based on Relative Word frequency

下载PDF

导出

摘要评估函数对已定义类别以外的语料区分度相对较低的问题出发,结合常用的停用词表功能,提出了基于与统计量相关的相对词频作评估函数的改进模型。该模型结合了现代汉语词频统计结果,使用相对词频选择特征词,较好地区分了特定类别与类别外文本。实验结果验证了这种方法的可行性,并且取得了较好的分类效果。 Brings forward an improved model of evaluation function based on relative word frequency,which is promised to resolve above problem.This model is combined with the modern Chinese language word frequency statistic achievements,extract feature words based on relative frequency,which results to better!distinction degree between the defined classes and undefined classes.At last,the experiment has proved the feasibility and effect of this method.

作者张鹏飞李赟刘建毅钟义信

机构地区北京邮电大学智能研究中心

出处《计算机应用研究》 CSCD 北大核心 2005年第4期23-26,共4页 Application Research of Computers

基金国家"863"计划资助项目(2001AA114210 14)

关键词特征抽取特征向量评估函数相对词频 Text Feature Extraction Feature Vector Evaluation Function Relative Word frequency

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Lewis DD, Feature Selection and Feature Extraction for Text Categorization [ A ]. Proceedings of Speech and Natural Language Workshop[ C]. San Francsico: Morgan Kaufmann,1992. 212-217.
2Mladenic D, Grobelnik M, Feature Selection for Unbalanced Class Distribution and Native Bayes [ EB/OL ]. http://www-2, cs. cmu.edu/afs/cs/ project/theo- 4/text -learning/www/, 2000-03/2004-04.
3Yang Y, Pedersen J O. A Comparative Study on Feature Selection in Text Categorization [ EB/OL ]. http://citeseer, nj. nec. com/yang97comparative, html, 1997/2004-04.
4秦兵郑实福刘挺.基于改进的贝叶斯模型的中文网页分类器,自然语言理解与机器翻译[M].北京:清华大学出版社,2000.373-378.
5钟义信.全信息自然语言理解方法论—中文信息处理若干重要问题[M].北京:科学出版社,2003.56-67.

同被引文献43

1杨丽.中国旅游电子商务发展中的一些问题与对策研究[J].旅游学刊,2001,16(6):40-42. 被引量：65
2赵林,胡恬,黄萱菁,吴立德.基于知网的概念特征抽取方法[J].通信学报,2004,25(7):46-54. 被引量：17
3黄钢石 ,张亚非 ,陆建江 ,肖江 .基于NMF的用户模板构造方法[J].情报学报,2004,23(4):394-398. 被引量：2
4于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
5刘明吉.基于协同演化的文本特征获取算法[J].计算机工程,2005,31(4):85-87. 被引量：3
6周明,黄昌宁,张敏,白栓虎,吴升.统计与规则并举的汉语句法分析模型[J].计算机研究与发展,1994,31(2):40-49. 被引量：8
7唐晓文.基于本体论的文本特征提取[J].电脑与信息技术,2005,13(1):36-38. 被引量：11
8王海涌,郑丽英,刘丽艳.基于文本表示的特征项权值确定方法研究[J].甘肃科学学报,2005,17(3):86-89. 被引量：8
9朱祥玉,侯德文,陈希.对关联规则挖掘Apriori算法的进一步改进[J].信息技术与信息化,2005(6):81-83. 被引量：7
10朱祥玉,侯德文.基于概念学习的过滤模板获取方法[J].计算机技术与发展,2006,16(5):53-55. 被引量：1

引证文献9

1朱祥玉,侯德文.基于概念学习的过滤模板获取方法[J].计算机技术与发展,2006,16(5):53-55. 被引量：1
2庞景安.Web文本特征提取方法的研究与发展[J].情报理论与实践,2006,29(3):338-340. 被引量：17
3李国强,李瑞芳.基于计算机的词频统计研究——考证《红楼梦》作者是否唯一[J].沈阳化工学院学报,2006,20(4):305-307. 被引量：6
4朱祥玉.基于频繁项集挖掘的正例文本提取方法[J].信息技术与信息化,2008(3):41-43.
5方延风.科技项目查重中特征词TF-IDF值计算方法的改进[J].情报探索,2012(1):1-3. 被引量：15
6周冰.垃圾短信过滤技术与应用[J].中国新通信,2014,16(6):78-78. 被引量：3
7郑献卫,张贺.LDA主题抽取模型在互联网旅游评论的应用[J].工业控制计算机,2014,27(9):92-94. 被引量：2
8刘海娟,刘文展.基于双向量模型的话题跟踪[J].无线电工程,2016(2):27-30. 被引量：1
9袁红,陆成成.网络用户导航类查询意图识别研究[J].情报资料工作,2017,38(3):68-74. 被引量：1

二级引证文献46

1张璐,彭雪莹,陈静.突发公共卫生事件中大学生健康信息搜寻意图研究[J].情报科学,2022,40(10):51-59. 被引量：7
2关茜,岳建伟,刘方,陈云浩,宫阿都.改进的RSS信息推送技术在农地流转中的应用[J].遥感信息,2015,30(1):129-133.
3廖浩,李志蜀,王秋野,张意.基于词语关联的文本特征词提取方法[J].计算机应用,2007,27(12):3009-3012. 被引量：10
4朱祥玉.基于频繁项集挖掘的正例文本提取方法[J].信息技术与信息化,2008(3):41-43.
5吴铁洲,孙杨,夏防震.有标记的文本聚类方法研究[J].舰船电子工程,2009,29(4):104-106. 被引量：1
6谈佳宁,朱玉全,陈耿,翟国.基于数据融合的组合特征提取方法的研究[J].计算机工程与设计,2009,30(10):2529-2532. 被引量：1
7田京波.高校校园网用户兴趣挖掘系统的设计与实现[J].台州学院学报,2009,31(6):26-31.
8杨帆,孙强.从Web网页上获取一价事件常识的方法[J].科学技术与工程,2010,10(25):6300-6304. 被引量：1
9孙明柱,魏海平,顿绍坤,王居柱.SVM网页分类中一种新的特征提取方法[J].科学技术与工程,2011,11(6):1359-1362. 被引量：1
10吴双,张文生,徐海瑞.基于词间关系分析的文本特征选择算法[J].计算机工程与科学,2012,34(6):140-145. 被引量：3

1赵文清,侯小可.基于词共现图的中文微博新闻话题识别[J].智能系统学报,2012,7(5):444-449. 被引量：31
2潘光强,周军,何洋.基于朴素贝叶斯分类模型的文本特征选择研究[J].电脑知识与技术,2014(1):133-137.
3薄树奎,荆永菊.面向对象的遥感影像单类分类[J].现代电子技术,2016,39(7):48-50. 被引量：2
4曲维光,吉根林,穗志方,周俊生.基于语境信息的组合型分词歧义消解方法[J].计算机工程,2006,32(17):74-76. 被引量：10
5曲维光,陈小荷,董宇,穗志方.基于语境计算模型的汉语词义消歧(英文)[J].广西师范大学学报（自然科学版）,2006,24(4):179-182.
6田生伟,钟军,禹龙.维吾尔语多词领域术语的自动抽取[J].中文信息学报,2015,29(2):133-141. 被引量：4
7小赵.Gmail最新秘技通报[J].软件指南,2006(3):52-52.
8陈国兰.基于爆发词识别的微博突发事件监测方法研究[J].情报杂志,2014,33(9):123-128. 被引量：18
9薄树奎,刘华.类别划分对特定类别信息提取的影响[J].计算机工程与应用,2011,47(24):193-195.
10管飞诗,徐夫田.基于类别SVM的Android系统恶意软件检测研究[J].科技风,2016(21):64-65.

计算机应用研究

2005年第4期

浏览历史

内容加载中请稍等...

基于相对词频的文本特征抽取方法被引量：9

参考文献5

同被引文献43

引证文献9

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于相对词频的文本特征抽取方法 被引量：9

参考文献5

同被引文献43

引证文献9

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于相对词频的文本特征抽取方法被引量：9