中文停用词表的自动选取被引量：35

Automatic Selection of Chinese Stoplist

下载PDF

导出

摘要通过对现有基于统计的停用词选取方法的考察,提出了一种新的停用词选取方法.用该方法分别计算词条在语料库中各个句子内发生的概率和包含该词条的句子在语料库中的概率,在此基础上计算它们的联合熵,依据联合熵选取停用词.将该方法与传统方法选取的停用词表进行了对比,并比较了将各种方法用于文本分类的预处理时对分类效果的影响.实验结果表明,该方法更好地避免了语料的行文格式对停用词选取的影响,比传统方法更适用于文本分类的预处理. By investigating the methods of automatically selecting stop words based on statistical methods, a new method is proposed. The idea of this method is to calculate the probability that the word occurs in each sentence of corpus, and calculate the probability that the sentences include the word occuring in corpus, then calculate the entropy of these probabilities, and select stop words according to the entropy. The stoplist determined by this method is compared with that determined by the traditional methods, the effects of various preprocessing methods on the categorization are compared also. The experiments show that the method is better in avoiding the impact of the style or manner of writing in corpus on choosing the stoplist, and more suitable for preprocessing the text categorization than traditional methods.

作者顾益军樊孝忠王建华汪涛黄维金

机构地区北京理工大学信息科学技术学院计算机科学工程系中国公安大学信息安全工程系

出处《北京理工大学学报》 EI CAS CSCD 北大核心 2005年第4期337-340,共4页 Transactions of Beijing Institute of Technology

关键词停用词中文停用词表联合熵 stop word Chinese stoplist union entropy

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Hart G W. To decode short cryptograms[A]. Communications of the ACM[C]. New York: Association for Computing Machinery, 1994.102-108.
2Van Rijsbergen C J. Information retrieval[M]. London: Butterworths Scientific Publication, 1975.
3Fox C. Lexical analysis and stoplists(including the ‘Brown Corpus’stoplist), information retrieval: Data structures and algorithms[M]. Upper Saddle River, New Jersey: Prentice Hall, 1992.
4Sinka M P, Corne D W. Web intelligence WI 2003[A]. Proceedings IEEE/WIC International Conference on Soc[C]. Los Alamitos: IEEE Comput, 2003.396-402.
5Silva C, Ribeiro B. The importance of stop word removal on recall values in text categorization[J]. Neural Networks, 2003, 3:20-24.
6Yang Y. Pedersen J O. A comparative study on feature selection in text categorization[A]. Proceedings of ICML-97, 14th International Conference on Machine Learning[C]. San Francisco: Morgan Kaufmann Publishers Inc., 1997.412-420.
7Luhn H P. The automatic creation of literature abstracts[J]. IBM Journal of Research and Development, 1958, 2(2):159-165.
8Harman D. An experimental study of factors important in document ranking[A]. Proceedings of the 1986 ACM Conference on Research and Developments in Information Retrieval[C]. New York: Association for Computing Machinery, 1986.186-193.
9北京大学计算语言学研究所. 1998年1月人民日报切分、标注语料库[EB/OL]. http:∥icl.pku.edu.cn//icl_groups/corpus/dwldform1.asp,2001-05-10/2004-04-01. (in Chinese)Institute of Computational Linguistics Peking University. Word segmentation corpus from People's Daily(January 1998)[EB/OL]. http:∥icl.pku.edu.cn//icl_groups/corpus/dwldform1.asp,2001-05-10/2004-04-01.
10陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126

二级参考文献1

1李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78

共引文献125

1陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
2赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
3徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
4姜澜,李秀坤,单丽莉.一种新的词语权重计算方法[J].哈尔滨工业大学学报,2011,43(S1):315-318. 被引量：1
5李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
6施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
7李国臣,段建勇.基于语法语义信息量化模型的语素字再分类[J].计算机工程,2004,30(11):37-39.
8鲁明羽,张红,付克明,陆玉昌.Web ME——一个大型网络挖掘环境系统[J].哈尔滨工业大学学报,2004,36(9):1164-1167. 被引量：1
9王大亮,孙建涛,陆玉昌,夏克俭.一种面向自动文本摘要特征评价的新方法[J].计算机工程与应用,2004,40(33):176-178.
10刘志为,何丕廉,孙越恒,郑小慎.N层向量空间模型在Web信息检索中的应用[J].微型机与应用,2004,23(12):60-62. 被引量：5

同被引文献264

1曲维光.汉语自动分词的方法选择[J].计算机科学,2002,29(z1):54-56. 被引量：2
2钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
3李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：4
4姚天顺,张俐,高竹.WordNet综述[J].语言文字应用,2001(1):27-32. 被引量：33
5张爱丽,刘广利,刘长宇.基于SVM的多类文本分类研究[J].情报杂志,2004,23(9):6-7. 被引量：7
6徐激,龚俭.垃圾邮件的综合过滤方法[J].计算机科学,2005,32(2):69-72. 被引量：11
7周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
8孙国菊,张杰.中文文本分类的特征选取评价[J].哈尔滨理工大学学报,2005,10(1):76-78. 被引量：14
9费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
10车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116

引证文献35

1熊文新,宋柔.信息检索用户查询语句的停用词过滤[J].计算机工程,2007,33(6):195-197. 被引量：16
2化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：39
3蒋子龙,高曙.基于向量空间模型的Web服务描述相似度计算的研究与实现[J].咸阳师范学院学报,2007,22(6):52-54. 被引量：1
4王素格,魏英.停用词表对中文文本情感分类的影响[J].情报学报,2008,27(2):175-179. 被引量：22
5唐坚刚,熊国萍.自适应不良网页过滤模式的研究与实践[J].计算机工程与设计,2008,29(20):5324-5326. 被引量：1
6崔彩霞.停用词的选取对文本分类效果的影响研究[J].太原师范学院学报（自然科学版）,2008,7(4):91-93. 被引量：7
7杨涛.基于Web内容挖掘的个性化学习系统[J].科学技术与工程,2009,9(6):1624-1627. 被引量：1
8黄魏,高兵,刘异,杨克巍.基于词条组合的中文文本分词方法[J].科学技术与工程,2010,10(1):85-89. 被引量：6
9夏火松,陶敏,王一,魏翔.停用词表对基于SVM的中文文本情感分类的影响[J].情报学报,2011,30(4):347-352. 被引量：6
10巩政,关高娃.蒙古文停用词和英文停用词比较研究[J].中文信息学报,2011,25(4):35-38. 被引量：6

二级引证文献238

1胡勇军,韦婷婷,窦子欣,黄芸茵,梁锐成,常会友.广东刀剪产业转型升级技术发展路径研究——基于专利TRIZ分析[J].数据分析与知识发现,2020,4(2):101-109. 被引量：5
2冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
3李永红,汪盈,李腊全,赵志强.一种改进的特征选择算法在邮件过滤中的应用[J].计算机科学,2022,49(S02):740-744. 被引量：4
4楚东晓,王雯露,穆勤远.基于LDA和语义网络的产品感知价值维度研究[J].包装工程,2023,44(S01):47-55. 被引量：2
5化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：39
6熊文新,宋柔.信息检索需求描述中的词语区域凸显[J].计算机科学,2008,35(2):181-184.
7丁振国,张卓,黎靖.基于Hash结构的逆向最大匹配分词算法的改进[J].计算机工程与设计,2008,29(12):3208-3211. 被引量：26
8雷刚,冷荣秋,林思扬.一种计算机领域英汉双语语料库平台的构建[J].科技广场,2009(9):132-135.
9江耿豪.基于FAQ的自动答疑系统的设计与实现[J].计算机时代,2009(12):39-41. 被引量：4
10郑魁,疏学明,袁宏永.网络舆情热点信息自动发现方法[J].计算机工程,2010,36(3):4-6. 被引量：44

1韩秉军.网页文档到Word文档的转变[J].中小学电教（综合）,2010(6):79-80.
2本刊投稿须知[J].中小学教材教学,2016,0(10):75-75.
3本刊投稿须知[J].中小学教材教学,2016,0(11):34-34.
4本刊投稿须知[J].中小学教材教学,2016,0(9):10-10.
5投稿须知[J].中小学教材教学,2017,0(3):20-20.
6本刊编辑部.“网络与人文研究”征稿启事[J].淮阴师范学院学报（哲学社会科学版）,2015,37(2):176-176.
7本刊编辑部.“网络与人文研究”征稿启事[J].淮阴师范学院学报（哲学社会科学版）,2016,38(6):705-705.
8本刊编辑部.“网络与人文研究”征稿启事[J].淮阴师范学院学报（哲学社会科学版）,2014,36(6):789-789.
9本刊编辑部.“网络与人文研究”征稿启事[J].淮阴师范学院学报（哲学社会科学版）,2016,38(4):479-479.
10本刊编辑部.“网络与人文研究”征稿启事[J].淮阴师范学院学报（哲学社会科学版）,2015,37(3):323-323.

北京理工大学学报

2005年第4期

浏览历史

内容加载中请稍等...

中文停用词表的自动选取被引量：35

参考文献12

二级参考文献1

共引文献125

同被引文献264

引证文献35

二级引证文献238

相关作者

相关机构

相关主题

浏览历史

中文停用词表的自动选取 被引量：35

参考文献12

二级参考文献1

共引文献125

同被引文献264

引证文献35

二级引证文献238

相关作者

相关机构

相关主题

浏览历史

中文停用词表的自动选取被引量：35