基于主题词频数特征的文本主题划分被引量：11

New text categorization method based on the frequency of topic words

下载PDF

导出

摘要目前文本分类所采用的文本—词频矩阵具有词频维数过大和过于稀疏两个特点,给计算造成了一定困难。为解决这一问题,从用户使用搜索引擎时选择所需文本的心理出发,提出了一种基于主题词频数特征的文本主题划分方法。该方法首先根据统计方法筛选各文本类的主题词,然后以主题词类替代单个词作为特征采用模糊C-均值(FCM)算法施行文本聚类。实验获得了较好的主题划分效果,并与一种基于词聚类的文本聚类方法进行了过程及结果中多个方面的比较,得出了一些在实施要点和应用背景上较有意义的结论。 The word frequency matrix currently used in text categorization is characterized with high dimensionality and excessive sparsity. These two features caused some difficulties to computing. To solve this problem, according to the search engine users＇ selections, a new text categorization method based upon the feature of topic words frequency was proposed. This approach was designed to filter new concept topic words by statistical method, and then the FCM clustering algorism was applied to the documents, using the frequency of topic words rather than the frequency of single word as the feature. This method performs well in the experiment. Furthermore, this method was compared in many aspects with a text categorization method based on keyword qlusters, and some useful conclusions about implementation and application were reached.

作者康恺林坤辉周昌乐

机构地区厦门大学软件学院厦门大学信息科学与技术学院

出处《计算机应用》 CSCD 北大核心 2006年第8期1993-1995,共3页 journal of Computer Applications

基金厦门大学985二期信息创新平台项目资助(0000-X07204)

关键词搜索引擎文本聚类模糊C-均值主题词筛选 search engine document clustering Fuzzy C-Means（FCM） topic word filtering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1DEERWESTER S,DUMAIS ST,LANDAUER TK,et al.Indexing by latent semantic analysis[J].Journal of Society for Information Science,1990,41 (6):391-407.
2CHANG H-C,HSU C-C.Using topic keyword clusters for automatic document clustering[J].IEEE Transactions on Information and Systems,2005,E88-D(8):1852-1860.
3CHANG HC,HSU CC,DENG YW.Automatic document clustering based on keyword clusters using partitions of weighted undirected graph[A].Proceedings of 2003 Symposium on Digital Life and Intemet Technologies[C].2003.
4HSIEH SM,HUANG SJ,HSU CC,et al.Personal document recommendation system based on data mining techniques[A].Proceedings of 2004 IEEE/WIC/ACM International Joint Conference on Web Intelligence[C].2004.51-57.
5HUANG ZX,MICHAEL KN.A fuzzy k-modes algorithm for clustering categorical data[J].IEEE transactions on fuzzy systems,1999,7(4).
6HUANG ZX.Extensions to the k-means algorithm for clustering large data sets with categorical values[J].Data Mining and Knowledge Discovery,1998,2(3):283-304.
7RICARDO BAEZA-YATES,BERTHIER RIBEIRO-NETO.Modern Information Retrieval[M].ACM Press,1999.

同被引文献113

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2冯晋,李春平.基于统计学和语义信息的中文文本主题识别技术[J].清华大学学报（自然科学版）,2005,45(S1):1791-1794. 被引量：6
3沙芸,张国英.基于词间语义相关度的搜索结果聚类算法[J].郑州大学学报（理学版）,2009,41(1):73-76. 被引量：2
4张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
5陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
6陈炯,范卓华,张虎.汉语文本聚类及其算法设计[J].山西电子技术,2005(2):29-30. 被引量：3
7谭胜,马静,吴一占.基于主题描述模型的相关性判断在网页信息抽取中的应用[J].情报学报,2011,30(2):155-159. 被引量：6
8傅间莲,陈群秀.基于连续段落相似度的主题划分算法[J].计算机应用,2005,25(9):2022-2024. 被引量：10
9傅间莲,陈群秀.自动文摘系统中的主题划分问题研究[J].中文信息学报,2005,19(6):28-35. 被引量：13
10骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38

引证文献11

1李营,王儒敬,王大为,魏保子.基于用户兴趣的搜索结果动态聚类算法[J].计算机工程与应用,2008,44(4):187-189. 被引量：2
2刘颖,胡明涵.基于随机关键词产生技术的政府公文分类系统[J].计算机应用,2008,28(5):1359-1361. 被引量：1
3孔庆苹,刘宗田,廖涛.基于概念获取的多文档主题划分研究[J].计算机科学,2008,35(5):131-133. 被引量：6
4陈志敏,沈洁,赵耀.一种基于DOM的Web文档主题划分方法[J].计算机应用与软件,2009,26(8):59-61.
5乔石,陈礼青.安全组播核心问题研究[J].淮阴工学院学报,2009,18(5):43-47.
6刘颖.贝叶斯方法在文本分类预处理中的应用[J].电脑与信息技术,2010,18(6):26-27. 被引量：1
7胡诗未,李晓峰,徐伟.基于主题词匹配频数的搜索引擎结果聚类算法[J].计算机工程与科学,2011,33(6):130-132. 被引量：2
8郝晓玲.网络舆情研判技术的研究进展[J].情报科学,2012,30(12):1901-1906. 被引量：8
9陈芯莹,刘海涛.句法复杂网络作为语体分类的知识源研究[J].计算机工程与应用,2013,49(8):32-36. 被引量：6
10朱华玲,黄玉丽,马延,方金林.受控标引在文献数据库中应用和发展的调查分析[J].图书情报工作,2013,57(13):140-144. 被引量：1

二级引证文献27

1李静.基于Portal的大学图书馆个性化服务研究与实现[J].情报杂志,2009,28(7):170-174. 被引量：4
2张英.农业Web信息获取系统的研究与设计[J].农业网络信息,2009(8):42-45.
3王萌,徐超,李春贵,何婷婷.基于子主题区域划分的多文档自动文摘方法[J].计算机工程,2011,37(12):158-160. 被引量：1
4张全,袁毅.面向智能搜索的文本语义概念计算[J].科研信息化技术与应用,2011,2(4):32-39. 被引量：1
5勾智楠.基于用户兴趣的多属性效用算法的研究[J].河北工业科技,2012,29(2):82-85.
6熊志斌,刘冬.朴素贝叶斯在文本分类中的应用[J].软件导刊,2013,20(2):49-51. 被引量：12
7陈芯莹,刘海涛.语义、句法网络作为语体分类知识源的对比研究[J].计算机工程与应用,2014,50(2):10-14. 被引量：2
8赵一鸣,张进.文本主题可视化及其在上市公司风险分析中的应用[J].图书情报工作,2014,58(2):102-108. 被引量：4
9王萌,唐新来,何婷婷.一种文本分割技术的多文档文摘方法研究[J].计算机应用与软件,2014,31(9):40-44. 被引量：2
10方付建.网络舆情研究中量化方法应用态势分析[J].情报杂志,2014,33(10):47-51. 被引量：3

1张利彪,周春光,马铭,刘小华,孙彩堂.基于粒子群优化算法的模糊C-均值聚类[J].吉林大学学报（理学版）,2006,44(2):217-222. 被引量：27
2石洪波,于剑,黄厚宽.一种有效的FCM算法的实现方式[J].铁道学报,2003,25(1):63-67. 被引量：9
3丁黄望,丁要军.模糊聚类分析及其在信息检索中的应用[J].福建电脑,2006,22(4):137-138. 被引量：1
4徐妙君,顾沈明.面向Web的文本挖掘技术研究[J].控制工程,2003,10(z1):44-46. 被引量：4
5丁震,胡钟山,杨静宇,唐振民,邬永革.一种基于模糊聚类的图象分割方法[J].计算机研究与发展,1997,34(7):536-541. 被引量：28
6袁文生,王晓峰.基于朴素贝叶斯的中文海事文本多分类器研究[J].计算机与现代化,2011(5):150-153.
7周瑛,方宏彬,张持健.模糊聚类在信息检索中的应用[J].微机发展,2005,15(3):107-109. 被引量：3
8邢婷,邢治国,王凤领.基于信息熵的FCM聚类算法[J].计算机工程与设计,2010,31(23):5092-5095. 被引量：7
9江克勤,施培蓓.优化初始中心的模糊C-均值(FCM)算法[J].合肥工业大学学报（自然科学版）,2009,32(5):762-764. 被引量：14
10李岩波,韩啸.基于空间模糊聚类的图像分割优化算法[J].吉林大学学报（理学版）,2014,52(3):565-567. 被引量：5

计算机应用

2006年第8期

浏览历史

内容加载中请稍等...

基于主题词频数特征的文本主题划分被引量：11

参考文献7

同被引文献113

引证文献11

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于主题词频数特征的文本主题划分 被引量：11

参考文献7

同被引文献113

引证文献11

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于主题词频数特征的文本主题划分被引量：11