基于和声搜索机制的特征选择与文本聚类分析

Feature selection and text clustering analysis based on harmony search

下载PDF

导出

摘要针对文本信息特征冗余多、噪声大问题,提出基于和声搜索机制的文本特征选择算法。以词频逆文本频率指数为目标函数评估特征词条;在初始文档集中通过和声搜索的记忆考虑、纵向倾角调整和随机选择3种特征选择新解更新规则,迭代搜索最优特征子集;以最优特征子集为基础,以K均值进行文本聚类。利用4种典型文档数据集进行仿真实验,实验结果表明,该算法可以有效降低文本特征维度,聚类准确率更高。 Aiming at the problems of the redundancy and the big noise of features in text information,a text feature selection algorithm based on harmony search mechanism was proposed.The term frequency-inverse document frequency was used as an objective function to evaluate each text feature at the level of the document,and the original dataset was taken to obtain a new optimal feature subset by three update rules of new solutions,including the memory consideration,the longitudinal angle adjustment and the random selection in harmony search.Based on the optimal feature subset,K-mean was used to make text clustering.Simulation experiments were carried out using four typical text datasets on clustering test.The results show that,the proposed algorithm not only can effectively reduce the text feature dimension,but has higher accuracy of text clustering.

作者王永刚李靖王文慧曹传剑王晓燕 WANG Yong-gang;LI Jing;WANG Wen-hui;CAO Chuan-jian;WANG Xiao-yan(College of General Education,Qingdao Huanghai University,Qingdao 266427,China;School of Data Science,Qingdao Huanghai University,Qingdao 266427,China;Teaching Department,Qingdao Huanghai University,Qingdao 266427,China;School of Intelligent Manufacturing,Qingdao Huanghai University,Qingdao 266427,China)

机构地区青岛黄海学院通识教育学院青岛黄海学院大数据学院青岛黄海学院教学工作部青岛黄海学院智能制造学院

出处《计算机工程与设计》北大核心 2022年第2期472-478,共7页 Computer Engineering and Design

基金山东省高等学校青创人才引育计划建设团队基金项目(201901)。

关键词特征选择文本聚类和声搜索机制 K均值文本聚类特征子集 feature selection text clustering harmony search mechanism K-mean text clustering feature subset

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1田诗宵,丁立新,郑金秋.基于密度峰值优化的K-means文本聚类算法[J].计算机工程与设计,2017,38(4):1019-1023. 被引量：26
2邱云飞,赵彬,林明明,王伟.结合语义改进的K-means短文本聚类算法[J].计算机工程与应用,2016,52(19):78-83. 被引量：14
3文平,刘渊,张春瑞.基于后缀树的半监督自适应多密度文本聚类算法[J].小型微型计算机系统,2016,37(1):100-103. 被引量：3
4宋呈祥,陈秀宏,牛强.文本分类中基于CHI改进的特征选择方法[J].微电子学与计算机,2018,35(9):74-78. 被引量：5

二级参考文献30

1Guo Qinglin,Zhang Ming.Multi-documents automaticabstracting based on text clusteringand semantic analysis[J].Knowledge-Based Systems,2009,22(3):482-485.
2Carretero-Campos C,Bernaola-Galvan P,Coronado A V.Improving statistical keyword detection in short texts:Entropic and clustering approaches[J].Physica A,2013,392(6):1481-1492.
3Liu Wenyin,Quan Xiaojun,Feng Min.A short text modelingmethod combining semantic andstatistical information[J].Information Sciences,2010,180(20):4031-4041.
4Cagnina L,Errecalde M,Ingaramo D.An ef ficient particleswarm optimization approach tocluster short texts[J].Information Sciences,2013,56(3):1-14.
5Feng Xinyuan,Wei Jianguo,Lu Wenhuan.Word semanticsimilarity calculation based on domain knowledge andHowNet[J].Telkomnika Indonesian Journal of ElectricalEngineering,2014,12(2):1143-1148.
6Wang Huiying,Liu Xiangwei.Study on frequent termset-based clustering algorithm[C].Proceedings of the 8thInternational Conference on Fuzzy Systems and KnowledgeDiscovery,2011:1182-1186.
7Zhang Wen,Yoshida T,Tang Xijin.Text clustering usingfrequent itemsets[J].Knowledge-Based Systems,2010,256(67):379-388.
8Li Xiangdong,Zhang Cheng.Research on enhancing theeffectiveness of the Chinese text automatic categorizationbased on ictclas segmentation method[C].Proceedingsof 2013 IEEE 4th International Conference on SoftwareEngineering and Service Science,2013:109-116.
9贺涛,曹先彬,谭辉.基于免疫的中文网络短文本聚类算法[J].自动化学报,2009,35(7):896-902. 被引量：18
10胡洋,王井东,俞能海,华先胜.一种基于成对约束的半监督最大间隔聚类算法[J].小型微型计算机系统,2010,31(5):932-936. 被引量：1

共引文献40

1刘昆.机器学习算法在文本信息挖掘中的应用[J].网络安全技术与应用,2016(11):77-77. 被引量：3
2张紫玄,王雪颖,王昊.题名与关键词在文献内容揭示中的对比研究——基于农产品品牌评价领域[J].情报科学,2017,35(10):88-93. 被引量：13
3施维,王兴华,万巍,薛均,潘璀然,程显毅,董建成,王理.基于竞争学习的大规模微博文本聚类[J].江苏科技大学学报（自然科学版）,2017,31(6):768-773.
4邹臣嵩,杨宇.基于最大距离积与最小距离和协同K聚类算法[J].计算机应用与软件,2018,35(5):297-301. 被引量：15
5冯靖,莫秀良,王春东.基于LDA改进的K-means算法在短文本聚类中的研究[J].天津理工大学学报,2018,34(3):7-11. 被引量：6
6陈培毅.基于密度的K-Means算法在环保监控管理系统中的应用研究[J].环境科学与管理,2018,43(8):5-8. 被引量：1
7文必龙,李菲,马强.面向线性文本的K-means聚类算法研究[J].计算机技术与发展,2018,28(9):53-58.
8魏康园,何庆,徐钦帅.一种改进森林优化的K-means聚类算法[J].贵州大学学报（自然科学版）,2018,35(6):69-75. 被引量：8
9肖枝洪,于浩,王一超.基于动态离差平方和准则的无监督机器学习[J].重庆理工大学学报（自然科学）,2018,32(11):134-139. 被引量：10
10任春华,孙林夫,吴奇石.基于LRFAT模型和改进K-means的汽车忠诚客户细分方法[J].计算机集成制造系统,2019,25(12):3267-3278. 被引量：16

1王贤明,潘佳玲,胡智文.AR-Grams:一种应用于网络舆情热点发现的文本聚类方法[J].中国传媒大学学报（自然科学版）,2021,28(5):59-65. 被引量：2
2成也,杨镇恺,姚力,王新波,赵小杰.基于量表大数据的深度神经网络抑郁分类模型[J].北京师范大学学报（自然科学版）,2021,57(6):868-874. 被引量：1
3施琦,胡威,许德骅,彭魏,苏晨,朱衡.疫情下电商数据对产品设计决策的影响研究[J].包装工程,2021,42(20):152-158. 被引量：3
4张昊.基于文本挖掘技术的电子商务网站个性化推荐分析[J].电子制作,2021,29(22):65-67. 被引量：1
5马园园,柳利芳,涂克强,刘国英,刘永革.基于矩阵分解和同文正则化的甲骨文本聚类分析[J].山东大学学报（工学版）,2021,51(6):69-74. 被引量：2
6孙永鹏,钟佩思,刘梅,曹爱霞,李梁.基于YOLOv4算法的冲压件缺陷检测[J].锻压技术,2022,47(1):222-228. 被引量：7
7杨耀,李四海.基于对称不确定性和Lasso的基因数据特征选择算法[J].信息技术与信息化,2022(1):8-11. 被引量：1
8李欣倩,杨哲,任佳.基于互信息与层次聚类双重特征选择的改进朴素贝叶斯算法[J].测控技术,2022,41(2):36-40. 被引量：10
9梁正友,黎雨星,孙宇,姚强.基于多特征组合的构音障碍语音识别[J].计算机工程与设计,2022,43(2):567-572. 被引量：7
10刘灿,田川,王闯,李阳.基于改进堆叠自编码网络的软件质量预测方法[J].长江信息通信,2021,34(12):4-7. 被引量：2

计算机工程与设计

2022年第2期

浏览历史

内容加载中请稍等...

基于和声搜索机制的特征选择与文本聚类分析

参考文献4

二级参考文献30

共引文献40

相关作者

相关机构

相关主题

浏览历史