基于社会标签的文本聚类研究被引量：8

Research on Text Clustering Based on Social Tagging

导出

摘要以社会标签在网络资源聚类中的作用为研究目标,筛选标注资源的社会标签作为特征项,采用K-means聚类算法对文本资源进行聚类,并在小规模测试集上得到较好效果。详细讨论基于社会标签的文本聚类中标签筛选、聚类方法等关键技术的实现过程。通过实验证明:基于社会标签的文本聚类是一种较传统关键词进行聚类更为有效的一种聚类方法,能够提高文本聚类的效果。 In this paper, the authors select social tags which are used to annotate resources as feature items. Text clustering is implemented by K - means, a kind of clustering algorithm, and successfully conducted on small data set. The implementation of primary technology, such as tag filtering, clustering algorithm, in text clustering based on social tagging isdiscussed in details. By the experiment, it is concluded that text clustering based on social tags performs better than keywords, which can improve the clustering results.

作者何文静何琳

机构地区南京农业大学信息科技学院

出处《现代图书情报技术》 CSSCI 北大核心 2013年第7期49-54,共6页 New Technology of Library and Information Service

基金江苏省社会科学基金"社会化网络资源的组织模式和管理策略研究"(项目编号:12TQC014) 南京农业大学SRT计划"基于社会标签的Folksonomy的技术改造"(项目编号:1219A09)的研究成果之一

关键词社会标签特征选择聚类方法文本聚类 Social tag Feature selection Clustering algorithm Text clustering

分类号 G254 [文化科学—图书馆学]

引文网络
相关文献

参考文献12

1Brooks C H, Montanez N. An Analysis of the Effectiveness of Tag- ging in Blogs [ C ]. In : Proceedings of 2005 AAAI Spring Symposium on Computational Approaches to Analyzing Weblogs. California: AAAI, 2005:9 - 14.
2A1 - Khalifa H S, Davis H C. Folksonomy Versus Automatic Key- word Extraction :An Empirical Study[ EB/OL]. [ 2012 -08 -15 ]. http://eprints, ecs. soton, ac. uk/.
3Ramage D, Heymann P, Manning C D, et al. Clustering the Tagged Web [ C ]. In : Proceedings of the 2nd ACM International Conference on Web Search and Data Mining ( WSDM' 09 ). New York, NY, USA: ACM, 2009:54-63.
4王波,唐常杰,段磊,尹佳,左劼,李川.RT-Rank:基于RSS标签排名相关性的文档聚类[J].计算机研究与发展,2007,44(z3):125-130. 被引量：2
5Kim H L, Yang S, Song S, et al. Tag Mediated Society with SCOT Ontology[C/OL]. In: Proceedings of Semantic Web Challenge. 2007. [2013 -04 - 18 ]. http://www, cs. vu. nl/ pmika/swc - 2007/SCOT. pdf.
6杨丹,曹俊.基于Web2.0的社会性标签推荐系统[J].重庆工学院学报（自然科学版）,2008,22(7):51-55. 被引量：14
7张云,冯博琴.利用标签的层次化搜索结果聚类方法[J].西安交通大学学报,2009,43(4):18-21. 被引量：5
8Heymann P, Garcia - Molina H. Collaborative Creation of Commu- nal Hierarchical Taxonomies in Social Tagging Systems [ R ]. Cali- fornia: Stanford University,2006.
9窦永香,苏山佳,赵捧未.基于Porter算法的英文标签聚类方法研究[J].现代图书情报技术,2009(9):40-44. 被引量：9
10Zubiaga A, K,rner C, Strohmaier M. Tags vs Shelves : From Social Tagging to Social Classification [ C ]. In: Proceedings of the 22nd ACM Conference on Hypertext and Hypermedia. New York, NY, USA: ACM ,2011:93 - 102.

二级参考文献58

1SMADJA F. Retrieving collocations from text: Xtract [J]. Computational Linguistics, 1993, 19 (1): 113- 177.
2ZHANG Dell, DONG Yisheng. Semanlic hierarchical, online clustering of Web search results [C] // Proceeding of lhe 6th Asia Pacific Web Conference (APWEB). Berlin, Germany: Springer-Verlag, 2004:69 78.
3ZAMIR O, ETZIONI O. Grouper: a dynamic clustering interface to Web search results [C]// Proceedings of the 8th International World Wide Web Conference. Toronto, Canada: Elsevier, 1999 : 283-296.
4OSINSKI S. An algorithm for clustering of Web search results [D]. Poznan,Poland: Poznan University, of Technology. 2003.
5ZENG Huajun, HE Qicai, CHEN Zheng, et al. Learning to cluster Web search results [C] // Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, USA: ACM, 2004: 210- 217.
6GERACI F, PELLEGRINI M, MAGGINI M, et al. Cluster generation and cluster labeling for Web snippets: a fast and accurate hierarchical solution [J]. Internet Mathematics, 2007, 3(4):413-444.
7The Porter Stemming Algorithm [ EB/OL]. [ 2009 - 02 - 10 ]. http ://tartarus. org/- martin/PorterStemmer/def. txt.
8Mathes A. Folksonomies - cooperative Classification and Communication Through Shared Metadata [ EB/OL ]. [ 2007 - 11 - 10 ]. http://www. adammathes.com -/academic/computer- mediated - communication/folksonomies. html.
9Abel F, Henze N, Krause D. Exploiting Additional Context for Graph-based Tag Recommendations in Folksonomy Systems [ C ]. In: Proceedings of IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, Singapore. 2008 : 148 - 154.
10Abbasi R, Staab S, Cimiano P. Organizing Resource on Tagging Systems Using T - ORG [ C ]. In : Proceedings of the International Workshop on Bridging the Gap Between Semantic Web and Web2.0, Innsbruck, Austria. 2007:97 - 110.

共引文献30

1吴思竹.社会标注系统中标签推荐方法研究进展[J].图书馆杂志,2010,29(3):48-52. 被引量：14
2窦永香,苏山佳,杨美姣,陈丽霞.基于大众标注的P2P语义检索系统模型研究[J].现代图书情报技术,2010(2):50-55. 被引量：4
3蒋翠清,张玉,丁勇.基于PLSA的大众标注潜在语义发现[J].现代图书情报技术,2010(10):28-32. 被引量：1
4张新伦,苏一丹,惠刚刚.核K-Means聚类在Folksonomy标签模糊和冗余中的应用[J].计算机应用,2011,31(3):680-682. 被引量：3
5易明,邓卫华.基于标签的个性化信息推荐研究综述[J].情报理论与实践,2011,34(3):126-128. 被引量：21
6张新伦,苏一丹,覃希.标签模糊和冗余在标签推荐中的研究及应用[J].计算机应用研究,2011,28(8):2971-2973.
7李枫林,何洲芳.基于关键词共现分析的检索结果聚类研究[J].情报学报,2011,30(8):819-825. 被引量：9
8王卫平,张丽君.SNS背景下基于Tag和Rating相似度融合的协同过滤[J].计算机系统应用,2011,20(10):78-81. 被引量：3
9罗宏,陈黎,王亚强,朱洪波,韩国辉,于中华.基于查询相关性分析的检索结果聚类算法[J].小型微型计算机系统,2011,32(10):2021-2026.
10陈渊,林磊,孙承杰,刘秉权.一种面向微博用户的标签推荐方法[J].智能计算机与应用,2011,1(3):21-26. 被引量：14

同被引文献161

1肖欣延,张东站,高君杰,薛永生.一种新的Web检索结果聚类方法[J].计算机研究与发展,2007,44(z2):79-83. 被引量：3
2王波,唐常杰,段磊,尹佳,左劼,李川.RT-Rank:基于RSS标签排名相关性的文档聚类[J].计算机研究与发展,2007,44(z3):125-130. 被引量：2
3李书宁.互联网信息环境中信息超载问题研究[J].情报科学,2005,23(10):1587-1590. 被引量：23
4王曰芬,宋爽,苗露.共现分析在知识服务中的应用研究[J].现代图书情报技术,2006(4):29-34. 被引量：59
5罗娜,左万利,袁福宇,张靖波,张慧杰.Using ontology semantics to improve text documents clustering[J].Journal of Southeast University(English Edition),2006,22(3):370-374. 被引量：8
6张树良,冷伏海.基于文献的知识发现的应用进展研究[J].情报学报,2006,25(6):700-712. 被引量：47
7王曰芬,宋爽,卢宁,朱烨.共现分析在文本知识挖掘中的应用研究[J].中国图书馆学报,2007,33(2):59-64. 被引量：44
8TanPN,SteinbachM,Kumarv数据挖掘导论[M].范明,范宏建,译.北京:人民邮电出版社,2006.
9谢艳玲,何丕廉,于鷃,孙越恒.一种高效的网页聚类方法[J].计算机工程与设计,2007,28(17):4229-4232. 被引量：7
10TAN P N,STEINBACH M,KUMAR V.数据挖掘导论[M].范明,范宏建,等译.北京:人民邮电出版社,2006.

引证文献8

1洪韵佳,许鑫.基于领域本体的知识库多层次文本聚类研究——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):19-26. 被引量：9
2李青,朱恒民,杨东超.微博网络中舆情话题传播演化模型[J].现代图书情报技术,2013(12):74-80. 被引量：22
3顾晓雪,章成志.结合内容和标签的Web文本聚类研究[J].现代图书情报技术,2014(11):45-52. 被引量：8
4章成志,顾晓雪.区分标签质量的机器生成标签聚类研究[J].现代图书情报技术,2015(10):22-29. 被引量：2
5顾晓雪,章成志.标注内容与用户属性结合的标签聚类研究[J].现代图书情报技术,2015(10):30-39. 被引量：4
6程钟琪,李雅静.基于标签理论构建企业的客户知识账户[J].江苏商论,2015(12):79-81. 被引量：1
7龚凯乐,成颖,孙建军.基于参与者共现分析的博文聚类研究[J].现代图书情报技术,2016(10):50-58. 被引量：2
8郭红建,陈一飞.社会标注系统自适应网页聚类算法研究[J].电子科技,2018,31(8):73-76.

二级引证文献48

1张琳,陈荔.多主体干预的微博舆情话题交互传播模型研究[J].情报科学,2022,40(11):49-55. 被引量：9
2许鑫,郭金龙.基于领域本体的专题库构建——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):2-9. 被引量：18
3郭金龙,洪韵佳,许鑫.中华烹饪文化领域本体构建及其应用[J].现代图书情报技术,2013(12):10-18. 被引量：7
4金碧漪,郭金龙,许鑫.利用领域本体优化文档检索的研究——基于KIM平台的设计与实现[J].现代图书情报技术,2013(12):27-33. 被引量：3
5张海涛,唐诗曼,魏明珠,李泽中.多维度属性加权分析的微博用户聚类研究[J].图书情报工作,2018,62(24):124-133. 被引量：13
6许鑫,洪韵佳.专题知识库中文本聚类结果的可视化研究——以中华烹饪文化知识库为例[J].现代图书情报技术,2014(10):25-32. 被引量：3
7何建民,王哲.社交网络话题信息传播影响簇发现谱系挖掘方法[J].现代图书情报技术,2015(5):65-72.
8张钰莎,蒋盛益.微博公共事件演化分析研究综述[J].广东工业大学学报,2015,32(2):58-63. 被引量：1
9王小立.智能多Agent网络的微信信息传播仿真研究[J].现代图书情报技术,2015(6):85-92. 被引量：9
10黄炜,姚嘉威.网络舆情事件的主动感知实践[J].现代情报,2015,35(10):7-11. 被引量：4

1黄丹,盛小平.基于社会标签的开放知识管理[J].图书与情报,2012(5):48-51. 被引量：6
2王耘.高校图书馆阅览信息资源的聚类导读管理[J].图书馆论坛,2005,25(3):159-160. 被引量：3
3翟爽,宋文.社会标签进展研究概述[J].图书情报工作,2010,54(20):41-44. 被引量：12
4胡海东.基于社会标签使用的图书馆网站建设研究[J].商场现代化,2012(26):222-223.
5吴丹,杨艳,马曦.社会标签的规范性研究——学术博客标注[J].情报资料工作,2011,32(6):11-15. 被引量：5
6冯倩然,吴丹.社会标签在图书馆中的应用模式研究[J].图书情报工作,2011,55(21):88-92. 被引量：6
7冯祝斌,华薇娜.社会标签研究现状调研与分析——基于WoS、LISA、ACMI、EEE数据库[J].情报杂志,2012,31(2):157-162. 被引量：4
8邱均平,柴雯.我国社会标签研究进展内容分析[J].图书馆论坛,2014,34(7):8-14. 被引量：2
9熊回香,王学东.社会化标注系统中基于关联规则的Tag资源聚类研究[J].情报科学,2013,31(9):73-77. 被引量：4
10翟爽,宋文.社会标签在图书馆的应用[J].图书馆建设,2010(2):111-112. 被引量：11

现代图书情报技术

2013年第7期

浏览历史

内容加载中请稍等...

基于社会标签的文本聚类研究被引量：8

参考文献12

二级参考文献58

共引文献30

同被引文献161

引证文献8

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于社会标签的文本聚类研究 被引量：8

参考文献12

二级参考文献58

共引文献30

同被引文献161

引证文献8

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于社会标签的文本聚类研究被引量：8