多特征融合的新闻聚类相似度计算方法被引量：2

A Similarity Calculation for News Clustering with Mixed

下载PDF

导出

摘要随着网络的发展,互联网已经成为了最重要的新闻媒介。网络上的新闻报道能广泛传播,对社会有着深刻的影响。因此互联网新闻事件的监督和挖掘分析,对政府,企业有着巨大的价值。在进行新闻报道分析的时候,最为重要的任务之一就是把网络上类别杂乱,来源广泛的新闻进行识别和归类。新闻归类主要是基于通用的聚类的方法,其中一项基本的技术就是新闻报道相似度计算。根据需求不同,新闻聚类类别可以是一个事件,或者是一领域。本文针对事件的新闻报道聚类,提出了一种混合特征的相似度计算方法。采用了Tf-Idf和n-gram结合的向量空间模型来得到文本相似度,再通过规则识别出新闻文本中的时间,地点等关键信息,进行关键信息匹配度计算,最后再把两个相似度结合作为最终匹配度。实验表明,混合特征的方法明显提高了事件聚类的准召率。 With the development of network technology,Internet have become the most important news media. The news in the Internet could be widespread and have profound influence on the society. Thus, the analysis and supervision of online news is valuable to government and company. One of the most important tasks in the analysis of online news and reports is identifying and classifying those news and reports. News and reports classifying base on general classification technologies, and a basic technology of them is the computation of news similarity. The ＂class＂ in news classification could be an event or a field, according to different requirements. In the thesis, a algorithm of computing news and report similarity for events clustering with mixed feature is designed. This method apply both Tf-Idf and n-gram in vector space model （VSM）. Furthermore, it abstracts some key information of news, such as time and place, calculating key information similarity using those information. In the end,combe those two similarity as final similarity. The experiment show that this method improve the accuracy and recall rate though mixing features.

作者李俊峰

机构地区北京邮电大学网络技术研究院

出处《软件》 2017年第12期170-174,189,共6页 Software

关键词计算机应用技术话题发现聚类文本相似度 Computer application technology Topic detection Clustering Text similarity

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
2孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1076
3李保利,俞士汶.话题识别与跟踪研究[J].计算机工程与应用,2003,39(17):7-10. 被引量：61
4税仪冬,瞿有利,黄厚宽.周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J].北京交通大学学报,2009,33(5):85-89. 被引量：28
5庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293

二级参考文献38

1贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
2谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
3骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
4许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
5李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
6柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息,2006,22(08X):24-26. 被引量：32
7张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
8初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14
9黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
10鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.

共引文献1656

1王琳,姜立新,杨天青,张维佳.地震应急信息自动分类方法研究[J].震灾防御技术,2019,14(4):907-916. 被引量：8
2丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
3席志武,范龙燕,于瑞.县级融媒体中心招聘需求对新闻教育改革的启示——基于2022年240则县级融媒体中心招聘信息文本的词频考察[J].中国新闻传播研究,2023(2):17-30. 被引量：1
4田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
5吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：3
6王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
7林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
8王胜源,谭棋,何江林.物流服务质量对生鲜电商顾客购买意愿的影响研究——基于京东生鲜商品在线评论的用户情感分析[J].辽宁工程技术大学学报（社会科学版）,2023(3):174-181. 被引量：4
9高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
10毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.

同被引文献14

1石春卉,吕玉光,刘翠娟,杨治伟,沙靖全,慎爱民.高校计算机专业学生创新能力培养的若干举措[J].医学教育探索,2010,9(5):613-615. 被引量：3
2徐敏,沈晓红,林爱华.高校计算机专业本科学生创新能力的提升途径[J].计算机教育,2011(16):89-91. 被引量：2
3黄志球,徐丙凤,阚双龙,胡军,陈哲.嵌入式机载软件安全性分析标准、方法及工具研究综述[J].软件学报,2014,25(2):200-218. 被引量：65
4何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：328
5温杰.应用型本科高校学生创新素养能力培育研究——以计算机专业为例[J].福建电脑,2014,30(8):60-61. 被引量：1
6任亚峰,姬东鸿,张红斌,尹兰.基于PU学习算法的虚假评论识别研究[J].计算机研究与发展,2015,52(3):639-648. 被引量：30
7秦兵,刘安安,刘挺.无指导的中文开放式实体关系抽取[J].计算机研究与发展,2015,52(5):1029-1035. 被引量：48
8江美辉,安海忠,高湘昀,管青,郝晓晴.基于复杂网络的食品安全事件新闻文本可视化及分析[J].情报杂志,2015,34(12):121-127. 被引量：8
9李明耀,杨静.基于依存分析的开放式中文实体关系抽取方法[J].计算机工程,2016,42(6):201-207. 被引量：27
10周源,刘怀兰,杜朋朋,廖岭.基于改进TF-IDF特征提取的文本分类模型研究[J].情报科学,2017,35(5):111-118. 被引量：51

引证文献2

1刘艳云.基于提高学生创新能力的高校计算机基础教学研究[J].软件,2018,39(9):179-182. 被引量：6
2郑丽敏,齐珊珊,田立军,杨璐.面向食品安全事件新闻文本的实体关系抽取研究[J].农业机械学报,2020,51(7):244-253. 被引量：16

二级引证文献22

1刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
2张婷婷,让冉,张龙波,邢林林,蔡红珍.面向新兴产业的检验检测服务关系抽取[J].智能计算机与应用,2022,12(2):32-36. 被引量：1
3朱彦廷.Word试题自动阅卷实现[J].软件,2020,41(2):111-112. 被引量：1
4李哲,房胜,黄玲.任务+项目驱动的Linux应用开发课程模式探索[J].软件,2020,41(4):271-274. 被引量：2
5师红宇,李怡.“新工科”背景下单片机课程设计的改革研究[J].软件,2020,41(5):260-262. 被引量：3
6田莉霞.PPT动画制作的信息化教学研究与实现[J].软件,2020,41(6):284-289. 被引量：1
7张海娟.谈高校计算机基础课程教学过程中学生创新能力的培养[J].电脑知识与技术,2020,16(18):159-160. 被引量：5
8李燕.《计算机应用基础》精品资源共享课建设与应用研究[J].软件,2020,41(7):284-287. 被引量：3
9郭旭超,唐詹,刁磊,周晗,李林.基于部首嵌入和注意力机制的病虫害命名实体识别[J].农业机械学报,2020,51(S02):335-343. 被引量：21
10陈默,张景祥,胡恩华,吴林海,张义.基于结构化分析和语义相似度的食品安全事件领域数据挖掘模型[J].食品科学,2021,42(7):35-44. 被引量：3

1董苑,钱丽萍.基于语义词典和词频信息的文本相似度计算[J].计算机科学,2017,44(B11):422-427. 被引量：8
2王宏昌.从“两会”报道分析“VR+新闻”报道模式[J].采写编,2017,0(5):13-14.
3王若成.基于LDA主题模型的微博检索研究与实现[J].信息技术与信息化,2017(11):104-107.
4陈红阳,汪林林,陈滢生,鲁江坤,左雪.特征词选择与相似度融合的微博话题发现方法[J].电信科学,2017,33(10):134-140.
5张翼鹏,葛丽娜,王红,王丽颖,张静.基于改进细菌觅食算法的舆情热点话题发现[J].计算机工程与设计,2017,38(10):2832-2837. 被引量：4
6李聿哲,曾永强.《人民日报》雾霾报道分析(2016年)[J].新闻知识,2017(11):37-42. 被引量：1
7俞婷婷,徐彭娜,江育娥,林劼.基于改进的Jaccard系数文档相似度计算方法[J].计算机系统应用,2017,26(12):137-142. 被引量：31
8佘凌凌.高中英语新闻文体的解读与实践[J].校园英语,2017,0(41):111-112.
9黄姝婧,张仰森.基于多特征融合的句子相似度计算方法[J].北京信息科技大学学报（自然科学版）,2017,32(5):45-49. 被引量：3
10李帅彬,李亚星,冯旭鹏,刘利军,黄青松.基于词向量的微博话题发现方法[J].计算机应用与软件,2017,34(12):47-52. 被引量：2

软件

2017年第12期

浏览历史

内容加载中请稍等...

多特征融合的新闻聚类相似度计算方法被引量：2

参考文献5

二级参考文献38

共引文献1656

同被引文献14

引证文献2

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

多特征融合的新闻聚类相似度计算方法 被引量：2

参考文献5

二级参考文献38

共引文献1656

同被引文献14

引证文献2

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

多特征融合的新闻聚类相似度计算方法被引量：2