基于查询向量的英语话题跟踪研究被引量：8

English Topic Tracking Research Based on Query Vector

下载PDF

导出

摘要通过分析英语新闻报道的特点,提出了一种基于词汇区分和位置特征相结合的特征项抽取算法.词汇区分是指将单词分为首字母是大写的单词和首字母不是大写的单词,位置特征利用新闻报道的倒金字塔式的结构特点决定单词的重要性.提出了一种基于多个特征项抽取算法融合的特征项权值计算方法,该方法认为被越多的特征项抽取算法选中的特征项越重要.提出了一种基于多数投票策略的双重过滤算法,对报道和话题是否相关进行两次过滤,大大降低了系统的误报率.实验表明提出的3种算法不但取得了很好的效果,而且具有很好的可扩展性. As a new area of natural language processing, topic tracking has received a lot of attentions from experts both at home and at broad, and has become more and more popular. Topic tracking is defined to be the task of monitoring a stream of news stories to find those that discuss the topic known to the system. Research is made into three key problems in the query-based topic tracking： feature extraction, feature weight computation, and similarity measure. Firstly, a feature extraction algorithm based on the combination of word differentiation and the location property is proposed. The basic idea of word differentiation is to divide words into capital words, whose initials are capital, and common words, whose initials are not capital. The location property decides the importance of words based on the inverse-pyramidal structure of the news stories. Secondly, a new method to compute the feature＇s weight based on the combination of several different feature extraction algorithms is proposed. This method gives the feature bigger weight, which is selected by more feature extraction algorithms. Finally, a double filtration algorithm based on the majority vote rule is proposed, which makes two judgments about the relativity of a story and a topic, and reduces the system＇s false alarm successfully. Experiments indicate that these three proposed methods not only perform well, but also have good scalability.

作者赵华赵铁军于浩郑德权

机构地区哈尔滨工业大学计算机科学与技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2007年第8期1412-1417,共6页 Journal of Computer Research and Development

基金国家自然科学基金重点项目(60435020) 国家"八六三"高技术研究发展计划基金项目(2004AA117010-08)

关键词话题跟踪词汇区分多数投票策略双重过滤归一化检测开销 topic tracking word differentiation majority vote rule double filtration normalized detection cost

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1J Carthy,A F S Smeaton.The design of a topic tracking system[C].The 22nd Annual Colloquium on IR Research,Cambridge,UK,2000.
2贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
3Yiming Yang,Tom Ault,Thomas Pierce,et al.Improving text categorization methods for event tracking[C].The 23rd Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval,Athens,Greece,2000.
4James Allan,Jaime Carbonell.Topic detection and tracking pilot study:Final report[C].The DARPA Broadcast News Transcriptions and Understanding Workshop,San Francisco,1998.
5Nianli Ma,Yiming Yang,Monica Rogati.Applying CLIR techniques to event tracking[C].Asia Information Retrieval Symp,Beijing,2004.
6P van Mulbregt,J P Yamron,I Carp,et al.Text segmentation and topic tracking on broadcast news via a hidden Markov model approach[C].ICSLP-98,Sydney,1998.
7Yiming Yang,Jan O Pedersen.A comparative study on feature selection in text categorization[C].The Int'l Conf on Machine Learning,Nashville,USA,1997.
8Juha Makkonen,Helena Ahonen-Myka,Marko Salmenkivi.Applying semantic classes in event detection and tracking[C].Int'l Conf on Natural Language Processing,Mumbai,India,2002.
9James Allan,Victor Lavrenko,Ron Papka.Event tracking[R].University of Massachusetts,Computer Science Department,Tech Rep:IR-128,1998.
10周嫔,马少平,苏中.多分类器合成方法综述[C].见:中文信息处理国际会议论文集,1998:85～92

二级参考文献7

1R Papka.On-line new event detection,clustering,and tracking:[Ph D dissertation].MA:University of Massachusetts Amherst,1999
2K Hui,W Lam.Automatic event generation from multi-lingual news stories.In:Proc of the First ACM/IEEE-CS Joint Conf on Digital Libraries.Roanoke,New York:ACM Press,2001.23～24
3N Stokes,J Carthy,A F Smeaton.Segmenting broadcast news streams using lexical chaining.In:T Vidal,P Liberatore,eds.Proc of STAIRS 2002.Amsterdam:IOS Press,2002.145～154
4D Randall.The Universal Journalist,Second Edition.London:Pluto Press,2000
5S H Lin,M C Chen,J M Ho,et al.ACIRD:Intelligent Internet document organization and retrieval.IEEE Trans on Knowledge and Data Engineering,2002,14(3):599～613
6G Salton,B Buckley.Term-weighting approaches in automatic text retrieval.Information Processing and Management,1998,24(5):513～523
7李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001,24(1):62-68. 被引量：108

共引文献58

1王海瑜,潘泉,张洪才,张绍武.基于多支持向量机的DT算法研究及应用[J].计算机工程与应用,2004,40(18):83-84. 被引量：2
2赵华,赵铁军,张姝,王浩畅.基于内容分析的话题检测研究[J].哈尔滨工业大学学报,2006,38(10):1740-1743. 被引量：20
3赵华,赵铁军,于浩,张姝.面向动态演化的话题检测研究[J].高技术通讯,2006,16(12):1230-1235. 被引量：17
4洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
5张阔,李涓子,吴刚,王克宏.基于词元再评估的新事件检测模型[J].软件学报,2008,19(4):817-828. 被引量：17
6潘渊,李弼程,张先飞.一种基于自适应重心向量的主题检测方法[J].计算机工程,2009,35(3):80-82. 被引量：2
7邱江涛,唐常杰,乔少杰,李太勇.Web新闻流的增量演进分析[J].计算机科学,2009,36(3):193-195.
8张阔,李涓子,吴刚,王克宏.基于关键词元的话题内事件检测[J].计算机研究与发展,2009,46(2):245-252. 被引量：15
9仲兆满,刘宗田,周文,付剑锋.基于事件的文本相似度计算[J].广西师范大学学报（自然科学版）,2009,27(1):149-152. 被引量：6
10税仪冬,瞿有利,黄厚宽.周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J].北京交通大学学报,2009,33(5):85-89. 被引量：28

同被引文献80

1贺敏,王丽宏,杜攀,张瑾,程学旗.基于有意义串聚类的微博热点话题发现方法[J].通信学报,2013,34(S1):256-262. 被引量：12
2贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
3刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
4YE Hui-min,CHENG Wei,DAI Guan-zhong.Design and Implementation of On-Line Hot Topic Discovery Model[J].Wuhan University Journal of Natural Sciences,2006,11(1):21-26. 被引量：14
5于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
6宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
8张其文,李明.多文档文摘提取方法的研究[J].兰州理工大学学报,2007,33(1):96-99. 被引量：4
9张姝,赵铁军,郑德权,杨沐昀.基于浅层分析的多文档自动文摘技术[J].哈尔滨工业大学学报,2007,39(7):1102-1105. 被引量：5
10Weiss G M. Mining with Rarity: A Unifying Framework. ACM SIGKDD Explorations Newsletters, 2004, 6( 1 ) : 7 -19.

引证文献8

1张晓艳,王挺.话题发现与追踪技术研究[J].计算机科学与探索,2009,3(4):347-357. 被引量：21
2郝秀兰,陶晓鹏,王述云,徐和祥,胡运发.基于特征选择及Condensing技术的文本取样[J].模式识别与人工智能,2009,22(5):709-717.
3刘美玲,赵铁军,郑德权,于摇洋.面向TDT的动态多文档文摘研究[J].哈尔滨工业大学学报,2010,42(11):1767-1770. 被引量：2
4夏春艳,崔广才,李树平.话题跟踪方法的研究[J].计算机工程与应用,2012,48(15):129-132. 被引量：3
5王卫姣.话题追踪技术研究综述[J].软件导刊,2013,20(4):147-149. 被引量：2
6高盛祥,余正涛,龙文旭,丁硙,闫春婷.基于全局/局部共现词对分布的汉越双语新闻事件线索分析[J].中文信息学报,2015,29(6):90-97. 被引量：1
7李霞,王连喜,路美秀,刘汉锋,刘俊延.基于复合词生成的网络热点话题识别及描述算法[J].图书情报工作,2016,60(23):128-134. 被引量：5
8王禹森,余正涛,高盛祥,周超,洪旭东.基于图聚类的汉越双语新闻话题发现[J].数据采集与处理,2018,33(3):530-537. 被引量：1

二级引证文献33

1骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
2殷风景,肖卫东,葛斌,李芳芳.一种面向网络话题发现的增量文本聚类算法[J].计算机应用研究,2011,28(1):54-57. 被引量：16
3龙志祎,程葳.基于词聚类的热点话题检测算法[J].计算机工程与设计,2011,32(6):2214-2216. 被引量：27
4张晓艳,王挺,梁晓波.LDA模型在话题追踪中的应用[J].计算机科学,2011,38(B10):136-139. 被引量：27
5周刚,邹鸿程,熊小兵,黄永忠.MB-SinglePass:基于组合相似度的微博话题检测[J].计算机科学,2012,39(10):198-202. 被引量：24
6邓箴,包宏.基于词汇链的多文档自动文摘研究[J].计算机与应用化学,2012,29(11):1384-1386.
7仲兆满,李存华,戴红伟,刘宗田.融合内容与时间特征的中文新闻子话题聚类[J].计算机科学与探索,2013,7(4):368-376. 被引量：5
8王卫姣.话题追踪技术研究综述[J].软件导刊,2013,20(4):147-149. 被引量：2
9黄敏,胡学钢.网络舆情分析技术及系统构建[J].山东理工大学学报（自然科学版）,2013,27(1):25-29. 被引量：2
10方然,苗夺谦,张志飞.一种基于情感的中文微博话题检测方法[J].智能系统学报,2013,8(3):208-213. 被引量：11

1郭新志,钟家民.一种改进的双重过滤模型算法[J].安阳工学院学报,2009,8(2):59-60.
2刘红玉,吕丽珺,周兰江.基于代理的智能信息过滤技术的设计与实现[J].昆明理工大学学报（理工版）,2005,30(z1):343-346.
3马世欢,张今.一种基于遗传算法的优化分类器方法[J].襄樊职业技术学院学报,2008,7(6):13-14.
4杨小平,丁浩,黄都培.基于向量空间模型的中文信息检索技术研究[J].计算机工程与应用,2003,39(15):109-111. 被引量：31
5龚静,胡平霞,李春媚.一种用于文本分类的特征项权值计算方法的研究[J].惠州学院学报,2013,33(6):78-81.
6徐小龙,耿卫建,杨庚,李玲娟,杨震.分布式无线传感器网络故障检测算法综述[J].计算机应用研究,2012,29(12):4420-4425. 被引量：15
7魏景璇,鲁燃,张艳辉.基于动态阈值和命名实体的双重过滤话题追踪[J].计算机应用研究,2015,32(4):982-985. 被引量：6
8蔡月红,朱倩,孙萍,程显毅.基于属性选择的半监督短文本分类算法[J].计算机应用,2010,30(4):1015-1018. 被引量：8
9韩俊英,刘成忠.一种改进的支持向量机集成分类算法[J].甘肃农业大学学报,2008,43(1):147-150. 被引量：3
10桑书娟,周晏.一种基于词长的TFIDF特征项权值计算方法[J].电脑知识与技术（过刊）,2011,17(11X):7996-7997.

计算机研究与发展

2007年第8期

浏览历史

内容加载中请稍等...

基于查询向量的英语话题跟踪研究被引量：8

参考文献12

二级参考文献7

共引文献58

同被引文献80

引证文献8

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于查询向量的英语话题跟踪研究 被引量：8

参考文献12

二级参考文献7

共引文献58

同被引文献80

引证文献8

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于查询向量的英语话题跟踪研究被引量：8