期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
话题检测与跟踪的评测及研究综述 被引量:153
1
作者 洪宇 张宇 +1 位作者 刘挺 李生 《中文信息学报》 CSCD 北大核心 2007年第6期71-87,共17页
话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信... 话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。 展开更多
关键词 计算机应用 中文信息处理 综述 话题检测与跟踪 自然语言处理 事件 新闻报道
下载PDF
基于社会网络的人名检索结果重名消解 被引量:32
2
作者 郎君 秦兵 +3 位作者 宋巍 刘龙 刘挺 李生 《计算机学报》 EI CSCD 北大核心 2009年第7期1365-1374,共10页
人物重名现象十分普遍,搜索引擎的人名检索结果通常是多个同名人物相关网页的混合.该文依据同名的不同人物具有不同的社会网络的思想,利用检索结果中共现的人名发现并拓展检索人物相关的潜在社会网络,结合图的谱分割算法和模块度指标进... 人物重名现象十分普遍,搜索引擎的人名检索结果通常是多个同名人物相关网页的混合.该文依据同名的不同人物具有不同的社会网络的思想,利用检索结果中共现的人名发现并拓展检索人物相关的潜在社会网络,结合图的谱分割算法和模块度指标进行社会网络的自动聚类,在此基础上实现人名检索结果的重名消解.在人工标注的中文人名语料上进行实验,整体性能达到较好水平,图聚类算法能帮助连通社会网络的进一步划分,从而提高消解效果. 展开更多
关键词 社会网络 重名消解 谱分割 模块度
下载PDF
多文档文摘中句子优化选择方法研究 被引量:13
3
作者 秦兵 刘挺 +1 位作者 陈尚林 李生 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1129-1134,共6页
在多文档文摘子主题划分的基础上,提出了一种在子主题之间对文摘句优化选择的方法·首先在句子相似度计算的基础上,形成多文档集合的子主题,通过对各子主题打分,确定子主题的抽取顺序·以文摘中有效词的覆盖率作为优化指标,在... 在多文档文摘子主题划分的基础上,提出了一种在子主题之间对文摘句优化选择的方法·首先在句子相似度计算的基础上,形成多文档集合的子主题,通过对各子主题打分,确定子主题的抽取顺序·以文摘中有效词的覆盖率作为优化指标,在各个子主题中选择文摘句·从减少子主题之间及子主题内部的信息的冗余性两个角度选择文摘句,使文摘的信息覆盖率得到很大提高·实验表明,生成的文摘是令人满意的· 展开更多
关键词 多文档文摘 子主题 句子优化选择
下载PDF
基于ontology抽取优化初始选择的检索结果聚类 被引量:8
4
作者 陈毅恒 秦兵 +2 位作者 宋凡 刘挺 李生 《电子学报》 EI CAS CSCD 北大核心 2008年第B12期166-170,156,共6页
本文针对互联网的数据量的不断增加,准确搜索引擎的作用日益困难的问题,为了提高搜索引擎返回结果结构化聚类的效果,让信息的定位更迅速,本文采用基于标签的聚类算法,并使用自然语言处理技术中的依存句法分析和词典资源,深度挖掘语义结... 本文针对互联网的数据量的不断增加,准确搜索引擎的作用日益困难的问题,为了提高搜索引擎返回结果结构化聚类的效果,让信息的定位更迅速,本文采用基于标签的聚类算法,并使用自然语言处理技术中的依存句法分析和词典资源,深度挖掘语义结构,提出基于优化初始选择的K均值聚类方法.本文深入分析K均值聚类算法特点,并利用类别标签技术对该算法进行有效改进.实验证明该算法不仅在效果上优于一般聚类算法,对结果描述也有很大帮助,在效率上也得到很大提高. 展开更多
关键词 检索结果聚类 ONTOLOGY 标签
下载PDF
短语结构树库向依存结构树库转化研究 被引量:12
5
作者 李正华 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2008年第6期14-19,共6页
汉语依存树库的建设相对其他语言如英语,在规模和质量上还有一些差距。树库标注需要付出很大的人力物力,并且保证树库质量也比较困难。该文尝试通过规则和统计相结合的方法,将宾州汉语短语树库PennChinese Treebank转化为哈工大依存树库... 汉语依存树库的建设相对其他语言如英语,在规模和质量上还有一些差距。树库标注需要付出很大的人力物力,并且保证树库质量也比较困难。该文尝试通过规则和统计相结合的方法,将宾州汉语短语树库PennChinese Treebank转化为哈工大依存树库HIT-IR-CDT的体系结构,从而增大现有依存树库的规模。将转化后的树库加入HIT-IR-CDT,训练和测试依存句法分析器的性能。实验表明,加入少量经转化后的树库后,依存句法分析器的性能有所提高;但加入大量树库后,性能反而下降。经过细致分析,作为一种利用多种树库提高依存句法分析器性能的方法,短语转依存还存在很多需要深入研究的方面。 展开更多
关键词 计算机应用 中文信息处理 短语结构树库 依存结构树库 依存句法分析
下载PDF
信息过滤中基于二元近似关系分布的噪声屏蔽算法 被引量:3
6
作者 洪宇 张宇 +2 位作者 郑伟 刘挺 李生 《软件学报》 EI CSCD 北大核心 2008年第11期2887-2898,共12页
针对信息过滤反馈中充斥噪声的缺陷,提出一种基于二元近似关系分布(distribution of two-dimension similarity,简称DTS)的过滤策略.DTS根据噪声和用户模型的相悖关系,为信息流建立二元近似关系模型.同时,根据信息在二维近似关系空间中... 针对信息过滤反馈中充斥噪声的缺陷,提出一种基于二元近似关系分布(distribution of two-dimension similarity,简称DTS)的过滤策略.DTS根据噪声和用户模型的相悖关系,为信息流建立二元近似关系模型.同时,根据信息在二维近似关系空间中的分布,采用基于LMS(least mean square)分类器的AdaBoost算法建立噪声和相关信息的分类曲线,从而辅助信息过滤系统识别和屏蔽反馈中的噪声.通过实验验证,该算法显著提高了过滤系统屏蔽噪声的能力. 展开更多
关键词 信息过滤 噪声 用户模型 二元近似关系
下载PDF
基于句法路径的情感评价单元识别 被引量:59
7
作者 赵妍妍 秦兵 +1 位作者 车万翔 刘挺 《软件学报》 EI CSCD 北大核心 2011年第5期887-898,共12页
不同于已有的基于手工模板和规则的方法,提出了一种基于句法路径的情感评价单元自动识别方法.该方法自动获取句法路径来描述评价对象及其评价词语之间的修饰关系,并通过计算句法路径编辑距离来改进情感评价单元抽取的系统性能.实验语料... 不同于已有的基于手工模板和规则的方法,提出了一种基于句法路径的情感评价单元自动识别方法.该方法自动获取句法路径来描述评价对象及其评价词语之间的修饰关系,并通过计算句法路径编辑距离来改进情感评价单元抽取的系统性能.实验语料来自数码相机和MP3播放器两个典型的电子产品领域.实验结果表明:(1)句法路径能够有效描述评价对象及其评价词语之间的关系,对情感评价单元的识别有很大帮助;(2)基于编辑距离的句法路径改进策略能够进一步提高情感评价单元识别的系统性能. 展开更多
关键词 情感评价单元 情感分析 句法路径 评价词语 评价对象
下载PDF
基于语义域语言模型的中文话题关联检测 被引量:19
8
作者 洪宇 张宇 +2 位作者 范基礼 刘挺 李生 《软件学报》 EI CSCD 北大核心 2008年第9期2265-2275,共11页
关联检测是话题检测与跟踪领域的基础性研究,其任务是检测任意新闻报道对是否论述同一话题.通过分析报道内容的结构关系和语义的分布规律,提出基于语义域语言模型的关联性检测方法,并在此基础上检验融入依存分析的语义描述策略对该模型... 关联检测是话题检测与跟踪领域的基础性研究,其任务是检测任意新闻报道对是否论述同一话题.通过分析报道内容的结构关系和语义的分布规律,提出基于语义域语言模型的关联性检测方法,并在此基础上检验融入依存分析的语义描述策略对该模型性能的影响.实验采用TDT4中文语料进行评测,结果显示语义域语言模型显著改进了现有检测系统的性能,其最小DET代价降低了约3个百分点. 展开更多
关键词 关联检测 话题检测与跟踪 语义域 语言模型 依存分析
下载PDF
基于子话题分治匹配的新事件检测 被引量:26
9
作者 洪宇 张宇 +2 位作者 范基礼 刘挺 李生 《计算机学报》 EI CSCD 北大核心 2008年第4期687-695,共9页
新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题.现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题间互为噪声并形成错误语义,从而误导新话题的识别.针对这一缺陷,文中提... 新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题.现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题间互为噪声并形成错误语义,从而误导新话题的识别.针对这一缺陷,文中提出基于子话题分治匹配的新事件检测方法,将话题和报道划分为不同子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型.实验在TDT4和TDT5中获得显著改进,最小检测错误代价为0.4061,相应漏检率为0.1859. 展开更多
关键词 新事件检测 话题检测与跟踪 子话题
下载PDF
基于宏微观重要性判别模型的时序多文档文摘 被引量:4
10
作者 贺瑞芳 秦兵 +2 位作者 刘挺 潘越群 李生 《计算机研究与发展》 EI CSCD 北大核心 2009年第7期1184-1191,共8页
时序多文档文摘是针对新闻领域跨时段的相关文档集,即系列新闻报道进行问题无关的、抽取式文摘.根据系列新闻报道不同细节层次的时序特性,提出一种基于宏微观重要性判别模型的内容选择方法.从宏观和微观角度挖掘信息随着时间进化的时序... 时序多文档文摘是针对新闻领域跨时段的相关文档集,即系列新闻报道进行问题无关的、抽取式文摘.根据系列新闻报道不同细节层次的时序特性,提出一种基于宏微观重要性判别模型的内容选择方法.从宏观和微观角度挖掘信息随着时间进化的时序特性,以指导时序多文档文摘的内容选择.首先通过宏观模型确定重要的时间点,然后通过微观模型在重要的时间点选择重要的句子,从而更有效地获取文摘.实验证明该方法是有效的. 展开更多
关键词 时序多文档文摘 时序语义标注 宏微观重要性判别模型 内容选择
下载PDF
句法与词义相结合的中文代词消解 被引量:4
11
作者 宋巍 秦兵 +1 位作者 郎君 刘挺 《中文信息学报》 CSCD 北大核心 2008年第6期8-13,共6页
句法知识对代词消解有很大的帮助。近年来依存句法由于其利于描述语言中词与词之间的关系、突出核心词的特点日益得到重视。该文提出了一种中文第三人称代词消解方法,直接利用依存句法分析器的结果,构建有效的句法角色特征和名词短语的... 句法知识对代词消解有很大的帮助。近年来依存句法由于其利于描述语言中词与词之间的关系、突出核心词的特点日益得到重视。该文提出了一种中文第三人称代词消解方法,直接利用依存句法分析器的结果,构建有效的句法角色特征和名词短语的支配词之间的词义相似和词语相关特征,采用支持向量机作为分类器,在ACE2005语料上的实验证明了这些特征的有效性。 展开更多
关键词 计算机应用 中文信息处理 代词消解 依存句法 句法角色 词义相似
下载PDF
基于语言模型验证的词义消歧语料获取 被引量:4
12
作者 郭宇航 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2008年第6期38-42,共5页
作为一种稀缺资源,人工标注语料的匮乏限制了有指导词义消歧系统的大规模应用。有人提出了利用目标词的单义同义词在生语料中自动获取词义消歧语料的方法,然而,在某些上下文当中,用目标词替换这些单义的同义词并不合适,从而带来噪声。为... 作为一种稀缺资源,人工标注语料的匮乏限制了有指导词义消歧系统的大规模应用。有人提出了利用目标词的单义同义词在生语料中自动获取词义消歧语料的方法,然而,在某些上下文当中,用目标词替换这些单义的同义词并不合适,从而带来噪声。为此,笔者使用语言模型过滤这些噪声,达到净化训练数据,提高系统性能的目的。笔者在Senseval-3国际评测中文采样词词义消歧数据集上进行了实验,结果表明经过语言模型过滤的词义消歧系统性能明显高于未经过滤的系统。 展开更多
关键词 计算机应用 中文信息处理 词义消歧 语言模型 噪声过滤
下载PDF
基于可拓学理论的汉语词义消歧 被引量:1
13
作者 卢志茂 刘挺 李生 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2006年第12期2026-2029,2035,共5页
应用可拓学原理,对歧义词进行可拓分解、可拓置换等可拓变换,为歧义词的各个词义建立相应的可拓集合,利用可拓集合中义原词语从大规模语料中自动获取歧义词的语言信息,建立无指导的词义消歧模型.该方法克服了从无词义标注语料中获取词... 应用可拓学原理,对歧义词进行可拓分解、可拓置换等可拓变换,为歧义词的各个词义建立相应的可拓集合,利用可拓集合中义原词语从大规模语料中自动获取歧义词的语言信息,建立无指导的词义消歧模型.该方法克服了从无词义标注语料中获取词义消歧知识的难题.实验证明,该方法用于汉语的词义消歧切实可行,平均正确率达到90.16%. 展开更多
关键词 词义消歧 可拓学 可拓变换 可拓集合 义原词语
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部