期刊文献+
共找到207篇文章
< 1 2 11 >
每页显示 20 50 100
北京大学计算语言学教育部重点实验室建设计划通过论证
1
作者 王厚峰 《中文信息学报》 CSCD 北大核心 2009年第3期87-87,共1页
关键词 教育部重点实验室 计算语言学 北京大学 设计 信息管理 语言文字 论证会 科技
下载PDF
当代机器语言能力的研究现状与展望 被引量:11
2
作者 耿立波 刘涛 +2 位作者 俞士汶 孙茂松 杨亦鸣 《语言科学》 CSSCI 北大核心 2014年第1期34-41,共8页
机器语言能力是当代科学研究领域中的前沿和重大课题。文章首先对机器语言能力研究的现状进行了回顾和分析,然后对其发展趋势进行了展望,指出研究语言的大脑神经机制是实现机器语言能力研究突破的新路径;有必要构建机器语言能力评估等... 机器语言能力是当代科学研究领域中的前沿和重大课题。文章首先对机器语言能力研究的现状进行了回顾和分析,然后对其发展趋势进行了展望,指出研究语言的大脑神经机制是实现机器语言能力研究突破的新路径;有必要构建机器语言能力评估等级量表,以便有针对性地提升机器处理人类自然语言的能力;提高机器的语言能力还必须加强学科间的合作和研究队伍的培养与建设。 展开更多
关键词 机器 语言能力 神经机制 等级量表
下载PDF
唐宋诗之计算机辅助深层研究 被引量:24
3
作者 胡俊峰 俞士汶 《北京大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第5期727-733,共7页
介绍了北大计算语言学研究所开发的“唐宋诗计算机辅助研究系统”。该系统以全唐诗(481万字 )和宋代部分名家诗 (16 0万字 )组成的语料库为基础 ,运用计算语言学方法对唐宋诗进行分析研究 ,提取了唐宋诗中的词汇 ,计 5万余条目。在对诗... 介绍了北大计算语言学研究所开发的“唐宋诗计算机辅助研究系统”。该系统以全唐诗(481万字 )和宋代部分名家诗 (16 0万字 )组成的语料库为基础 ,运用计算语言学方法对唐宋诗进行分析研究 ,提取了唐宋诗中的词汇 ,计 5万余条目。在对诗文进行词语切分的基础上 ,建立了词汇的共现关系、对仗关系以及词汇的作者分布特征信息。系统除了提供面向诗文内容的全文检索功能外 ,还进一步开发了基于词汇的统计分析和诗句相似性检索等功能 。 展开更多
关键词 语料库语言学 未登录词发现 自动注音 唐宋诗计算机辅助研究系统 计算语言学 汉语信息处理
下载PDF
非相关文献知识发现的数据基础研究——以中医药古文献语言知识库的构建为例 被引量:9
4
作者 刘耀 段慧明 穗志方 《情报杂志》 CSSCI 北大核心 2006年第9期104-107,共4页
非相关文献知识发现法是一种全新的、独特的情报学方法,对文献的有效使用及隐藏知识的发掘起到了较大的作用。通过对非相关文献知识发现方法的概述及其在中医研究中的应用前景的探讨,在通用语言知识库成功构建的基础上,并结合中医药文... 非相关文献知识发现法是一种全新的、独特的情报学方法,对文献的有效使用及隐藏知识的发掘起到了较大的作用。通过对非相关文献知识发现方法的概述及其在中医研究中的应用前景的探讨,在通用语言知识库成功构建的基础上,并结合中医药文献特点提出了具体的实施方案与方法,展开了相应的工程实施,取得了显著成效,为基于非相关文献的知识发现奠定了坚实的数据基础。 展开更多
关键词 非相关文献 知识发现 中医药古文献 语言知识库 数据基础
下载PDF
古诗研究的计算机支持环境的实现 被引量:12
5
作者 刘岩斌 俞士汶 孙钦善 《中文信息学报》 CSCD 北大核心 1997年第1期27-36,共10页
北京大学正在开发以全宋诗为首选对象的古诗研究系统──古诗研究的计算机支持环境,本文介绍这个系统的设计与实现,该系统已录入陆游的全部诗作9000余首及部分注释,计88万字,本文介绍了该系统的基本功能如:检索、阅读、统计... 北京大学正在开发以全宋诗为首选对象的古诗研究系统──古诗研究的计算机支持环境,本文介绍这个系统的设计与实现,该系统已录入陆游的全部诗作9000余首及部分注释,计88万字,本文介绍了该系统的基本功能如:检索、阅读、统计和辅助研究工具及其实现技术,较详细地介绍了其中的全文检索和超文本技术。本文也介绍了利用该系统可以深入开展的一些研究课题,如:古诗格律研究,古汉语研究和诗人风格研究,从而可以辅助解决古诗研究中的一些困难问题。 展开更多
关键词 古诗电子化 古诗研究系统 计算机支持系统
下载PDF
机器翻译与语言研究 被引量:3
6
作者 詹卫东 常宝宝 俞士汶 《语言科学》 2002年第1期47-61,共15页
本文从机器翻译的一般模式谈起,讨论了服务于机器翻译的语言研究应该注意的问题,包括:应更加重视形式与意义之间对应关系的系统研究;应重视以机器为“标准”来扩大关注的语言现象的范围;应重视在形式化的知识表示框架下进行大规模的语... 本文从机器翻译的一般模式谈起,讨论了服务于机器翻译的语言研究应该注意的问题,包括:应更加重视形式与意义之间对应关系的系统研究;应重视以机器为“标准”来扩大关注的语言现象的范围;应重视在形式化的知识表示框架下进行大规模的语言工程实践的研究工作。 展开更多
关键词 机器翻译 语言研究 电子词典 短语结构规则 形式化 语言知识库
下载PDF
语法知识在语言信息处理研究中的作用 被引量:17
7
作者 俞士汶 《语言文字应用》 CSSCI 北大核心 1997年第4期82-88,共7页
自然语言理解是计算机科学中一个有重要学术意义和应用价值的研究课题。实现自然语言理解既需要句法、语义、语用等多层面的语言学研究,也需要同思维科学、认知科学等多门学科密切配合。本文只是阐述语法知识与语法研究在语言信息处理... 自然语言理解是计算机科学中一个有重要学术意义和应用价值的研究课题。实现自然语言理解既需要句法、语义、语用等多层面的语言学研究,也需要同思维科学、认知科学等多门学科密切配合。本文只是阐述语法知识与语法研究在语言信息处理中的重要作用,既有理论探讨,也有应用实践。笔者以为计算机处理需要的汉语语法研究以及句法分析算法研究,在目前来说,还应该是汉语信息处理研究的一个重点。 展开更多
关键词 语言信息处理 自然语言理解 自然语言处理 句法分析 现代汉语语法信息词典 语法知识 汉语信息处理 机器翻译系统 语义分析 语言知识库
原文传递
语言学与统计方法结合建立汉语动词SCF类型集 被引量:2
8
作者 冀铁亮 孙薇薇 穗志方 《中文信息学报》 CSCD 北大核心 2007年第5期118-125,共8页
动词子语类框架(Subcategorization Frame以下简称SCF)在句法分析、语义角色标注等方面的研究中具有不可或缺的重要作用。在子语类框架信息的获取过程中,首先要建立标准完备的子语类框架类型集。目前英语研究已经建立了获得普遍共识的... 动词子语类框架(Subcategorization Frame以下简称SCF)在句法分析、语义角色标注等方面的研究中具有不可或缺的重要作用。在子语类框架信息的获取过程中,首先要建立标准完备的子语类框架类型集。目前英语研究已经建立了获得普遍共识的子语类框架类型集。而汉语方面还没有标准的动词子类框架类型集。本文提出一种语言学知识与统计方法相结合的汉语动词子语类框架类型集的半自动获取方案。初步建立起既符合统计结果又基本符合语言学理论的汉语动词子语类框架类型集。实验证明,加入语言学理论的子语类框架类型集降低了对语料的依赖程度,比完全由分析语料产生的类型集更完备。 展开更多
关键词 计算机应用 中文信息处理 动词子语类框架 类型集 语言学与统计方法结合
下载PDF
隐喻的计算研究与进展 被引量:7
9
作者 王治敏 《中文信息学报》 CSCD 北大核心 2006年第4期16-24,共9页
隐喻作为自然语言处理最棘手的问题之一逐渐引起了学者们的关注,国外学者在隐喻模型设计和隐喻知识库建设方面进行了很多尝试,也取得了一定效果。相比较而言,中文隐喻计算研究却显得有些薄弱,因此本文在传统隐喻研究的基础上综述了隐喻... 隐喻作为自然语言处理最棘手的问题之一逐渐引起了学者们的关注,国外学者在隐喻模型设计和隐喻知识库建设方面进行了很多尝试,也取得了一定效果。相比较而言,中文隐喻计算研究却显得有些薄弱,因此本文在传统隐喻研究的基础上综述了隐喻计算模型和隐喻知识库建设方面的进展,重点介绍了基于优选限制思想的M et5系统,基于实例方法的M IDAS系统,以及以统计为手段,基于大规模语料库提取的隐喻分析模型CorM et系统。通过总结国外的相关研究成果,探索面向信息处理的汉语隐喻形式化的研究方向。 展开更多
关键词 计算机应用 中文信息处理 综述 隐喻计算模型 源域 目标域 隐喻概念
下载PDF
计算机时代汉语语法研究的特点
10
作者 亢世勇 《术语标准化与信息技术》 1999年第2期32-35,共4页
计算机时代,汉语语法研究具有新的特点,语言学家要了解计算机,关注计算机对语言的需求。
关键词 计算机时代 汉语语法研究
下载PDF
关键词自动标引的最大熵模型应用研究 被引量:93
11
作者 李素建 王厚峰 +1 位作者 俞士汶 辛乘胜 《计算机学报》 EI CSCD 北大核心 2004年第9期1192-1197,共6页
关键词是文档管理、文本聚类 /分类、信息检索等领域可利用的重要资源 ,因此该文提出了利用最大熵模型进行自动标引的技术 .最大熵模型为一个成熟的数学模型 ,已经应用到计算语言学的各个领域 .然而它的应用非常灵活 ,针对标引任务和现... 关键词是文档管理、文本聚类 /分类、信息检索等领域可利用的重要资源 ,因此该文提出了利用最大熵模型进行自动标引的技术 .最大熵模型为一个成熟的数学模型 ,已经应用到计算语言学的各个领域 .然而它的应用非常灵活 ,针对标引任务和现有资源的实际情况 ,作者首先建立了最大熵模型的特征集合 ,然后提出了三种试验方法 ,并给出了相应的试验结果 ,最后针对最大熵模型在关键词自动标引任务中的应用做了有益的分析和探讨 .该研究对于关键词标引研究以及最大熵在其他领域中的应用将有所启示 . 展开更多
关键词 关键词标引 关键词抽取 最大熵模型 信息抽取
下载PDF
综合型语言知识库的建设与利用 被引量:29
12
作者 俞士汶 段慧明 +1 位作者 朱学锋 张化瑞 《中文信息学报》 CSCD 北大核心 2004年第5期1-10,共10页
语言知识库的规模和质量决定了自然语言处理系统的成败。经过 18年的努力 ,北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源 :现代汉语语法信息词典 ,大规模基本标注语料库 ,现代汉语语义词典 ,中文概念词... 语言知识库的规模和质量决定了自然语言处理系统的成败。经过 18年的努力 ,北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源 :现代汉语语法信息词典 ,大规模基本标注语料库 ,现代汉语语义词典 ,中文概念词典 ,不同单位对齐的双语语料库 ,多个专业领域的术语库 ,现代汉语短语结构规则库 ,中国古代诗词语料库等等。本项研究将把这些语言数据资源集成为一个综合型的语言知识库。集成不同的语言数据资源时 ,必须克服它们之间的“缝隙”。规划中的综合型语言知识库除了有统一的友好的使用界面和方便的应用程序接口外 ,还将提供支持知识挖掘的工具软件 ,促使现有的语言数据资源从初级产品形式向深加工产品形式不断发展 ;提供多种形式的知识传播和信息服务机制 ,让综合型语言知识库为语言信息处理研究、语言学本体研究和语言教学提供全方位的。 展开更多
关键词 计算机应用 中文信息处理 语言处理 语言知识库 语言数据资源 电子词典 语料库
下载PDF
现代汉语虚词知识库的研究 被引量:27
13
作者 昝红英 张坤丽 +1 位作者 柴玉梅 俞士汶 《中文信息学报》 CSCD 北大核心 2007年第5期107-111,共5页
现代汉语虚词在句法中所起的作用比较复杂,其个性较强,用法各异。目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于自然语言处理的研究。本文从计算语言学的观点出发,根据目前已有的虚... 现代汉语虚词在句法中所起的作用比较复杂,其个性较强,用法各异。目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于自然语言处理的研究。本文从计算语言学的观点出发,根据目前已有的虚词研究成果以及对真实语料中虚词用法规律的考察,着力构建面向机器的现代汉语虚词用法信息词典和虚词用法规则库,旨在为现代汉语虚词用法的机器识别打下一定的数据基础。 展开更多
关键词 计算机应用 中文信息处理 虚词 语言知识库 用法属性 规则库
下载PDF
自然语言处理中主题模型的发展 被引量:242
14
作者 徐戈 王厚峰 《计算机学报》 EI CSCD 北大核心 2011年第8期1423-1436,共14页
主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者... 主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者从主题模型的起源隐性语义索引出发,对概率隐性语义索引以及LDA等在主题模型发展中的重要阶段性工作进行了介绍和分析,着重描述这些工作之间的关联性.LDA作为一个概率生成模型,很容易被扩展成其它形式的概率模型.作者对由LDA派生出的各种模型作了粗略分类,并选择了各类的代表性模型简单介绍.主题模型中最重要的两组参数分别是各主题下的词项概率分布和各文档的主题概率分布,作者对期望最大化算法在主题模型参数估计中的使用进行了分析,这有助于更深刻理解主题模型发展中各项工作的联系. 展开更多
关键词 自然语言处理 主题模型 隐性语义索引 LDA 期望最大化算法 GIBBS采样
下载PDF
新闻报道文本的情感倾向性研究 被引量:15
15
作者 昝红英 郭明 +1 位作者 柴玉梅 吴云芳 《计算机工程》 CAS CSCD 北大核心 2010年第15期20-22,共3页
将机器学习中的经典分类方法与规则方法相结合,用以分析新闻语音文本的情感倾向,并判断其强弱。通过支持向量机分类器来研究特征选择方法及特征权重计算方法的组合对实验结果的影响。在实验过程中发现适当的结合规则后,实验结果在不同... 将机器学习中的经典分类方法与规则方法相结合,用以分析新闻语音文本的情感倾向,并判断其强弱。通过支持向量机分类器来研究特征选择方法及特征权重计算方法的组合对实验结果的影响。在实验过程中发现适当的结合规则后,实验结果在不同程度上都有了提高,在KNN和Bayes分类器上做了对比实验,结果证实该方法的普适性。 展开更多
关键词 机器学习 特征选择 特征权重 支持向量机
下载PDF
面向机器辅助翻译的汉语语块自动抽取研究 被引量:12
16
作者 姜柄圭 张秦龙 +1 位作者 谌贻荣 常宝宝 《中文信息学报》 CSCD 北大核心 2007年第1期9-16,共8页
本文提出了一种统计和规则相结合的语块抽取方法。本文使用Nagao串频统计算法进行基于词语的串频统计,进一步分别利用统计方法、语块边界过滤规则对2-gram到10-gram语块进行过滤,得到候选语块,取得了令人满意的结果。通过实验发现,在统... 本文提出了一种统计和规则相结合的语块抽取方法。本文使用Nagao串频统计算法进行基于词语的串频统计,进一步分别利用统计方法、语块边界过滤规则对2-gram到10-gram语块进行过滤,得到候选语块,取得了令人满意的结果。通过实验发现,在统计方法中互信息和信息熵相结合的方法较单一的互信息方法好;在语块边界规则过滤方法中语块左右边界规则和停用词对语块抽取的结果有较大影响。实验结果表明统计和过滤规则相结合的方法要优于纯粹的统计方法。应用本文方法,再辅以人工校对,可以方便地获取重复出现的多词语块。在机器辅助翻译系统中,使用现有的语块抽取方法抽取重复的语言单位,就可以方便地建设翻译记忆库,提高翻译的工作效率。 展开更多
关键词 人工智能 机器翻译 语块抽取 串频统计 内部结合 紧密度 信息熵 语块组合规则
下载PDF
中医药本体构建研究 被引量:14
17
作者 刘耀 穗志方 +2 位作者 周扬 章成志 王振国 《大学图书馆学报》 CSSCI 北大核心 2008年第4期58-62,共5页
利用自然语言处理(NLP)理论和技术方法对中医药领域中已有的公认领域知识进行了重构与利用,在成功实现了中医药学知识描述体系的自动构建与获取的基础上,利用领域专家知识,实现了受限文本的Ontology自学习机制,并对领域本体的进化进行... 利用自然语言处理(NLP)理论和技术方法对中医药领域中已有的公认领域知识进行了重构与利用,在成功实现了中医药学知识描述体系的自动构建与获取的基础上,利用领域专家知识,实现了受限文本的Ontology自学习机制,并对领域本体的进化进行了有益的探索,有效地解决了Ontology研究的瓶颈问题,从而为中医药知识的挖掘与利用奠定了数据基础。从目前看来,这是一种较为理想、实用的方法,为专业领域Ontology的自动构建提供了理论依据及技术支持。 展开更多
关键词 中医药 本体 数据共享 知识工程
下载PDF
基于内容与形式交互的图书馆资源组织语义化方法研究 被引量:15
18
作者 刘耀 穗志方 +1 位作者 胡永伟 赵庆亮 《情报理论与实践》 CSSCI 北大核心 2010年第10期105-107,112,共4页
本文提出了基于NLP理论与方法,结合传统图书馆资源组织方式(分类法、主题词法)与领域本体构建技术,搭建辅助构建及标注一体化平台,进而实现语义元数据体系构建与资源组织语义化过程同步实施的解决方案,这一思想与方法的提出与实现,可以... 本文提出了基于NLP理论与方法,结合传统图书馆资源组织方式(分类法、主题词法)与领域本体构建技术,搭建辅助构建及标注一体化平台,进而实现语义元数据体系构建与资源组织语义化过程同步实施的解决方案,这一思想与方法的提出与实现,可以有效地促进图书馆资源语义化进程,使语义自动标注与知识服务成为可能。 展开更多
关键词 信息资源 语义化 语义标注 知识工程
原文传递
基于大规模语料库的汉语词义相似度计算方法 被引量:25
19
作者 石静 吴云芳 +1 位作者 邱立坤 吕学强 《中文信息学报》 CSCD 北大核心 2013年第1期1-6,80,共7页
词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上... 词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上下文特征权值的选择、向量相似度计算方法、基于窗口和基于依存关系的表征形式、新闻语体和网络语体的差异。实验结果表明,在网络语言语料上,基于窗口选取上下文特征,用互信息PMI来计算权值,采用cosine来计算相似度,取得了最好的词义相似度结果。 展开更多
关键词 词义相似度 上下文特征 权值选择 依存关系
下载PDF
中医药古文献语料库设计与开发研究 被引量:9
20
作者 刘耀 段慧明 +3 位作者 王惠临 周扬 王振国 李宏展 《中文信息学报》 CSCD 北大核心 2008年第4期24-30,共7页
专业领域语料库是对专业领域文献进行自然语言处理的重要的不可或缺的基础,是对专业文本内容与意图进行深层把握的必由之路。通过对研究背景的分析,进一步明析了专业文献进行自然语言处理的必要性,并在对专业文献语料库的研究特点进行... 专业领域语料库是对专业领域文献进行自然语言处理的重要的不可或缺的基础,是对专业文本内容与意图进行深层把握的必由之路。通过对研究背景的分析,进一步明析了专业文献进行自然语言处理的必要性,并在对专业文献语料库的研究特点进行分析的基础上,深入探讨了专业语料库的设计思想及原理,同时,对语料库词类的标注信息进行了深入研究。成功地开发了针对专业领域语料库的辅助加工系统,为专业领域语料库建设提供了理论指导和技术支撑。 展开更多
关键词 计算机应用 中文信息处理 自然语言处理 语料库 中医药古文献 知识工程
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部