期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
语料库规模增长原因探查 被引量:4
1
作者 潘璠 冯跃进 《外语学刊》 CSSCI 北大核心 2004年第3期11-15,共5页
本文从语言的不对称性、语料库建库的原则和样本规模等多个方面探讨了语料库规模持续增长的主客观原因 ,并对未来大型语料库发展的趋势进行了初步探讨。
关键词 语料库规模 语言的不对称性 建库原则
原文传递
自建小规模语料库 开展化学名词教学
2
作者 江明军 吴勇梅 《教学月刊(中学版)(教学参考)》 2024年第3期39-44,共6页
化学名词是学习化学的必要工具,是化学知识传播的基础,而语料库在当今社会的研究与运用也日趋成熟、普遍。教师可基于《化学名词(第二版)》等专业词典,运用AntConc等语料库软件,自建小规模高中化学教科书语料库,构建《高中化学名词词表... 化学名词是学习化学的必要工具,是化学知识传播的基础,而语料库在当今社会的研究与运用也日趋成熟、普遍。教师可基于《化学名词(第二版)》等专业词典,运用AntConc等语料库软件,自建小规模高中化学教科书语料库,构建《高中化学名词词表》,从而引导学生明确教科书语境下化学名词的正名与异名及其定义与词频。具体教学中,教师可引导学生关注正名与异名的使用语境以提高科学交流的准确性,整合化学名词定义以增进对化学名词的理解,化抽象为具体以提高理解抽象化学名词的能力,从而增强构建知识的主动性,达成更有深度的学习。 展开更多
关键词 自建小规模语料库 化学名词 高中化学教学
下载PDF
日语色彩词「赤い」的认知语义研究——基于大规模语料库
3
作者 韩笑 钟勇 《文化创新比较研究》 2023年第24期32-36,共5页
该文基于大规模语料库从隐喻和转喻两个角度分析日语色彩词「赤い」的语义扩展机制,研究发现:(1)「赤い」的语义扩展方向是由表达主观感觉性质的语义扩展到表达客观存在性质的语义;(2)表达主观感觉性质的语义多于表达客观存在性质的语义... 该文基于大规模语料库从隐喻和转喻两个角度分析日语色彩词「赤い」的语义扩展机制,研究发现:(1)「赤い」的语义扩展方向是由表达主观感觉性质的语义扩展到表达客观存在性质的语义;(2)表达主观感觉性质的语义多于表达客观存在性质的语义;(3)基于身体经验的原型义很重要,是理解扩展义的前提;(4)在认知理据方面,基于隐喻的语义扩展少于基于转喻的语义扩展;(5)语义扩展程度较高。同时,日语学习者在学习日语色彩词时,也要先找到各义项间的认知理据,重点理解和把握原型义,了解日本人认知世界的方式,才能更好地学习扩展义。 展开更多
关键词 色彩词 规模语料库 认知语言学 赤い 语义扩展 日语教学
下载PDF
基于Web的大规模语料库构建方法 被引量:8
4
作者 李培峰 朱巧明 钱培德 《计算机工程》 CAS CSCD 北大核心 2008年第7期41-43,46,共4页
低成本、短周期构建大规模语料库是目前研究工作的难点之一。该文提出一种建设大规模语料库的新方法,主要解决如何基于Web构建大规模的语料库及对语料库纠错,从而提高其质量。该方法利用网格技术的大规模计算能力与Wiki的开放编辑环境... 低成本、短周期构建大规模语料库是目前研究工作的难点之一。该文提出一种建设大规模语料库的新方法,主要解决如何基于Web构建大规模的语料库及对语料库纠错,从而提高其质量。该方法利用网格技术的大规模计算能力与Wiki的开放编辑环境去收集和处理语料,根据可信度模型挑选出不可信的语料并由人工进行校对,计算校对后结果的可信度,选择出最可信的结果作为正确语料存储到语料库中。 展开更多
关键词 规模语料库 网格 可信度
下载PDF
大规模汉语标注语料库的制作与使用 被引量:20
5
作者 段慧明 松井久仁於 +2 位作者 徐国伟 胡国昕 俞士汶 《语言文字应用》 CSSCI 北大核心 2000年第2期72-77,共6页
随着自然语言处理研究的深入开展 ,大规模语料库的作用越来越重要。自从70年代美国制作了著名的BrownCorpus以来 ,世界上已制作了各种语料库。富士通研究开发中心和北京大学计算语言学研究所合作 ,以人民日报语料为对象 ,制作大规模汉... 随着自然语言处理研究的深入开展 ,大规模语料库的作用越来越重要。自从70年代美国制作了著名的BrownCorpus以来 ,世界上已制作了各种语料库。富士通研究开发中心和北京大学计算语言学研究所合作 ,以人民日报语料为对象 ,制作大规模汉语标注语料库 ,这个语料库是世界上规模最大的标注语料库之一。 展开更多
关键词 自然语言处理 规模语料库 人民日报语料 语言资源 汉语切分系统 精度
原文传递
大规模语料库可用性评测方法 被引量:1
6
作者 李艳红 郑家恒 《计算机工程与应用》 CSCD 北大核心 2009年第16期134-137,共4页
提出了一种大规模语料库可用性评测方法。通过分析语料库工程的生命周期,构建了大规模语料库可用性评测指标体系,运用层次分析-模糊综合评价方法实现了语料库的可用性评测,给出了语料库的可用性级别。分析语料库的评测结果,确定影响语... 提出了一种大规模语料库可用性评测方法。通过分析语料库工程的生命周期,构建了大规模语料库可用性评测指标体系,运用层次分析-模糊综合评价方法实现了语料库的可用性评测,给出了语料库的可用性级别。分析语料库的评测结果,确定影响语料库可用性的瓶颈因素,进而提出针对性的改进措施。最后,举例说明了该方法在语料库上的应用。 展开更多
关键词 规模语料库 可用性评价 层次分析法 模糊综合评价
下载PDF
基于大规模语料库的多引擎语言翻译模型的构建 被引量:1
7
作者 黄金柱 李青 《洛阳师范学院学报》 2010年第2期64-69,共6页
提出了基于大规模语料库的多引擎翻译系统模型的构建,该模型主要包括三大部分:基于层次化长句分解和支持向量机基本名词识别的句法分析器、基于实例匹配的翻译子引擎、基于语块的统计翻译子引擎.该语言翻译模型综合各个翻译模型的优点,... 提出了基于大规模语料库的多引擎翻译系统模型的构建,该模型主要包括三大部分:基于层次化长句分解和支持向量机基本名词识别的句法分析器、基于实例匹配的翻译子引擎、基于语块的统计翻译子引擎.该语言翻译模型综合各个翻译模型的优点,最大程度地提高机器翻译的准确率和召回率.实验表明该系统的各项指标都比较理想,尤其是处理效率很高. 展开更多
关键词 机器翻译 多引擎 规模语料库 双语平行语料库
下载PDF
大规模英汉平行语料库的开发与实用性探讨 被引量:2
8
作者 赵巍 王雷 《牡丹江师范学院学报(社会科学版)》 2014年第4期116-117,共2页
英汉平行语料库因其容量大、语料真实、检索快速便捷准确等优势在现代英语教学中发挥着越来越重要的作用。本文将简要探讨大规模英汉平行语料库的开发与其实用性。
关键词 国家社会科学基金重大项目 规模英汉平行语料库 开发 实用性
下载PDF
大规模语音语料库的文语转换技术研究
9
作者 张小军 张宇 《通讯世界》 2015年第9期283-283,共1页
语音是人与人之间沟通及交流的最自然、最便捷的方式之一,随着科学技术的发展,人类与互联网、计算机等网络及机器的交流方式也不断向语音交流方式转变。语音语料库的建立为文语转换技术提供了新的发展空间及发展方向。本文立足于对大规... 语音是人与人之间沟通及交流的最自然、最便捷的方式之一,随着科学技术的发展,人类与互联网、计算机等网络及机器的交流方式也不断向语音交流方式转变。语音语料库的建立为文语转换技术提供了新的发展空间及发展方向。本文立足于对大规模语音语料库及文语转换技术的简述,对大规模语音语料库在文语转换技术中的应用进行阐述和探析,以提高其应用的精确性。 展开更多
关键词 规模语音语料库 文语转换技术 研究
下载PDF
从汉字词汇的使用看汉字在东亚国家的前途——基于大规模语料库的考察 被引量:2
10
作者 施建军 《外语学刊》 CSSCI 北大核心 2021年第1期85-94,共10页
日本、韩国、越南等东亚国家的汉字一直是社会各界关注的热点。由于日韩越三国分别实行不同的语言政策,其结果是日本书面语中仍大量使用汉字,而韩国汉字消失殆尽,越南彻底废除汉字。但是近年来韩国、越南出现了恢复使用汉字的呼声。根... 日本、韩国、越南等东亚国家的汉字一直是社会各界关注的热点。由于日韩越三国分别实行不同的语言政策,其结果是日本书面语中仍大量使用汉字,而韩国汉字消失殆尽,越南彻底废除汉字。但是近年来韩国、越南出现了恢复使用汉字的呼声。根据对日本、韩国、越南的现代语言的大规模数据调查,虽然韩国、越南基本不使用汉字,但是,这些语言中的汉字词汇并没有受到这些国家限制或者废除汉字的语言政策的影响,仍然大量存在,日本汉字词汇的使用量较明治时期也所增长,汉字词汇就像汉字的种子埋藏在这些国家的语言中。随着社会的进步,原先废除汉字的原因正在逐步消失,只要条件成熟,汉字在这些国家的前途是光明的。 展开更多
关键词 东亚国家 汉字词汇 汉字前途 规模语料库 汉字政策 信息技术
原文传递
语料库与词典编纂 被引量:7
11
作者 刘庆荣 《上海师范大学学报(哲学社会科学版)》 2001年第3期109-112,共4页
  随着计算机技术的发展、电子语料库的产生,现在的词典编纂有着过去无以比拟的优势,文章主要探讨了语料库对词典编纂所起的作用以及词典编纂对语料库所提出的要求,并得出通过语料库进行词典编纂是今后词典业发展的普遍趋势这一结论。
关键词 电子语料库 词典编纂 词性标准 语义标准 语料库规模 赋码
下载PDF
语料库对词典编纂的影响 被引量:4
12
作者 王小海 《辞书研究》 北大核心 2001年第4期15-21,共7页
近些年来 ,语料库规模的不断扩大和与之配套的检索技术的日益完善 ,极大地方便了各项语言研究工作的开展。传统的辞书编纂工作因此也注入了新的活力 ,发生了一些革命性变化。辞书编纂的诸多方面 ,包括选词、配例、释义、义项排列等均能... 近些年来 ,语料库规模的不断扩大和与之配套的检索技术的日益完善 ,极大地方便了各项语言研究工作的开展。传统的辞书编纂工作因此也注入了新的活力 ,发生了一些革命性变化。辞书编纂的诸多方面 ,包括选词、配例、释义、义项排列等均能从语料库提供的数据中获得帮助。本文在概述国外语料库发展基本情况的基础上 ,重点讨论由语料库统计出的词频信息及其他一些特点 ,介绍了从语料库中检索固定搭配和利用语料库统计信息排列义项的方法 。 展开更多
关键词 语料库规模 辞书编纂 义项 词典编纂 口语语料 释义 语言研究 简析 传统 排列
下载PDF
国内语料库发展现存问题与分析 被引量:3
13
作者 王大鹏 《渤海大学学报(哲学社会科学版)》 2010年第3期137-140,共4页
国内语料库语言学发展已有近30个年头,成果颇丰。随着计算机技术的发展,基于语料库的语言学研究优势明显,大批学者投身到了语料库语言学的研究中,但问题也逐渐显现。在语料库的规模、口笔语语料库比重、国内英语中介语研究和语料库资源... 国内语料库语言学发展已有近30个年头,成果颇丰。随着计算机技术的发展,基于语料库的语言学研究优势明显,大批学者投身到了语料库语言学的研究中,但问题也逐渐显现。在语料库的规模、口笔语语料库比重、国内英语中介语研究和语料库资源共享等四大方面国内语料库语言学发展仍存在问题,需要逐步解决。 展开更多
关键词 语料库规模 语料库口笔语比重 英语中介语 语料库资源共享
下载PDF
语料库自然标注信息与中文分词应用研究(英文) 被引量:2
14
作者 饶高琦 修驰 荀恩东 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期140-146,共7页
以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。... 以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。通过词语抽取测试,发现在缺乏丰富显性标注信息的文本中,来自语言固有规律的自然标注信息对字符串有着强大的分割性能。 展开更多
关键词 自然标注信息 中文分词 词语抽取 规模语料库
下载PDF
基于熵的机器翻译伪并行语料库选择方法
15
作者 刘婉月 艾山・吾买尔 +1 位作者 敖乃翔 郭锐 《现代计算机》 2021年第19期9-14,18,共7页
为了获得高质量的NMT模型,大规模并行语料库是必不可少的。使用反向翻译构造伪造语料库,这些伪造语料中存在大量的噪声,这些噪声会降低NMT模型的翻译质量。为了从反向翻译的伪造语料中选取高质量的语料,对此,提出了多种基于熵过滤伪造... 为了获得高质量的NMT模型,大规模并行语料库是必不可少的。使用反向翻译构造伪造语料库,这些伪造语料中存在大量的噪声,这些噪声会降低NMT模型的翻译质量。为了从反向翻译的伪造语料中选取高质量的语料,对此,提出了多种基于熵过滤伪造语料的方法,使用单个或多个语言模型按照不同的困惑度选择方法筛选伪造语料,实验表明,联合不同语言模型能够筛选高质量语料,并提高模型的质量。 展开更多
关键词 规模并行语料库 语言模型 伪造语料库 困惑度
下载PDF
大规模真实文本处理的理论与方法
16
作者 黄昌宁 《国际学术动态》 1998年第4期14-16,共3页
背景随着因特网和光盘等大容量存储技术的普及,机储文本语料库的规模已冲破1万亿(10~(12)字节。它一方面带来了巨大的商业利益,促进了信息咨询业的空前发展;另一方面也向学术界和企业界提出了挑战,呼唤着大规模真实文本处理技术的革新... 背景随着因特网和光盘等大容量存储技术的普及,机储文本语料库的规模已冲破1万亿(10~(12)字节。它一方面带来了巨大的商业利益,促进了信息咨询业的空前发展;另一方面也向学术界和企业界提出了挑战,呼唤着大规模真实文本处理技术的革新。据美国Lexis-Nexis公司John Rausch高级工程师在第5届国际大规模语料库研讨会(The Fifth workshop on Verylarge Corpora,简称WVLC-5)上披露,这家提供信息检索服务的公司今年的机储文档已达15亿件,相当于15000亿字符,是该公司1993年机储文档的7.5倍,并且持续以每周950万件的速度递增。此外Lexis—Nexis公司平均每天要接受50万次客户查询,每次查询平均访问182个不同数据库,而每次查询的响应时间平均为4.8秒,公司每天为客户打印的文档多达37.5万件。从以上数据中不难看到,信息资源在当今社会中的重要性,以及文本语料库(或数据库)所达到的巨大规模和相应的处理技术。 展开更多
关键词 规模语料库 真实文本处理 文本处理 文本分析
下载PDF
ChatGPT工作原理及对未来工作方式的影响 被引量:4
17
作者 邵昱 《通信与信息技术》 2023年第4期113-117,共5页
介绍了ChatGPT的工作原理,重点介绍其基于大规模语料库进行训练的方法和使用Transformer架构实现的自注意力和多头注意力机制。探讨了ChatGPT对未来工作方式的影响,包括自动化、智能化和改变人机交互方式。ChatGPT作为一种新兴的人工智... 介绍了ChatGPT的工作原理,重点介绍其基于大规模语料库进行训练的方法和使用Transformer架构实现的自注意力和多头注意力机制。探讨了ChatGPT对未来工作方式的影响,包括自动化、智能化和改变人机交互方式。ChatGPT作为一种新兴的人工智能技术,将会对未来的工作方式和就业市场产生深远的影响。 展开更多
关键词 ChatGPT 自然语言处理 规模语料库 人机交互 就业市场
下载PDF
基于大规模语料库的汉日触压觉形容词认知语义对比研究——以“硬”和「かたい」为例 被引量:5
18
作者 钟勇 《日语学习与研究》 CSSCI 2017年第6期34-41,共8页
本文基于大规模语料库详细对比了触压觉形容词"硬"和「かたい」的认知语义结构。研究发现,二者具有以下共同点:(1)语义扩展的整体方向一致;(2)原型义相同;(3)语义扩展程度很高;(4)一次扩展义远远多于二次扩展义;(5)基于隐喻... 本文基于大规模语料库详细对比了触压觉形容词"硬"和「かたい」的认知语义结构。研究发现,二者具有以下共同点:(1)语义扩展的整体方向一致;(2)原型义相同;(3)语义扩展程度很高;(4)一次扩展义远远多于二次扩展义;(5)基于隐喻的语义扩展特别多。这些共同点的成因在于中日两国人民持有相似的基本身体经验和世界认知过程以及二者所表达的概念特征相同。另一方面,二者的不同点体现为"相互拥有多个不同扩展义",其成因在于两国人民对世界细微之处的具体认知过程不同以及中日文化差异。 展开更多
关键词 规模语料库 かたぃ 认知语义对比 日语教学
原文传递
“大语言模型与知识图谱”专题征文通知
19
《计算机工程与应用》 CSCD 北大核心 2023年第9期I0001-I0001,共1页
大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,... 大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,它可以描述实体、属性和关系,并支持复杂的查询推理,为自然语言理解、信息检索和智能推荐等任务提供了基础。 展开更多
关键词 自然语言理解 自然语言生成 智能推荐 信息检索 人工智能 规模语料库 自动学习 知识图谱
下载PDF
“大语言模型与知识图谱”专题征文通知
20
《计算机工程与应用》 CSCD 北大核心 2023年第10期I0001-I0001,共1页
大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,... 大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,它可以描述实体、属性和关系,并支持复杂的查询推理,为自然语言理解、信息检索和智能推荐等任务提供了基础。 展开更多
关键词 自然语言理解 自然语言生成 智能推荐 信息检索 人工智能 规模语料库 自动学习 知识图谱
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部