期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于人民日报语料的中央一号文件词频历时分析 被引量:6
1
作者 黄水清 王东波 《农业图书情报学报》 2020年第3期4-9,共6页
[目的 /意义]揭示中央一号文件重要词语的时代特征。[方法 /过程]以经过人工分词处理的人民日报语料为数据对象,统计2020年中央一号文件中各部分的若干重要词语在2015年以来每年1月份《人民日报》中出现的频次,从历时性的角度对比不同... [目的 /意义]揭示中央一号文件重要词语的时代特征。[方法 /过程]以经过人工分词处理的人民日报语料为数据对象,统计2020年中央一号文件中各部分的若干重要词语在2015年以来每年1月份《人民日报》中出现的频次,从历时性的角度对比不同时期《人民日报》中频次的变化。[结果 /结论]首先,宏观性的顶层政策以及普遍性的社会现象涉及的词语在《人民日报》中有比较高的频次;其次,与"三农"相关的词汇在《人民日报》中的频次总体都是不很高,特别是部分与具体工作相关的词汇。最后,以人民日报语料为基础对政策文件的词频做历时性分析是可行的,能够得出有益的结论。 展开更多
关键词 人民日报语料 NEPD 中央一号文件 词频
下载PDF
面向新时代的人民日报语料中文分词歧义分析 被引量:3
2
作者 彭秋茹 王东波 黄水清 《情报科学》 CSSCI 北大核心 2021年第11期103-109,共7页
【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后的共4个月新时代的人民日报... 【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后的共4个月新时代的人民日报分词语料为研究对象,通过统计词频、词长、从合度等信息,从名词、动词、数词、量词、副词、形容词、区别词、方位词、处所词、时间词、代词、介词、连词、助词、习用语、否定词、前后缀等类型来讨论变异词的切分规律。【结果/结论】结果发现新时代的人民日报语料中的切分变异大部分为假歧义,相同语法结构的二字词要比三字词、四字词的切分变异从合度更高。【创新/局限】本文首次面向新时代的人民日报语料讨论了中文分词歧义的问题,但缺少与旧语料的对比分析。 展开更多
关键词 中文分词 分词歧义 新时代人民日报分词语料 切分变异 中文信息处理
原文传递
关于“人民日报标注语料库”公开的新闻资料 被引量:1
3
《语言文字应用》 CSSCI 北大核心 2001年第4期42-42,共1页
关键词 人民日报标注语料库” 新闻资料 语言工程 中文信息处理
原文传递
大规模汉语标注语料库的制作与使用 被引量:20
4
作者 段慧明 松井久仁於 +2 位作者 徐国伟 胡国昕 俞士汶 《语言文字应用》 CSSCI 北大核心 2000年第2期72-77,共6页
随着自然语言处理研究的深入开展 ,大规模语料库的作用越来越重要。自从70年代美国制作了著名的BrownCorpus以来 ,世界上已制作了各种语料库。富士通研究开发中心和北京大学计算语言学研究所合作 ,以人民日报语料为对象 ,制作大规模汉... 随着自然语言处理研究的深入开展 ,大规模语料库的作用越来越重要。自从70年代美国制作了著名的BrownCorpus以来 ,世界上已制作了各种语料库。富士通研究开发中心和北京大学计算语言学研究所合作 ,以人民日报语料为对象 ,制作大规模汉语标注语料库 ,这个语料库是世界上规模最大的标注语料库之一。 展开更多
关键词 自然语言处理 大规模语料 人民日报语料 语言资源 汉语切分系统 精度
原文传递
新时代人民日报分词语料库构建、性能及应用(二)——深度学习自动分词模型构建 被引量:9
5
作者 黄水清 王东波 《图书情报工作》 CSSCI 北大核心 2019年第23期5-12,共8页
[目的/意义]在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型,不仅有助于为高性能分词模型的构建提供经验,也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程]在介绍双向长短时记忆模型(Bi-L... [目的/意义]在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型,不仅有助于为高性能分词模型的构建提供经验,也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程]在介绍双向长短时记忆模型(Bi-LSTM)和双向长短时记忆与条件随机场融合模型(Bi-LSTM-CRF)的基础上,阐明汉语分词语料预处理、评价指标和参数与硬件平台的过程、种类和情况,分别构建Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型,并对模型的整体性能进行分析。[结果/结论]从精准率、召回率和调和平均值3个指标上看,所构建的Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型的整体性能相对较为合理。在具体性能上,Bi-LSTM分词模型优于Bi-LSTM-CRF分词模型,但这一差距非常细微。 展开更多
关键词 新时代人民日报分词语料 语料 自动分词 深度学习 Bi-LSTM Bi-LSTM-CRF
原文传递
新时代人民日报分词语料库构建、性能及应用(三)——句长与词的分析比较 被引量:7
6
作者 黄水清 王东波 《图书情报工作》 CSSCI 北大核心 2019年第24期5-15,共11页
[目的/意义]基于新时代人民日报分词语料库从不同维度统计分析句子长度和词汇分布,有助于了解当代汉语文本的语言学特征,进而开展自然语言处理和文本挖掘研究。[方法/过程]在2018年1月人民日报分词语料的基础上,结合1998年1月人民日报... [目的/意义]基于新时代人民日报分词语料库从不同维度统计分析句子长度和词汇分布,有助于了解当代汉语文本的语言学特征,进而开展自然语言处理和文本挖掘研究。[方法/过程]在2018年1月人民日报分词语料的基础上,结合1998年1月人民日报分词语料,确定统计中所使用的6种句子类别,统计和分析字与词单位上的句子长度分布,并基于齐普夫定律揭示词汇静态分布情况。[结果/结论]从字词维度上的句子长度分布情况和词汇的齐普夫分布状态上看,随着时间的推移,在1998和2018两个语料上,句子的长度和词汇的分布均发生变化,但这种变化又是延续的、有关联的。 展开更多
关键词 新时代人民日报分词语料 语料 句子长度 词汇分布 齐普夫定律
原文传递
“人民日报标注语料库”公开
7
《世界汉语教学》 CSSCI 北大核心 2001年第3期88-88,共1页
关键词 人民日报标注语料库” 标注语 公开范围 人民日报
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部