期刊导航
期刊开放获取
重庆大学
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
15
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种错误敏感的词对齐评价方法
被引量:
3
1
作者
黄书剑
奚宁
+2 位作者
赵迎功
戴新宇
陈家骏
《中文信息学报》
CSCD
北大核心
2009年第3期88-94,共7页
对齐错误率(Alignment Error Rate,AER)是目前通用的词对齐评价标准。近年来的研究表明,AER虽然在一定程度上能够反映词对齐的质量,但它与机器翻译最终结果BLEU得分的相关性并不好。该文针对基于短语的机器翻译系统(PBSMT)分析了AER可...
对齐错误率(Alignment Error Rate,AER)是目前通用的词对齐评价标准。近年来的研究表明,AER虽然在一定程度上能够反映词对齐的质量,但它与机器翻译最终结果BLEU得分的相关性并不好。该文针对基于短语的机器翻译系统(PBSMT)分析了AER可能存在的一些问题,并根据词对齐结果中存在的不同类型的错误,提出了一种错误敏感的词对齐评测方法ESAER(Error-Sensitive Alignment Error Rate)。实验表明,该文提出的ES-AER与BLEU的相关性要远远好于AER。
展开更多
关键词
人工智能
机器翻译
统计机器翻译
词对齐
评价标准
AER
错误敏感
下载PDF
职称材料
融合人工智能专业知识的程序设计课程建设
被引量:
2
2
作者
黄书剑
吴震
+4 位作者
陈家骏
申富饶
张莉
金莹
戴新宇
《计算机教育》
2022年第10期119-122,127,共5页
针对人工智能现有课程体系中相关课程开设较晚的现状,分析人工智能和程序设计课程的教学现状和关联性,探讨在低年级教学中将程序设计课程和人工智能专业内容相结合的可能性,以南京大学人工智能学院的相关课程为例,介绍课程建设和教学实...
针对人工智能现有课程体系中相关课程开设较晚的现状,分析人工智能和程序设计课程的教学现状和关联性,探讨在低年级教学中将程序设计课程和人工智能专业内容相结合的可能性,以南京大学人工智能学院的相关课程为例,介绍课程建设和教学实践过程,以期提升人工智能人才培养的针对性,为相关课程教学提供参考。
展开更多
关键词
人工智能
程序设计
计算思维
课程建设
下载PDF
职称材料
一种基于图划分的无监督汉语指代消解算法
被引量:
19
3
作者
周俊生
黄书剑
+1 位作者
陈家骏
曲维光
《中文信息学报》
CSCD
北大核心
2007年第2期77-82,共6页
指代消解是自然语言处理领域中的一个重要问题。针对当前中文指代标注训练语料非常缺乏的现状,本文提出一种无监督聚类算法实现对名词短语的指代消解。引入图对名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并引入...
指代消解是自然语言处理领域中的一个重要问题。针对当前中文指代标注训练语料非常缺乏的现状,本文提出一种无监督聚类算法实现对名词短语的指代消解。引入图对名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并引入一个有效的模块函数实现对图的自动划分,使得指代消解过程并不是孤立地对每一对名词短语分别进行共指决策,而是充分考虑了多个待消解项之间的相关性,并且避免了阈值选择问题。通过在ACE中文语料上的人称代词消解和名词短语消解实验结果表明,该算法是一种有效可行的无监督指代消解算法。
展开更多
关键词
人工智能
自然语言处理
聚类
指代消解
模块函数
下载PDF
职称材料
中英命名实体识别及对齐中的中文分词优化
被引量:
6
4
作者
尹存燕
黄书剑
+1 位作者
戴新宇
陈家骏
《电子学报》
EI
CAS
CSCD
北大核心
2015年第8期1481-1487,共7页
中文分词结果对中英命名实体识别及对齐有着直接的影响,本文提出了一种命名实体识别及对齐中的中文分词优化方法.该方法利用实体词汇的对齐信息,首先修正命名实体识别结果,然后根据实体对齐结果调整分词粒度、修正错误分词.分词优化后...
中文分词结果对中英命名实体识别及对齐有着直接的影响,本文提出了一种命名实体识别及对齐中的中文分词优化方法.该方法利用实体词汇的对齐信息,首先修正命名实体识别结果,然后根据实体对齐结果调整分词粒度、修正错误分词.分词优化后的结果使得双语命名实体尽可能多地实现一一对应,进而提高中英命名实体翻译抽取和统计机器翻译的效果.实验结果表明了本文优化方法的有效性.
展开更多
关键词
分词
命名实体识别
双语对齐
机器翻译
下载PDF
职称材料
面向新闻语料的中日命名实体翻译抽取
被引量:
3
5
作者
尹存燕
黄书剑
+1 位作者
戴新宇
陈家骏
《小型微型计算机系统》
CSCD
北大核心
2015年第6期1393-1397,共5页
命名实体翻译可以有效地提高跨语言信息检索、统计机器翻译等系统的性能.双语新闻语料包含了丰富的命名实体,利用统计方法可以从中抽取出命名实体翻译.基于中日双语新闻语料,对中日命名实体的翻译特征进行了分析,基于这些特征,提出一种...
命名实体翻译可以有效地提高跨语言信息检索、统计机器翻译等系统的性能.双语新闻语料包含了丰富的命名实体,利用统计方法可以从中抽取出命名实体翻译.基于中日双语新闻语料,对中日命名实体的翻译特征进行了分析,基于这些特征,提出一种中日双语命名实体翻译自动抽取的方法,该方法融合了中日汉字翻译概率、片假名词汇和中文音译词汇的拼音相似度以及双语词汇共现等特征.实验表明本文方法充分利用这些特征,在语料规模不大的情况下,也可以取得较好的效果.
展开更多
关键词
命名实体
双语语料
对齐模型
拼音相似度
词汇共现
下载PDF
职称材料
基于特征选择和点互信息剪枝的产品属性提取方法
被引量:
3
6
作者
高磊
戴新宇
+1 位作者
黄书剑
陈家骏
《模式识别与人工智能》
EI
CSCD
北大核心
2015年第2期187-192,共6页
产品属性的自动抽取是情感分析中的重要研究内容.文中提出一种基于特征选择和词频及点互信息剪枝的产品属性提取方法.首先引入在分类任务中常用的l1-norm正则化(Lasso)方法,将产品属性抽取问题转换为分类中的特征选择问题,利用Lasso生...
产品属性的自动抽取是情感分析中的重要研究内容.文中提出一种基于特征选择和词频及点互信息剪枝的产品属性提取方法.首先引入在分类任务中常用的l1-norm正则化(Lasso)方法,将产品属性抽取问题转换为分类中的特征选择问题,利用Lasso生成稀疏模型的特性,将模型中少量的特征作为产品特征属性候选集.然后根据候选特征属性集中的特征属性在文本中出现的频率进行排序并剪枝.最后经过进一步合并和点互信息剪枝处理,得到最终的产品属性集.在中文产品评论集上的实验证实文中方法的有效性.
展开更多
关键词
情感分析
产品属性提取
l1-norm正则化
点互信息剪枝
下载PDF
职称材料
基于分布内存的层次短语机器翻译并行化算法
被引量:
3
7
作者
赵博
黄书剑
+2 位作者
戴新宇
袁春风
黄
宜华
《计算机研究与发展》
EI
CSCD
北大核心
2014年第12期2724-2732,共9页
近年来,为了提高统计机器翻译系统的准确性,普遍应用海量语料训练出大规模语言模型和翻译模型.而模型规模的不断增大,给统计机器翻译带来了突出的计算性能问题,使得现有的单机串行化翻译处理难以在较快的时间内完成计算,该问题在处理联...
近年来,为了提高统计机器翻译系统的准确性,普遍应用海量语料训练出大规模语言模型和翻译模型.而模型规模的不断增大,给统计机器翻译带来了突出的计算性能问题,使得现有的单机串行化翻译处理难以在较快的时间内完成计算,该问题在处理联机翻译时更为突出.为了克服单机机器翻译算法在这方面的局限性,提高大规模统计机器翻译处理的计算性能,面向一个实际的联机翻译系统,提出了一个分布式和并行化翻译解码算法框架,对整个大规模语言模型和翻译模型同时采用分布式存储和并行化查询机制,在此基础上进一步研究实现完整的翻译解码并行化算法.研究实现了一个基于分布式内存数据库的层次短语并行化机器翻译解码器,该解码器使用分布式内存数据库存储和查询大数据量的翻译模型表和语言模型表,克服了传统的机器翻译系统所面临的内存容量和并发度方面的限制.为了进一步提高并行解码速度,还研究实现了另外3项优化技术:1)将翻译模型表的同步规则和Trie树结构的语言模型表转化为基于内存数据库的"键-值"结构的Hash索引表的方法;2)对Cube-Pruning算法进行了修改使其适用于批量查询;3)采用并优化了批量查询方式减少语言和翻译模型查询时的网络传输开销.所提出的解码算法实现了基于大规模语料统计机器翻译时的快速解码,并具备优异的系统可扩展性.实验结果表明:与单机解码器相比,单句翻译速度可提高2.7倍,批量翻译作业的总体解码性能可提高至少11.7倍,实现了显著的计算性能提升.
展开更多
关键词
统计机器翻译
层次短语
语言模型
翻译模型
并行化解码
分布内存
下载PDF
职称材料
基于无指导学习的微博评论分析方法
被引量:
3
8
作者
徐帅帅
戴新宇
+1 位作者
黄书剑
陈家骏
《中文信息学报》
CSCD
北大核心
2017年第2期179-186,共8页
该文以一种有效的方法寻找出有价值的微博评论,这对于读者更高效地阅读评论,为舆情分析、文本挖掘等任务提供支持,均具有重要的应用价值。针对微博及其评论文本短小、内容发散等特点,该文提出一种基于无指导学习的微博评论分析方法,该...
该文以一种有效的方法寻找出有价值的微博评论,这对于读者更高效地阅读评论,为舆情分析、文本挖掘等任务提供支持,均具有重要的应用价值。针对微博及其评论文本短小、内容发散等特点,该文提出一种基于无指导学习的微博评论分析方法,该方法通过互联网搜索引擎扩展微博文本,基于相关性计算自动构造正负训练用例,生成特定的某条微博评论分类模型,通过该模型对评论的价值性进行评估。实验结果表明,该方法能够比较好地识别出评论的价值。
展开更多
关键词
微博评论
价值性
无指导学习
评论过滤
下载PDF
职称材料
TCS:一种用于跨语言文本标签预测的“老师-课程-学生”学习框架
被引量:
2
9
作者
浦通
黄书剑
+4 位作者
张洋铭
周祥生
屠要峰
戴新宇
陈家骏
《计算机学报》
EI
CAS
CSCD
北大核心
2022年第9期1983-1996,共14页
跨语言迁移旨在借助源语言的标注样本学习目标语言上的相应任务,是解决目标语言标记数据不足的重要途径.近期表现出色的方法多基于自训练,通过逐步自动标记无标注样本实现知识的迁移.然而自训练存在不准确监督的问题,即当前模型(称为老...
跨语言迁移旨在借助源语言的标注样本学习目标语言上的相应任务,是解决目标语言标记数据不足的重要途径.近期表现出色的方法多基于自训练,通过逐步自动标记无标注样本实现知识的迁移.然而自训练存在不准确监督的问题,即当前模型(称为老师模型)对目标语言无标注样本的错误预测会误导后续模型(称为学生模型)的学习.跨语言迁移中,源语言和目标语言样本之间存在的分布差异加重了这个问题.本文提出一种名为“老师-课程-学生”(TCS)的学习框架,综合使用三项技术解决自训练中的不准确监督的问题,包括软目标训练技术、渐进式样本选择技术、“从可信到可疑”的课程学习技术等.在跨语言文本分类和跨语言命名实体识别基准数据集上的实验表明,TCS取得的平均结果在自训练的基础上分别提高了2.51%和3.25%,并分别比现有最佳结果高1.51%和4.45%.消融实验表明,TCS使用的三项技术都能有效提升最终模型的性能,其中课程学习技术和“从可信到可疑”的课程顺序是取得出色结果的关键.相关代码和实验配置可以在https://github.com/ericput/TCS获取.
展开更多
关键词
跨语言迁移
自训练
课程学习
文本分类
命名实体识别
下载PDF
职称材料
一种适用于机器翻译的汉语分词方法
被引量:
2
10
作者
奚宁
李博渊
+1 位作者
黄书剑
陈家骏
《中文信息学报》
CSCD
北大核心
2012年第3期54-58,78,共6页
汉语分词是搭建汉语到其他语言的统计机器翻译系统的一项重要工作。从单语语料中训练得到的传统分词模型并不一定完全适合机器翻译[1]。该文提出了一种基于单语和双语知识的适应于统计机器翻译系统的分词方法。首先利用对齐可信度的概...
汉语分词是搭建汉语到其他语言的统计机器翻译系统的一项重要工作。从单语语料中训练得到的传统分词模型并不一定完全适合机器翻译[1]。该文提出了一种基于单语和双语知识的适应于统计机器翻译系统的分词方法。首先利用对齐可信度的概念从双语字对齐语料中抽取可信对齐集合,然后根据可信对齐集合对双语语料中的中文部分重新分词;接着将重新分词的结果和单语分词工具的分词结果相融合,得到新的分词结果,并将其作为训练语料,利用条件随机场模型训练出一个融合了单双语知识的分词工具。该文用该工具对机器翻译所需的训练集、开发集和测试集进行分词,并在基于短语的统计机器翻译系统上进行实验。实验结果表明,该文所提的方法提高了系统性能。
展开更多
关键词
中文分词
统计机器翻译
对齐可信度
下载PDF
职称材料
基于有监督关联聚类的中文共指消解
被引量:
1
11
作者
刘未鹏
周俊生
+1 位作者
黄书剑
陈家骏
《计算机科学》
CSCD
北大核心
2009年第9期182-185,共4页
共指消解是文本信息处理中的一个重要问题。提出了一种有监督的关联聚类算法以实现对中文实体提及的共指消解。首先将共指消解过程看成图的关联聚类问题,从全局的角度实现对共指等价类的划分,而不是孤立地对每一对名词短语分别进行共指...
共指消解是文本信息处理中的一个重要问题。提出了一种有监督的关联聚类算法以实现对中文实体提及的共指消解。首先将共指消解过程看成图的关联聚类问题,从全局的角度实现对共指等价类的划分,而不是孤立地对每一对名词短语分别进行共指决策;然后给出了关联聚类的推导算法;最后设计了一种基于梯度下降的特征参数学习算法,使得训练出的特征参数能够较好拟合关联聚类的目标。在ACE中文语料上的实验结果显示,该算法优于传统的"分类-聚类"共指消解学习算法。
展开更多
关键词
共指消解
关联聚类
损失函数
下载PDF
职称材料
建设中国—哈萨克斯坦旅游资源信息库的需求、构想与意义
被引量:
3
12
作者
古丽孜拉.艾尼外
马劲松
+1 位作者
黄书剑
王友文
《新疆大学学报(哲学社会科学版)》
CSSCI
2015年第2期85-87,共3页
中、哈两国共建哈萨克草原文化旅游资源信息库,既是旅游市场发展的需求,也是经济贸易和科学技术的革新。信息库建设包含信息库的数据组成、信息库的软件架构、信息库功能特色三个方面,对全面深化中国与中亚地区战略伙伴的关系、提升两...
中、哈两国共建哈萨克草原文化旅游资源信息库,既是旅游市场发展的需求,也是经济贸易和科学技术的革新。信息库建设包含信息库的数据组成、信息库的软件架构、信息库功能特色三个方面,对全面深化中国与中亚地区战略伙伴的关系、提升两国旅游合作和旅游产业水平、促进各国经济文化发展具有重大现实意义和深远历史意义。
展开更多
关键词
旅游资源信息化
哈萨克草原文化
丝绸之路经济带
下载PDF
职称材料
“双减”背景下初中物理教学设计策略
13
作者
黄书剑
《中文科技期刊数据库(引文版)教育科学》
2022年第8期22-25,共4页
在新课程改革的持续深化下,越来越多的人开始关注减轻学生的学业负担,在这样的情况下“双减”政策应运而生。在"减负增效"的新形势下,教师的课堂教学也被提出了新的要求。对于初中阶段的学生来说,物理无疑是一门难度较高的课...
在新课程改革的持续深化下,越来越多的人开始关注减轻学生的学业负担,在这样的情况下“双减”政策应运而生。在"减负增效"的新形势下,教师的课堂教学也被提出了新的要求。对于初中阶段的学生来说,物理无疑是一门难度较高的课程,其所涵盖的知识范围很广,知识的关系也十分复杂,这就对学生的综合素质提出了很高的要求。因此,在初中物理教学中如何进行有效的教学设计,提高教学质量,已成为当前广大物理教师面临的一个重要问题。基于此,本文将从在“双减”背景下进行教学设计的意义出发,对初中物理教学实践中存在的问题进行深入的分析,并据此提出在“双减”背景下进行初中物理教学设计的有效策略,以供广大教育工作者参考。
展开更多
关键词
“双减”政策
初中物理
教学设计
策略研究
下载PDF
职称材料
初中班主任管理工作中的难点及应对措施分析
14
作者
黄书剑
《世纪之星—初中版》
2022年第5期79-81,共3页
新的课程改革,不仅要让初中生学好更多的文化知识,还要必须具备良好的综合素质,这就给中学的教学管理工作带来了新的挑战,为了进一步提升中学的管理与教学水平,对每一位同学进行良好的管理是十分必要的。中学生有更强烈的自我意识,班主...
新的课程改革,不仅要让初中生学好更多的文化知识,还要必须具备良好的综合素质,这就给中学的教学管理工作带来了新的挑战,为了进一步提升中学的管理与教学水平,对每一位同学进行良好的管理是十分必要的。中学生有更强烈的自我意识,班主任在管理的时候,要注意方法,避免交流不到位导致学生的情绪波动和叛逆。甚至对学习感到厌烦。要根据学生的具体情况,不断地探索改进管理的方法,让初中生更好地学习和生活。本文对初中学生的心理特点进行了分析,并就目前班主任工作中存在的问题,给出了相应的对策,作为参考。
展开更多
关键词
初中班主任
管理工作
解决策略
下载PDF
职称材料
基于句法模板采样的无监督复述生成方法
被引量:
1
15
作者
鲍宇
黄书剑
+3 位作者
周浩
李磊
戴新宇
陈家骏
《中国科学:信息科学》
CSCD
北大核心
2022年第10期1808-1821,共14页
文本复述可以辅助机器翻译、智能问答、文本分类等任务,是非常重要的自然语言处理任务.近年来,一些研究探索了基于结构变换的文本复述,从无监督学习的概率化表示空间中采样多个句法表示并生成多个复述.然而,通过后验分布采样句法表示生...
文本复述可以辅助机器翻译、智能问答、文本分类等任务,是非常重要的自然语言处理任务.近年来,一些研究探索了基于结构变换的文本复述,从无监督学习的概率化表示空间中采样多个句法表示并生成多个复述.然而,通过后验分布采样句法表示生成的复述往往高度相似,缺乏多样性;另一方面,从先验分布采样句法表示又难以保证与给定的语义表示相匹配,导致生成的复述质量欠佳.本文提出了基于句法模板的文本复述模型,引入了句法模板隐变量建立语义空间和句法空间的联系,并进一步提出了两步采样策略:(1)使用先验分布采样句法模板,使得采样的句法表示更加多样化;(2)使用后验分布采样句法表示,以确保句法表示与语义表示的匹配.实验表明,两步采样策略有效地结合了先验采样和后验采样的优势,生成的文本复述可以在具备良好生成质量的同时保持着更好的多样性,取得了当前最佳的复述性能.
展开更多
关键词
无监督复述
变分自编码器
句法结构
采样
原文传递
题名
一种错误敏感的词对齐评价方法
被引量:
3
1
作者
黄书剑
奚宁
赵迎功
戴新宇
陈家骏
机构
南京大学计算机软件新技术国家重点实验室
出处
《中文信息学报》
CSCD
北大核心
2009年第3期88-94,共7页
基金
国家863高科技计划资助项目(2006AA010109)
国家自然科学基金资助项目(60673043)
+1 种基金
国家社科基金资助项目(07BYY051)
南京大学研究生科研创新基金资助项目(2008CL08)
文摘
对齐错误率(Alignment Error Rate,AER)是目前通用的词对齐评价标准。近年来的研究表明,AER虽然在一定程度上能够反映词对齐的质量,但它与机器翻译最终结果BLEU得分的相关性并不好。该文针对基于短语的机器翻译系统(PBSMT)分析了AER可能存在的一些问题,并根据词对齐结果中存在的不同类型的错误,提出了一种错误敏感的词对齐评测方法ESAER(Error-Sensitive Alignment Error Rate)。实验表明,该文提出的ES-AER与BLEU的相关性要远远好于AER。
关键词
人工智能
机器翻译
统计机器翻译
词对齐
评价标准
AER
错误敏感
Keywords
artificial intelligence
machine translation
SMT
word Alignment
evaluation metric
AER
error-sen- sitive
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
融合人工智能专业知识的程序设计课程建设
被引量:
2
2
作者
黄书剑
吴震
陈家骏
申富饶
张莉
金莹
戴新宇
机构
南京大学计算机软件新技术国家重点实验室
南京大学计算机科学与技术系
南京大学人工智能学院
南京大学大学计算机基础教学部
出处
《计算机教育》
2022年第10期119-122,127,共5页
文摘
针对人工智能现有课程体系中相关课程开设较晚的现状,分析人工智能和程序设计课程的教学现状和关联性,探讨在低年级教学中将程序设计课程和人工智能专业内容相结合的可能性,以南京大学人工智能学院的相关课程为例,介绍课程建设和教学实践过程,以期提升人工智能人才培养的针对性,为相关课程教学提供参考。
关键词
人工智能
程序设计
计算思维
课程建设
分类号
G642 [文化科学—高等教育学]
下载PDF
职称材料
题名
一种基于图划分的无监督汉语指代消解算法
被引量:
19
3
作者
周俊生
黄书剑
陈家骏
曲维光
机构
南京大学计算机科学与技术系
南京师范大学计算机科学系
出处
《中文信息学报》
CSCD
北大核心
2007年第2期77-82,共6页
基金
国家863高技术研究发展计划资助项目(2006AA01Z143)
国家自然科学基金资助项目(60673043)
江苏省自然科学基金项目(BK2006117)
文摘
指代消解是自然语言处理领域中的一个重要问题。针对当前中文指代标注训练语料非常缺乏的现状,本文提出一种无监督聚类算法实现对名词短语的指代消解。引入图对名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并引入一个有效的模块函数实现对图的自动划分,使得指代消解过程并不是孤立地对每一对名词短语分别进行共指决策,而是充分考虑了多个待消解项之间的相关性,并且避免了阈值选择问题。通过在ACE中文语料上的人称代词消解和名词短语消解实验结果表明,该算法是一种有效可行的无监督指代消解算法。
关键词
人工智能
自然语言处理
聚类
指代消解
模块函数
Keywords
artificial intelligence
natural language processing
clustering
coreference resolution
modularity function
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
中英命名实体识别及对齐中的中文分词优化
被引量:
6
4
作者
尹存燕
黄书剑
戴新宇
陈家骏
机构
南京大学计算机软件新技术国家重点实验室
南京大学计算机科学与技术系
出处
《电子学报》
EI
CAS
CSCD
北大核心
2015年第8期1481-1487,共7页
基金
国家自然科学基金委优秀国家重点实验室研究项目(No.61223003)
国家自然科学基金(青年)(No.61300158)
文摘
中文分词结果对中英命名实体识别及对齐有着直接的影响,本文提出了一种命名实体识别及对齐中的中文分词优化方法.该方法利用实体词汇的对齐信息,首先修正命名实体识别结果,然后根据实体对齐结果调整分词粒度、修正错误分词.分词优化后的结果使得双语命名实体尽可能多地实现一一对应,进而提高中英命名实体翻译抽取和统计机器翻译的效果.实验结果表明了本文优化方法的有效性.
关键词
分词
命名实体识别
双语对齐
机器翻译
Keywords
word segmentation
named-entity recognition
alignment
machine translation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向新闻语料的中日命名实体翻译抽取
被引量:
3
5
作者
尹存燕
黄书剑
戴新宇
陈家骏
机构
南京大学计算机软件新技术国家重点实验室
南京大学计算机科学与技术系
出处
《小型微型计算机系统》
CSCD
北大核心
2015年第6期1393-1397,共5页
基金
国家社会科学基金重点项目(11AZD121)资助
国家自然科学基金(61003112)资助
文摘
命名实体翻译可以有效地提高跨语言信息检索、统计机器翻译等系统的性能.双语新闻语料包含了丰富的命名实体,利用统计方法可以从中抽取出命名实体翻译.基于中日双语新闻语料,对中日命名实体的翻译特征进行了分析,基于这些特征,提出一种中日双语命名实体翻译自动抽取的方法,该方法融合了中日汉字翻译概率、片假名词汇和中文音译词汇的拼音相似度以及双语词汇共现等特征.实验表明本文方法充分利用这些特征,在语料规模不大的情况下,也可以取得较好的效果.
关键词
命名实体
双语语料
对齐模型
拼音相似度
词汇共现
Keywords
named entity
bilingual corpus
alignment model
phonetic similarity
word's co-occurrence
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于特征选择和点互信息剪枝的产品属性提取方法
被引量:
3
6
作者
高磊
戴新宇
黄书剑
陈家骏
机构
南京大学计算机软件新技术国家重点实验室
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2015年第2期187-192,共6页
基金
国家自然科学基金项目(No.61003112
61170181)
+1 种基金
国家社会科学基金重点项目(No.11AZD121)
江苏省自然科学基金项目(No.BK2011192)资助
文摘
产品属性的自动抽取是情感分析中的重要研究内容.文中提出一种基于特征选择和词频及点互信息剪枝的产品属性提取方法.首先引入在分类任务中常用的l1-norm正则化(Lasso)方法,将产品属性抽取问题转换为分类中的特征选择问题,利用Lasso生成稀疏模型的特性,将模型中少量的特征作为产品特征属性候选集.然后根据候选特征属性集中的特征属性在文本中出现的频率进行排序并剪枝.最后经过进一步合并和点互信息剪枝处理,得到最终的产品属性集.在中文产品评论集上的实验证实文中方法的有效性.
关键词
情感分析
产品属性提取
l1-norm正则化
点互信息剪枝
Keywords
Sentiment Analysis
Product Attribute Extraction
l1-norm Regularization
Pointwise Mutual Information Pruning
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于分布内存的层次短语机器翻译并行化算法
被引量:
3
7
作者
赵博
黄书剑
戴新宇
袁春风
黄
宜华
机构
计算机软件新技术国家重点实验室(南京大学)
江苏省软件新技术与产业化协同创新中心
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第12期2724-2732,共9页
文摘
近年来,为了提高统计机器翻译系统的准确性,普遍应用海量语料训练出大规模语言模型和翻译模型.而模型规模的不断增大,给统计机器翻译带来了突出的计算性能问题,使得现有的单机串行化翻译处理难以在较快的时间内完成计算,该问题在处理联机翻译时更为突出.为了克服单机机器翻译算法在这方面的局限性,提高大规模统计机器翻译处理的计算性能,面向一个实际的联机翻译系统,提出了一个分布式和并行化翻译解码算法框架,对整个大规模语言模型和翻译模型同时采用分布式存储和并行化查询机制,在此基础上进一步研究实现完整的翻译解码并行化算法.研究实现了一个基于分布式内存数据库的层次短语并行化机器翻译解码器,该解码器使用分布式内存数据库存储和查询大数据量的翻译模型表和语言模型表,克服了传统的机器翻译系统所面临的内存容量和并发度方面的限制.为了进一步提高并行解码速度,还研究实现了另外3项优化技术:1)将翻译模型表的同步规则和Trie树结构的语言模型表转化为基于内存数据库的"键-值"结构的Hash索引表的方法;2)对Cube-Pruning算法进行了修改使其适用于批量查询;3)采用并优化了批量查询方式减少语言和翻译模型查询时的网络传输开销.所提出的解码算法实现了基于大规模语料统计机器翻译时的快速解码,并具备优异的系统可扩展性.实验结果表明:与单机解码器相比,单句翻译速度可提高2.7倍,批量翻译作业的总体解码性能可提高至少11.7倍,实现了显著的计算性能提升.
关键词
统计机器翻译
层次短语
语言模型
翻译模型
并行化解码
分布内存
Keywords
statistical machine translation
hierarchical phrase
language model
translation model^parallel decoding~ distributed memory
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于无指导学习的微博评论分析方法
被引量:
3
8
作者
徐帅帅
戴新宇
黄书剑
陈家骏
机构
南京大学计算机软件新技术国家重点实验室
出处
《中文信息学报》
CSCD
北大核心
2017年第2期179-186,共8页
基金
国家自然科学基金(61170181)
江苏省自然科学基金(BK2011192)
国家社会科学基金(11AZD121)
文摘
该文以一种有效的方法寻找出有价值的微博评论,这对于读者更高效地阅读评论,为舆情分析、文本挖掘等任务提供支持,均具有重要的应用价值。针对微博及其评论文本短小、内容发散等特点,该文提出一种基于无指导学习的微博评论分析方法,该方法通过互联网搜索引擎扩展微博文本,基于相关性计算自动构造正负训练用例,生成特定的某条微博评论分类模型,通过该模型对评论的价值性进行评估。实验结果表明,该方法能够比较好地识别出评论的价值。
关键词
微博评论
价值性
无指导学习
评论过滤
Keywords
microblog comment
value
unsupervised
comment filter
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
TCS:一种用于跨语言文本标签预测的“老师-课程-学生”学习框架
被引量:
2
9
作者
浦通
黄书剑
张洋铭
周祥生
屠要峰
戴新宇
陈家骏
机构
计算机软件新技术国家重点实验室(南京大学)
鹏城实验室
中兴通讯股份有限公司
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2022年第9期1983-1996,共14页
基金
国家自然科学基金(U1836221,6217020152)
中兴通讯科研合作项目资助.
文摘
跨语言迁移旨在借助源语言的标注样本学习目标语言上的相应任务,是解决目标语言标记数据不足的重要途径.近期表现出色的方法多基于自训练,通过逐步自动标记无标注样本实现知识的迁移.然而自训练存在不准确监督的问题,即当前模型(称为老师模型)对目标语言无标注样本的错误预测会误导后续模型(称为学生模型)的学习.跨语言迁移中,源语言和目标语言样本之间存在的分布差异加重了这个问题.本文提出一种名为“老师-课程-学生”(TCS)的学习框架,综合使用三项技术解决自训练中的不准确监督的问题,包括软目标训练技术、渐进式样本选择技术、“从可信到可疑”的课程学习技术等.在跨语言文本分类和跨语言命名实体识别基准数据集上的实验表明,TCS取得的平均结果在自训练的基础上分别提高了2.51%和3.25%,并分别比现有最佳结果高1.51%和4.45%.消融实验表明,TCS使用的三项技术都能有效提升最终模型的性能,其中课程学习技术和“从可信到可疑”的课程顺序是取得出色结果的关键.相关代码和实验配置可以在https://github.com/ericput/TCS获取.
关键词
跨语言迁移
自训练
课程学习
文本分类
命名实体识别
Keywords
cross-lingual transfer
self-training
curriculum learning
text classification
named entity recognition
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种适用于机器翻译的汉语分词方法
被引量:
2
10
作者
奚宁
李博渊
黄书剑
陈家骏
机构
南京大学软件新技术国家重点实验室
南京大学计算机科学与技术系
出处
《中文信息学报》
CSCD
北大核心
2012年第3期54-58,78,共6页
基金
国家自然科学基金项目资助(61003112
61170181)
文摘
汉语分词是搭建汉语到其他语言的统计机器翻译系统的一项重要工作。从单语语料中训练得到的传统分词模型并不一定完全适合机器翻译[1]。该文提出了一种基于单语和双语知识的适应于统计机器翻译系统的分词方法。首先利用对齐可信度的概念从双语字对齐语料中抽取可信对齐集合,然后根据可信对齐集合对双语语料中的中文部分重新分词;接着将重新分词的结果和单语分词工具的分词结果相融合,得到新的分词结果,并将其作为训练语料,利用条件随机场模型训练出一个融合了单双语知识的分词工具。该文用该工具对机器翻译所需的训练集、开发集和测试集进行分词,并在基于短语的统计机器翻译系统上进行实验。实验结果表明,该文所提的方法提高了系统性能。
关键词
中文分词
统计机器翻译
对齐可信度
Keywords
Chinese word segmentation
statistical machine translation
word alignment reliability
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于有监督关联聚类的中文共指消解
被引量:
1
11
作者
刘未鹏
周俊生
黄书剑
陈家骏
机构
南京大学计算机软件新技术国家重点实验室
南京师范大学计算机科学系
出处
《计算机科学》
CSCD
北大核心
2009年第9期182-185,共4页
基金
国家自然科学基金项目(60673043)
国家社科基金(07BYY0)
江苏省高校自然科学基金(07KJB520057)资助
文摘
共指消解是文本信息处理中的一个重要问题。提出了一种有监督的关联聚类算法以实现对中文实体提及的共指消解。首先将共指消解过程看成图的关联聚类问题,从全局的角度实现对共指等价类的划分,而不是孤立地对每一对名词短语分别进行共指决策;然后给出了关联聚类的推导算法;最后设计了一种基于梯度下降的特征参数学习算法,使得训练出的特征参数能够较好拟合关联聚类的目标。在ACE中文语料上的实验结果显示,该算法优于传统的"分类-聚类"共指消解学习算法。
关键词
共指消解
关联聚类
损失函数
Keywords
Coreference resolution,Correlation clustering, Loss function
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
X832 [环境科学与工程—环境工程]
下载PDF
职称材料
题名
建设中国—哈萨克斯坦旅游资源信息库的需求、构想与意义
被引量:
3
12
作者
古丽孜拉.艾尼外
马劲松
黄书剑
王友文
机构
伊犁师范学院电子与信息工程学院
南京大学计算机软件新技术国家重点实验室
南京大学地理与海洋科学学院地理信息科学系
伊犁中亚生态研究所
出处
《新疆大学学报(哲学社会科学版)》
CSSCI
2015年第2期85-87,共3页
基金
新疆维吾尔自治区普通高校人文社会科学重点研究基地新疆哈萨克文化与民族现代化研究中心重点项目"创建中国-哈萨克草原文化旅游资源信息库的思路与对策研究"(XJED08113B02)
文摘
中、哈两国共建哈萨克草原文化旅游资源信息库,既是旅游市场发展的需求,也是经济贸易和科学技术的革新。信息库建设包含信息库的数据组成、信息库的软件架构、信息库功能特色三个方面,对全面深化中国与中亚地区战略伙伴的关系、提升两国旅游合作和旅游产业水平、促进各国经济文化发展具有重大现实意义和深远历史意义。
关键词
旅游资源信息化
哈萨克草原文化
丝绸之路经济带
Keywords
Tourism Resources Information
Kazakh Steppe Culture
Silk Road Economic Zone
分类号
F592.68 [经济管理—旅游管理]
下载PDF
职称材料
题名
“双减”背景下初中物理教学设计策略
13
作者
黄书剑
机构
铜仁一中初级中学
出处
《中文科技期刊数据库(引文版)教育科学》
2022年第8期22-25,共4页
文摘
在新课程改革的持续深化下,越来越多的人开始关注减轻学生的学业负担,在这样的情况下“双减”政策应运而生。在"减负增效"的新形势下,教师的课堂教学也被提出了新的要求。对于初中阶段的学生来说,物理无疑是一门难度较高的课程,其所涵盖的知识范围很广,知识的关系也十分复杂,这就对学生的综合素质提出了很高的要求。因此,在初中物理教学中如何进行有效的教学设计,提高教学质量,已成为当前广大物理教师面临的一个重要问题。基于此,本文将从在“双减”背景下进行教学设计的意义出发,对初中物理教学实践中存在的问题进行深入的分析,并据此提出在“双减”背景下进行初中物理教学设计的有效策略,以供广大教育工作者参考。
关键词
“双减”政策
初中物理
教学设计
策略研究
分类号
G633.7 [文化科学—教育学]
下载PDF
职称材料
题名
初中班主任管理工作中的难点及应对措施分析
14
作者
黄书剑
机构
铜仁一中初级中学
出处
《世纪之星—初中版》
2022年第5期79-81,共3页
文摘
新的课程改革,不仅要让初中生学好更多的文化知识,还要必须具备良好的综合素质,这就给中学的教学管理工作带来了新的挑战,为了进一步提升中学的管理与教学水平,对每一位同学进行良好的管理是十分必要的。中学生有更强烈的自我意识,班主任在管理的时候,要注意方法,避免交流不到位导致学生的情绪波动和叛逆。甚至对学习感到厌烦。要根据学生的具体情况,不断地探索改进管理的方法,让初中生更好地学习和生活。本文对初中学生的心理特点进行了分析,并就目前班主任工作中存在的问题,给出了相应的对策,作为参考。
关键词
初中班主任
管理工作
解决策略
分类号
G [文化科学]
下载PDF
职称材料
题名
基于句法模板采样的无监督复述生成方法
被引量:
1
15
作者
鲍宇
黄书剑
周浩
李磊
戴新宇
陈家骏
机构
南京大学软件新技术国家重点实验室
鹏城实验室
字节跳动人工智能实验室
出处
《中国科学:信息科学》
CSCD
北大核心
2022年第10期1808-1821,共14页
基金
国家自然科学基金(批准号:6217020152)
国家重点研发计划前沿科技创新专项(批准号:2019QY1806)资助。
文摘
文本复述可以辅助机器翻译、智能问答、文本分类等任务,是非常重要的自然语言处理任务.近年来,一些研究探索了基于结构变换的文本复述,从无监督学习的概率化表示空间中采样多个句法表示并生成多个复述.然而,通过后验分布采样句法表示生成的复述往往高度相似,缺乏多样性;另一方面,从先验分布采样句法表示又难以保证与给定的语义表示相匹配,导致生成的复述质量欠佳.本文提出了基于句法模板的文本复述模型,引入了句法模板隐变量建立语义空间和句法空间的联系,并进一步提出了两步采样策略:(1)使用先验分布采样句法模板,使得采样的句法表示更加多样化;(2)使用后验分布采样句法表示,以确保句法表示与语义表示的匹配.实验表明,两步采样策略有效地结合了先验采样和后验采样的优势,生成的文本复述可以在具备良好生成质量的同时保持着更好的多样性,取得了当前最佳的复述性能.
关键词
无监督复述
变分自编码器
句法结构
采样
Keywords
unsupervised paraphrasing
variational autoencoder
syntax structure
sampling
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
一种错误敏感的词对齐评价方法
黄书剑
奚宁
赵迎功
戴新宇
陈家骏
《中文信息学报》
CSCD
北大核心
2009
3
下载PDF
职称材料
2
融合人工智能专业知识的程序设计课程建设
黄书剑
吴震
陈家骏
申富饶
张莉
金莹
戴新宇
《计算机教育》
2022
2
下载PDF
职称材料
3
一种基于图划分的无监督汉语指代消解算法
周俊生
黄书剑
陈家骏
曲维光
《中文信息学报》
CSCD
北大核心
2007
19
下载PDF
职称材料
4
中英命名实体识别及对齐中的中文分词优化
尹存燕
黄书剑
戴新宇
陈家骏
《电子学报》
EI
CAS
CSCD
北大核心
2015
6
下载PDF
职称材料
5
面向新闻语料的中日命名实体翻译抽取
尹存燕
黄书剑
戴新宇
陈家骏
《小型微型计算机系统》
CSCD
北大核心
2015
3
下载PDF
职称材料
6
基于特征选择和点互信息剪枝的产品属性提取方法
高磊
戴新宇
黄书剑
陈家骏
《模式识别与人工智能》
EI
CSCD
北大核心
2015
3
下载PDF
职称材料
7
基于分布内存的层次短语机器翻译并行化算法
赵博
黄书剑
戴新宇
袁春风
黄
宜华
《计算机研究与发展》
EI
CSCD
北大核心
2014
3
下载PDF
职称材料
8
基于无指导学习的微博评论分析方法
徐帅帅
戴新宇
黄书剑
陈家骏
《中文信息学报》
CSCD
北大核心
2017
3
下载PDF
职称材料
9
TCS:一种用于跨语言文本标签预测的“老师-课程-学生”学习框架
浦通
黄书剑
张洋铭
周祥生
屠要峰
戴新宇
陈家骏
《计算机学报》
EI
CAS
CSCD
北大核心
2022
2
下载PDF
职称材料
10
一种适用于机器翻译的汉语分词方法
奚宁
李博渊
黄书剑
陈家骏
《中文信息学报》
CSCD
北大核心
2012
2
下载PDF
职称材料
11
基于有监督关联聚类的中文共指消解
刘未鹏
周俊生
黄书剑
陈家骏
《计算机科学》
CSCD
北大核心
2009
1
下载PDF
职称材料
12
建设中国—哈萨克斯坦旅游资源信息库的需求、构想与意义
古丽孜拉.艾尼外
马劲松
黄书剑
王友文
《新疆大学学报(哲学社会科学版)》
CSSCI
2015
3
下载PDF
职称材料
13
“双减”背景下初中物理教学设计策略
黄书剑
《中文科技期刊数据库(引文版)教育科学》
2022
0
下载PDF
职称材料
14
初中班主任管理工作中的难点及应对措施分析
黄书剑
《世纪之星—初中版》
2022
0
下载PDF
职称材料
15
基于句法模板采样的无监督复述生成方法
鲍宇
黄书剑
周浩
李磊
戴新宇
陈家骏
《中国科学:信息科学》
CSCD
北大核心
2022
1
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部