基于近端策略优化与对抗学习的对话生成被引量：1

Proximal policy optimization and adversarial learning based dialog generation

下载PDF

导出

摘要对话生成是自然语言处理的重点研究方向,对抗生成网络GAN最近在对话生成领域得到了较好的应用。为了进一步改善对话生成的质量,并且解决GAN训练过程中判别模型返回奖励重复利用率低从而导致模型训练效率低的问题,提出一种基于近端策略优化PPO的对话生成算法PPO_GAN。该算法通过GAN模型生成对话,通过判别模型区分生成的对话与真实的对话。并采用近端策略优化的方法训练GAN,能处理GAN在对话生成时导致的反向传播不可微分的情况,在保证生成模型单调非减训练的同时,通过限制生成模型迭代的梯度使判别模型得到的奖励可以重复利用。实验结果表明,对比于极大似然估计与Adver-REGS等对话生成算法,PPO_GAN算法提高了对话训练的效率并且改善了对话生成的质量。 Dialogue generation is the key research direction of natural language processing.Generative adversarial nets(GAN)have recently been well applied in the field of dialog generation.In order to further improve the quality of dialogue generation and solve the low efficiency of model training caused by the discriminative model return reward low utilization rate in the GAN training process,this paper proposes a dialogue generation algorithm(PPO_GAN)based on proximal policy optimization(PPO).The algorithm,via GAN,generates a dialogue through the generation model,and distinguishes between generated dialogue and real dialogue through the discriminant model.The GAN is trained by proximal policy optimization method,which can deal with the situation that the back propagation of GAN cannot be differentiated when the dialogue is generated.While ensuring the monotonic non-reduction training of the generated model,the rewards obtained by the discriminant model can be reused by limiting the gra-dient of the generated model iteration.The experimental results show that,compared with dialog gene-ration algorithm such as the maxinum likelihood estimation and Adver-REGS,the PPO_GAN algorithm improves the efficiency of dialogue training and the quality of dialog generation.

作者蔡钺游进国丁家满 CAI Yue;YOU Jin-guo;DING Jia-man(Faculty of Information Engineering and Automation,Kunming University of Science And Technology,Kunming 650500;Computer Technology Application Key Laboratory of Yunnan Province,Kunming 650500,China)

机构地区昆明理工大学信息工程与自动化学院云南省计算机技术应用重点实验室

出处《计算机工程与科学》 CSCD 北大核心 2020年第9期1680-1689,共10页 Computer Engineering & Science

基金国家自然科学基金(61462050,61562054) 云南省自然科学基金(KKSY201603016)

关键词对话生成近端策略优化强化学习对抗生成网络序列到序列模型 dialog generation proximal policy optimization(PPO) reinforcement learning generative adversarial nets(GAN) sequence-to-sequence model

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1郝长盈,兰艳艳,张海楠,郭嘉丰,徐君,庞亮,程学旗.基于拓展关键词信息的对话生成模型[J].山东大学学报（理学版）,2019,54(7):68-76. 被引量：1
2陈晨,朱晴晴,严睿,柳军飞.基于深度学习的开放领域对话系统研究综述[J].计算机学报,2019,42(7):1439-1466. 被引量：48

二级参考文献1

1张伟男,张杨子,刘挺.对话系统评价方法综述[J].中国科学：信息科学,2017,47(8):953-966. 被引量：21

共引文献47

1段宣翡,刘伟东,高东辉,黄艳华,刘硕,焦若丹.一种基于典型范式的智能客服评测方法[J].电子测试,2023(1):53-59.
2秦汉忠,于重重,姜伟杰,赵霞.基于多头注意力和BiLSTM改进DAM模型的中文问答匹配方法[J].中文信息学报,2021,35(11):118-126. 被引量：3
3陈鑫,周强.开放型对话技术研究综述[J].中文信息学报,2021,35(11):1-12. 被引量：3
4黄毅,冯俊兰,胡珉,吴晓婷,杜晓宇.智能对话系统架构及算法[J].北京邮电大学学报,2019,42(6):10-19. 被引量：8
5姚佳.人工智能的训练数据制度——以“智能涌现”为观察视角[J].贵州社会科学,2024(2):51-57. 被引量：3
6黄毅,冯俊兰,胡珉,吴晓婷,杜晓宇.5G背景下的智能对话系统架构及应用[J].电信工程技术与标准化,2020,33(1):43-50. 被引量：2
7郁林音.译者视角的当代机器翻译发展综述[J].现代交际,2020,0(4):71-73. 被引量：2
8卢东来,郑战光.基于深度学习的多机械手轨迹规划系统设计[J].计算机测量与控制,2020,28(11):247-250. 被引量：3
9陈立,朱丙丽.基于多尺度与改进注意力机制的序列到序列模型[J].计算机应用与软件,2020,37(12):140-144.
10王艳秋,管浩言,张彤.聊天机器人的分类标准和评估标准综述[J].软件工程,2021,24(2):2-8. 被引量：6

同被引文献3

1陈希亮,曹雷,何明,李晨溪,徐志雄.深度逆向强化学习研究综述[J].计算机工程与应用,2018,54(5):24-35. 被引量：19
2陈佳盼,郑敏华.基于深度强化学习的机器人操作行为研究综述[J].机器人,2022,44(2):236-256. 被引量：27
3陆彦辉,柳寒,李航,朱光旭.基于多鉴别器生成对抗网络的时间序列生成模型[J].通信学报,2022,43(10):167-176. 被引量：2

引证文献1

1段成龙,袁杰,常乾坤,张宁宁.基于D2GA的逆强化学习算法[J].计算机工程与科学,2024,46(11):2053-2062.

1彭其渊,胡雨欣,鲁工圆.基于预警文本信息的调度命令智能生成模型[J].同济大学学报（自然科学版）,2020,48(9):1328-1335. 被引量：16
2王复乾.国有企业数字化档案建设策略[J].黑龙江档案,2020(4):27-27. 被引量：2
3王岩韬,陈冠铭.基于时间序列模型的航班运行风险短期预测[J].中国安全科学学报,2020,30(5):33-38. 被引量：4
4马丽琴.趣味对话在道德与法治课堂教学中的运用[J].幸福生活指南,2019,0(51):0066-0066.
5杨贵金.探究学生学习薄弱环节的教学方法[J].新作文（中小学教学研究）,2020,3(5):37-37.
6韩军先.语法教学与听说教学的同行优化策略[J].甘肃教育,2020(15):68-68.
7周引航.高职学生批判性思维培养模式探究[J].科技创业月刊,2020,33(8):108-111.
8李雯,文勇军,唐立军.多特征融合的教育资源标签生成算法[J].计算机与现代化,2020(9):19-24. 被引量：1
9段星德.偏态林业数据的回归分析[J].低碳世界,2020,10(9):213-214.
10贺维英.如何突破中职学生物流单证技能训练的瓶颈[J].职业,2020(21):97-98.

计算机工程与科学

2020年第9期

浏览历史

内容加载中请稍等...

基于近端策略优化与对抗学习的对话生成被引量：1

参考文献2

二级参考文献1

共引文献47

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于近端策略优化与对抗学习的对话生成 被引量：1

参考文献2

二级参考文献1

共引文献47

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于近端策略优化与对抗学习的对话生成被引量：1