期刊文献+

基于DQN的开放域多轮对话策略学习 被引量:5

DQN-based Policy Learning for Open Domain Multi-turn Dialogues
下载PDF
导出
摘要 有效地进行多轮对话是开放域人机对话系统的主要目标之一。目前的神经网络对话生成模型在开放域多轮对话过程中存在着容易产生万能回复、很快陷入死循环的问题;而已有的多轮对话研究工作存在着没有考虑未来对话走向的问题。借鉴强化学习方法考虑全局的视角,该文利用深度强化学习算法DQN(deep Q-network),提出了使用深度价值网络对每一轮的候选句子进行评估,并选择未来收益最大的而非生成概率最大的句子作为回复的多轮对话策略学习方法。实验结果表明,该文提出的方法将多轮对话的平均对话轮数提高了两轮,同时在主观对比评价指标上获胜比例高出了45%。 The open domain dialogue system is challenged by effective multi-turn dialogues.Current neural dialogue generation models tend to fall into conversation black holes by generating safe responses,without considering the future information.Inspired by the global view of reinforcement learning methods,we present an approach to learn multi-turn dialogue policy with DQN(deep Q-network).We introduce a deep neural network to evaluate each candidate sentence and choose the sentence with the maximum future rewards,instead of the highest generation probability,as a response.The results show that our method improves the average dialogue turns by 2 in the automatic evaluation and outperforms the baseline model by 45%in the human evaluation.
作者 宋皓宇 张伟男 刘挺 SONG Haoyu;ZHANG Weinan;LIU Ting(Research Center of Social Computing and Information Retrieval,Harbin Institute of Technology,Harbin,Heilongjiang 150001,China)
出处 《中文信息学报》 CSCD 北大核心 2018年第7期99-108,136,共11页 Journal of Chinese Information Processing
基金 国家重点基础研究发展计划(2014CB340503) 国家自然科学基金(61502120 61472105) 哈尔滨学院青年科研基金(HUYF2013-002) 黑龙江省哲学社会科学研究规划项目(16TQD03)
关键词 多轮对话 对话策略 强化学习 multi turn dialogue dialogue policy reinforcement learning
  • 相关文献

同被引文献17

引证文献5

二级引证文献11

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部