摘要
针对构建朝鲜语语料库的人工标注工作过于费时费力,少数民族语言难以与各家资源融合的这一问题,该文从表征学习的角度,意图构建有效的朝鲜语句子结构表示,用来提升后续自然语言处理任务的效果。我们将深度强化学习与自注意力机制相结合,提出了一种分层结构的自注意力模型(Hierarchically Structured Korean, HS-K)。模型利用强化学习中的Actor-Critic思想,将文本分类效果作为强化学习的标签反馈信息,把文本的结构划分任务转化为序列决策任务。实验结果表明,模型可以识别出接近人工标注的朝鲜语重要句子结构,对朝鲜语信息化与智能化有着良好的辅助作用。
A Hierarchically Structured Korean(HS-K) is proposed in this article to construct an effective Korean representation by combining deep reinforcement learning with Self-Attention mechanism. Applying the Actor-Critic approach in reinforcement learning, the model takes the text classification effect as the label feedback of reinforcement learning, and treats the prasing task as the sequence decision task. The experimental results show that the model can identify the key syntactic structure of Korean, comparable to manual tagging.
作者
杨飞扬
崔荣一
赵亚慧
金晶
李飞雨
YANG Feiyang;CUI Rongyi;ZHAO Yahui;JIN Jing;LI Feiyu(Intelligent Information Processing Lab,Department of Computer Science and Technology,Yanbian University,Yanji,Jilin 133002,China)
出处
《中文信息学报》
CSCD
北大核心
2021年第9期66-74,共9页
Journal of Chinese Information Processing
基金
国家语委“十三五”科研规划项目(YB135-76)
延边大学外国语言文学世界一流学科建设科研项目(18YLPY13)。
关键词
朝鲜语自然语言处理
深度强化学习
自注意力机制
句子结构化
Korean natural language processing
deep reinforcement learning
Self-Attention mechanism
sentence structuring