事件要素识别是事件抽取任务的重点和难点,其研究具有广阔的应用前景和巨大的现实意义。针对当前事件要素识别任务中存在的类别不平衡、无法学习标注序列的约束条件等问题,该文提出了一种基于CSOT-BiLSTM-CRF的中文事件要素识别模型。...事件要素识别是事件抽取任务的重点和难点,其研究具有广阔的应用前景和巨大的现实意义。针对当前事件要素识别任务中存在的类别不平衡、无法学习标注序列的约束条件等问题,该文提出了一种基于CSOT-BiLSTM-CRF的中文事件要素识别模型。模型将双向长短期记忆网络(Bidirectional Long Short-term Memory,BiLSTM)与条件随机场(Conditional Random Field,CRF)结合,首先,在预处理阶段,提出一种CSOT(Combine Synonyms Over-sampling Technique)算法以解决类别不平衡问题;然后,利用BiLSTM神经网络从前向和后向提取文本的上下文特征;最后,通过CRF自动学习标注序列中隐藏的约束条件,并解码获取最终标注序列。实验结果表明:相较于现有的事件要素识别模型,CSOT-BiLSTM-CRF模型能有效提高要素识别的准确率。展开更多
事件信息抽取是信息抽取任务中的一种,旨在识别并提出一个事件的触发词和元素。由于容易受到数据稀疏的影响,事件要素的抽取是中文事件抽取任务中的一个难点,研究的重点在于特征工程的构建。中文语法相较英文要复杂许多,所以捕获英文文...事件信息抽取是信息抽取任务中的一种,旨在识别并提出一个事件的触发词和元素。由于容易受到数据稀疏的影响,事件要素的抽取是中文事件抽取任务中的一个难点,研究的重点在于特征工程的构建。中文语法相较英文要复杂许多,所以捕获英文文本特征的方法在中文任务中效果并不明显,而目前常用的神经网络模型仅考虑了上下文信息,不能兼顾词法和句法特征。因此针对中文的词法和句法特点,构建一种结合分组长短期记忆网络(grouped long-short term memory,GLSTM)和Attention的中文事件要素抽取方法 AGCEE(attention and GLSTM based Chinese event extraction),通过Attention机制融合词特征和句子特征,采用GLSTM捕获句子的上下文信息,并通过条件随机场(conditional random fields,CRF)进行事件信息抽取,最后在公开数据集上进行实验以验证模型的有效性。展开更多
文摘事件要素识别是事件抽取任务的重点和难点,其研究具有广阔的应用前景和巨大的现实意义。针对当前事件要素识别任务中存在的类别不平衡、无法学习标注序列的约束条件等问题,该文提出了一种基于CSOT-BiLSTM-CRF的中文事件要素识别模型。模型将双向长短期记忆网络(Bidirectional Long Short-term Memory,BiLSTM)与条件随机场(Conditional Random Field,CRF)结合,首先,在预处理阶段,提出一种CSOT(Combine Synonyms Over-sampling Technique)算法以解决类别不平衡问题;然后,利用BiLSTM神经网络从前向和后向提取文本的上下文特征;最后,通过CRF自动学习标注序列中隐藏的约束条件,并解码获取最终标注序列。实验结果表明:相较于现有的事件要素识别模型,CSOT-BiLSTM-CRF模型能有效提高要素识别的准确率。
文摘事件信息抽取是信息抽取任务中的一种,旨在识别并提出一个事件的触发词和元素。由于容易受到数据稀疏的影响,事件要素的抽取是中文事件抽取任务中的一个难点,研究的重点在于特征工程的构建。中文语法相较英文要复杂许多,所以捕获英文文本特征的方法在中文任务中效果并不明显,而目前常用的神经网络模型仅考虑了上下文信息,不能兼顾词法和句法特征。因此针对中文的词法和句法特点,构建一种结合分组长短期记忆网络(grouped long-short term memory,GLSTM)和Attention的中文事件要素抽取方法 AGCEE(attention and GLSTM based Chinese event extraction),通过Attention机制融合词特征和句子特征,采用GLSTM捕获句子的上下文信息,并通过条件随机场(conditional random fields,CRF)进行事件信息抽取,最后在公开数据集上进行实验以验证模型的有效性。