在监督分类学习中,标签噪声对模型有重要的影响;而现有的标签噪声过滤方法一般都是基于模型的预测结果对噪声样本进行检测并去除,当噪声样本较多时,去除噪声样本的同时将会影响原来样本的完整性,使样本信息缺失。针对这一问题,提出一种...在监督分类学习中,标签噪声对模型有重要的影响;而现有的标签噪声过滤方法一般都是基于模型的预测结果对噪声样本进行检测并去除,当噪声样本较多时,去除噪声样本的同时将会影响原来样本的完整性,使样本信息缺失。针对这一问题,提出一种基于主动学习的标签噪声清洗方法(active label noise cleaning based on classification with gaussian process,GP_ALNC),该方法将高斯过程模型和主动学习相结合,从已有标签样本集中筛选出不确定性最高的样本交给人工专家进行检验,通过这种迭代方法清洗掉大部分噪声数据的同时保持了原有数据的完整性;并针对二分类任务中的标签噪声问题,在MNIST数据集和UCI数据集上,与已有方法ALNR(active label noise removal)以及ICCN_SMO(iterative correction of class noise based on SMO)进行了实验对比,并取得了不错的表现。展开更多
基于成对约束的聚类分析是半监督学习的一个重要研究方向。成对约束的数量已成为影响该类算法有效性的重要因素。然而,在现实应用中,成对约束的获取需要耗费大量的成本。因此,文中提出了一种基于安全性的成对约束扩充方法(Extended Algo...基于成对约束的聚类分析是半监督学习的一个重要研究方向。成对约束的数量已成为影响该类算法有效性的重要因素。然而,在现实应用中,成对约束的获取需要耗费大量的成本。因此,文中提出了一种基于安全性的成对约束扩充方法(Extended Algorithm of Pairwise Constraints Based on Security,PCES)。该算法将传递闭包中最大局部连通距离作为安全值,并根据安全值来修改传递闭包之间的相似性,减少合并传递闭包带来的风险,最后利用图聚类方法合并相似的传递闭包达到扩充成对约束的目的。该算法不仅可以安全有效地扩充成对约束,同时可以将扩充后的成对约束应用到不同半监督聚类算法中。文中在8个基准数据集上进行了成对约束扩充算法的比较。实验结果表明,该算法可以安全有效地扩充成对约束。展开更多
情绪原因对抽取任务是将情绪子句与原因子句同时抽取。针对该任务,现有模型的编码层未考虑强化情感词语义表示,且仅使用单一图注意力网络,因此,该文提出了一个使用情感词典、图网络和多头注意力的情绪原因对抽取方法(Sen-BiGAT-Inter)...情绪原因对抽取任务是将情绪子句与原因子句同时抽取。针对该任务,现有模型的编码层未考虑强化情感词语义表示,且仅使用单一图注意力网络,因此,该文提出了一个使用情感词典、图网络和多头注意力的情绪原因对抽取方法(Sen-BiGAT-Inter)。该方法首先利用情感词典与子句中的情感词汇匹配,并将匹配的情感词汇与该子句进行合并,再使用预训练模型BERT(Bidirectional Encoder Representation from Transformers)对句子进行表示。其次,建立两个图注意力网络,分别学习情绪子句和原因子句表示,进而获取候选情绪原因对的表示。在此基础上,应用多头注意力交互机制学习候选情绪原因对的全局信息,同时结合相对位置信息得到候选情绪原因对的表示,用于实现情绪原因对的抽取。在中文情绪原因对抽取数据集上的实验结果显示,相比目前最优的结果,该文所提出的模型在F;值上提升约1.95。展开更多
文摘在监督分类学习中,标签噪声对模型有重要的影响;而现有的标签噪声过滤方法一般都是基于模型的预测结果对噪声样本进行检测并去除,当噪声样本较多时,去除噪声样本的同时将会影响原来样本的完整性,使样本信息缺失。针对这一问题,提出一种基于主动学习的标签噪声清洗方法(active label noise cleaning based on classification with gaussian process,GP_ALNC),该方法将高斯过程模型和主动学习相结合,从已有标签样本集中筛选出不确定性最高的样本交给人工专家进行检验,通过这种迭代方法清洗掉大部分噪声数据的同时保持了原有数据的完整性;并针对二分类任务中的标签噪声问题,在MNIST数据集和UCI数据集上,与已有方法ALNR(active label noise removal)以及ICCN_SMO(iterative correction of class noise based on SMO)进行了实验对比,并取得了不错的表现。
文摘基于成对约束的聚类分析是半监督学习的一个重要研究方向。成对约束的数量已成为影响该类算法有效性的重要因素。然而,在现实应用中,成对约束的获取需要耗费大量的成本。因此,文中提出了一种基于安全性的成对约束扩充方法(Extended Algorithm of Pairwise Constraints Based on Security,PCES)。该算法将传递闭包中最大局部连通距离作为安全值,并根据安全值来修改传递闭包之间的相似性,减少合并传递闭包带来的风险,最后利用图聚类方法合并相似的传递闭包达到扩充成对约束的目的。该算法不仅可以安全有效地扩充成对约束,同时可以将扩充后的成对约束应用到不同半监督聚类算法中。文中在8个基准数据集上进行了成对约束扩充算法的比较。实验结果表明,该算法可以安全有效地扩充成对约束。
文摘情绪原因对抽取任务是将情绪子句与原因子句同时抽取。针对该任务,现有模型的编码层未考虑强化情感词语义表示,且仅使用单一图注意力网络,因此,该文提出了一个使用情感词典、图网络和多头注意力的情绪原因对抽取方法(Sen-BiGAT-Inter)。该方法首先利用情感词典与子句中的情感词汇匹配,并将匹配的情感词汇与该子句进行合并,再使用预训练模型BERT(Bidirectional Encoder Representation from Transformers)对句子进行表示。其次,建立两个图注意力网络,分别学习情绪子句和原因子句表示,进而获取候选情绪原因对的表示。在此基础上,应用多头注意力交互机制学习候选情绪原因对的全局信息,同时结合相对位置信息得到候选情绪原因对的表示,用于实现情绪原因对的抽取。在中文情绪原因对抽取数据集上的实验结果显示,相比目前最优的结果,该文所提出的模型在F;值上提升约1.95。