期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于局部注意力机制的中文短文本实体链接 被引量:6
1
作者 张晟旗 王元龙 +3 位作者 李茹 王笑月 王晓晖 闫智超 《计算机工程》 CAS CSCD 北大核心 2021年第11期77-83,92,共8页
实体链接是加强语义理解和连接知识信息与文本的有效方法,但目前多数模型对上下文语境的精准理解受限于文本长度,面向短文本的实体链接任务存在实体边界识别错误和实体语义理解错误的问题。针对中文短文本的实体链接任务,构建基于局部... 实体链接是加强语义理解和连接知识信息与文本的有效方法,但目前多数模型对上下文语境的精准理解受限于文本长度,面向短文本的实体链接任务存在实体边界识别错误和实体语义理解错误的问题。针对中文短文本的实体链接任务,构建基于局部注意力机制的实体链接模型。在实体消歧的过程中,通过对待消歧文本与实体的知识描述文本进行拼接,将短文本转换为长文本,同时引入局部注意力机制,缓解长距离依赖问题并强化局部的上下文信息。实验结果表明,相比于传统加入BIO标注方法的模型,该模型在CCKS2019和CCKS2020数据集上的F1值分别提升了4.41%和1.52%。 展开更多
关键词 实体链接 上下文 语义理解 中文短文本 局部注意力机制
下载PDF
一种基于条件熵的增量式属性约简算法 被引量:10
2
作者 刘薇 梁吉业 +1 位作者 魏巍 钱宇华 《计算机科学》 CSCD 北大核心 2011年第1期229-231,239,共4页
粗糙集是一种处理不确定、不完全知识的数学工具,属性约简是粗糙集理论的重要研究内容之一。提出了一种基于条件熵的快速增量约简方法,主要分析了在对象动态增加情况下信息熵的变化机制。该算法通过判断更新前决策表的约简属性对新增对... 粗糙集是一种处理不确定、不完全知识的数学工具,属性约简是粗糙集理论的重要研究内容之一。提出了一种基于条件熵的快速增量约简方法,主要分析了在对象动态增加情况下信息熵的变化机制。该算法通过判断更新前决策表的约简属性对新增对象的区分情况来计算新的条件熵值,就可以快速求解出更新后的决策表的属性约简结果。实验结果也进一步验证了该方法的有效性。 展开更多
关键词 条件熵 增量式 属性约简 决策表
下载PDF
多粒度决策粗糙集中的粒度约简方法 被引量:8
3
作者 桑妍丽 钱宇华 《计算机科学》 CSCD 北大核心 2017年第5期199-205,共7页
多粒度决策粗糙集模型是一种泛化的多粒度粗糙集模型,该模型结合决策粗糙集数据分析理论和多粒度思想,实现了在多个粒空间进行决策粗糙集理论的建模。在此基础上,利用贝叶斯决策理论具体分析了在多粒度粗糙集模型中乐观和悲观的融合策... 多粒度决策粗糙集模型是一种泛化的多粒度粗糙集模型,该模型结合决策粗糙集数据分析理论和多粒度思想,实现了在多个粒空间进行决策粗糙集理论的建模。在此基础上,利用贝叶斯决策理论具体分析了在多粒度粗糙集模型中乐观和悲观的融合策略下多个粒空间中的概率融合关系,推导出基于最大条件概率和最小条件概率的粗糙集近似表示,进而构建了乐观多粒度决策粗糙集模型和悲观多粒度决策粗糙集模型。在该模型中引入近似分布约简的概念,分析了多个粒空间中的粒度选择问题。基于多粒度近似分布质量定义了多粒度决策粗糙集的粒度重要度,并且基于此给出了悲观和乐观融合策略α-下近似分布约简的粒度约简算法。通过实例验证了该算法的有效性。 展开更多
关键词 多粒度决策粗糙集 贝叶斯决策理论 α-下近似分布约简 粒度约简 近似分布质量
下载PDF
基于句子级LSTM编码的文本标题生成 被引量:4
4
作者 钱揖丽 马雪雯 《计算机应用与软件》 北大核心 2021年第5期190-195,共6页
在标题自动生成任务中,BiLSTM表示文本是随着时间循环递归对每个单词进行编码,需要逐字读取单词序列,语义信息会随着状态的传递不断减弱。对此,构建一个句子级LSTM的编码器,并行对文本中每个单词编码表示。循环步骤同时对单词之间的局... 在标题自动生成任务中,BiLSTM表示文本是随着时间循环递归对每个单词进行编码,需要逐字读取单词序列,语义信息会随着状态的传递不断减弱。对此,构建一个句子级LSTM的编码器,并行对文本中每个单词编码表示。循环步骤同时对单词之间的局部状态和整体文本的全局状态进行信息交换,编码得到语义表示后使用混合指针网络的解码器生成标题。在相关数据集上进行实验,结果验证了该模型在标题生成任务上的有效性。 展开更多
关键词 标题生成 句子级 LSTM 序列到序列模型
下载PDF
基于E-CNN的情绪原因识别方法 被引量:8
5
作者 慕永利 李旸 王素格 《中文信息学报》 CSCD 北大核心 2018年第2期120-128,共9页
文本情绪原因识别作为一个新型的研究方向在文本情绪分析领域占据重要地位。该文结合卷积神经网络,提出了一种基于集成卷积神经网络的情绪原因识别方法。该方法通过词向量、卷积、池化等操作充分融合了句子的语义信息,利用多个CNN集成... 文本情绪原因识别作为一个新型的研究方向在文本情绪分析领域占据重要地位。该文结合卷积神经网络,提出了一种基于集成卷积神经网络的情绪原因识别方法。该方法通过词向量、卷积、池化等操作充分融合了句子的语义信息,利用多个CNN集成降低数据不平衡性对情绪原因识别的影响,克服了传统情绪原因识别方法的繁琐规则制定、特征抽取、特征空间降维等过程。实验结果表明,该文的方法在情绪原因识别方面取得了较好的效果,对于情绪归因的方法研究具有一定的指导作用。 展开更多
关键词 情绪原因识别 E-CNN 卷积 池化
下载PDF
Senti-PG-MMR:多文档游记情感摘要生成方法 被引量:3
6
作者 梁梦英 李德玉 +3 位作者 王素格 廖健 郑建兴 陈千 《中文信息学报》 CSCD 北大核心 2022年第3期128-135,共8页
由于大量的游客在社交媒体上记录自己的心情,人们在享受便捷获取网络上大量旅游信息的同时,也淹没在混乱的游记信息海洋里。为了从游记中获取游客关心的景点信息和游客对景点表达的情感信息,该文提出了一个多文档游记的情感摘要生成方法... 由于大量的游客在社交媒体上记录自己的心情,人们在享受便捷获取网络上大量旅游信息的同时,也淹没在混乱的游记信息海洋里。为了从游记中获取游客关心的景点信息和游客对景点表达的情感信息,该文提出了一个多文档游记的情感摘要生成方法,该方法结合指针生成网络和最大边界相关算法,构建了一个端到端的神经网络摘要生成模型。该模型在进行文本摘要生成时,对于情感信息给予重视,使得生成的摘要包含一定的情感信息。通过在自建数据集上进行训练和测试,实验结果验证了该模型的有效性。 展开更多
关键词 旅游 文本摘要生成 情感信息
下载PDF
基于主动学习的标签噪声清洗方法 被引量:4
7
作者 孟晓超 姜高霞 王文剑 《陕西师范大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第2期9-16,共8页
在监督分类学习中,标签噪声对模型有重要的影响;而现有的标签噪声过滤方法一般都是基于模型的预测结果对噪声样本进行检测并去除,当噪声样本较多时,去除噪声样本的同时将会影响原来样本的完整性,使样本信息缺失。针对这一问题,提出一种... 在监督分类学习中,标签噪声对模型有重要的影响;而现有的标签噪声过滤方法一般都是基于模型的预测结果对噪声样本进行检测并去除,当噪声样本较多时,去除噪声样本的同时将会影响原来样本的完整性,使样本信息缺失。针对这一问题,提出一种基于主动学习的标签噪声清洗方法(active label noise cleaning based on classification with gaussian process,GP_ALNC),该方法将高斯过程模型和主动学习相结合,从已有标签样本集中筛选出不确定性最高的样本交给人工专家进行检验,通过这种迭代方法清洗掉大部分噪声数据的同时保持了原有数据的完整性;并针对二分类任务中的标签噪声问题,在MNIST数据集和UCI数据集上,与已有方法ALNR(active label noise removal)以及ICCN_SMO(iterative correction of class noise based on SMO)进行了实验对比,并取得了不错的表现。 展开更多
关键词 标签噪声 噪声清洗 高斯过程 主动学习
下载PDF
一种基于主动学习的框架元素标注 被引量:2
8
作者 屠寒非 李茹 +1 位作者 王智强 周铁峰 《中文信息学报》 CSCD 北大核心 2016年第4期44-55,共12页
框架元素标注是中文FrameNet众多任务中亟待解决的一个问题,目前仍主要采用有监督的机器学习方法,即依赖大规模人工标注的例句作为训练语料。但例句标注又是一件费时费力的工作,所以为了降低人工标注的代价,该文将主动学习应用到框架元... 框架元素标注是中文FrameNet众多任务中亟待解决的一个问题,目前仍主要采用有监督的机器学习方法,即依赖大规模人工标注的例句作为训练语料。但例句标注又是一件费时费力的工作,所以为了降低人工标注的代价,该文将主动学习应用到框架元素标注中,优先选择训练模型预测最不准的例句交由人工标注。该文以条件随机场为标注模型,并提出了进行样本选择时所依赖的准则。实验表明,一方面,与随机选择样本进行标注相比,当使用相同数量的例句训练模型时,主动学习使框架元素标注的性能最高提升4.83%;另一方面,主动学习使框架元素标注达到同等F值时只需更少的标注例句,人工标注量最高可减少30%。 展开更多
关键词 主动学习 框架元素标注 条件随机场 不确定性度量
下载PDF
汉语语篇零形式识别与填充方法研究 被引量:1
9
作者 张月平 李茹 +3 位作者 王元龙 柴清华 武宇娟 关勇 《计算机工程》 CAS CSCD 北大核心 2020年第3期79-86,共8页
零形式识别与填充是在语篇上下文中为句中缺失的语义角色寻找填充项,然而采用分类思想预测集合中正确填充项的方法制约了零形式填充的性能。针对该问题,结合启发式规则与决策树算法识别出需要填充内容的零形式,将上下文中填充过框架元... 零形式识别与填充是在语篇上下文中为句中缺失的语义角色寻找填充项,然而采用分类思想预测集合中正确填充项的方法制约了零形式填充的性能。针对该问题,结合启发式规则与决策树算法识别出需要填充内容的零形式,将上下文中填充过框架元素的内容构成候选语集合,并通过改进的SMOTE算法对少数类样本数据进行扩展,解决了候选语集合数据的非平衡问题。在此基础上,借助汉语框架知识库提取语义相似性特征,利用框架元素间的映射关系提升零形式填充效果。实验结果表明,该方法在数据层面对填充样本的非平衡性进行处理,可使最终的F值提高约12%。 展开更多
关键词 汉语框架网 零形式识别与填充 非平衡数据 语义特征 决策树算法
下载PDF
基于安全性的成对约束扩充算法 被引量:2
10
作者 杨帆 王俊斌 白亮 《计算机科学》 CSCD 北大核心 2020年第9期324-329,共6页
基于成对约束的聚类分析是半监督学习的一个重要研究方向。成对约束的数量已成为影响该类算法有效性的重要因素。然而,在现实应用中,成对约束的获取需要耗费大量的成本。因此,文中提出了一种基于安全性的成对约束扩充方法(Extended Algo... 基于成对约束的聚类分析是半监督学习的一个重要研究方向。成对约束的数量已成为影响该类算法有效性的重要因素。然而,在现实应用中,成对约束的获取需要耗费大量的成本。因此,文中提出了一种基于安全性的成对约束扩充方法(Extended Algorithm of Pairwise Constraints Based on Security,PCES)。该算法将传递闭包中最大局部连通距离作为安全值,并根据安全值来修改传递闭包之间的相似性,减少合并传递闭包带来的风险,最后利用图聚类方法合并相似的传递闭包达到扩充成对约束的目的。该算法不仅可以安全有效地扩充成对约束,同时可以将扩充后的成对约束应用到不同半监督聚类算法中。文中在8个基准数据集上进行了成对约束扩充算法的比较。实验结果表明,该算法可以安全有效地扩充成对约束。 展开更多
关键词 成对约束 半监督聚类 监督信息的有效性 监督信息的扩展
下载PDF
一种改进的PrefixSpan算法及其在Web用户行为模式挖掘中的应用 被引量:6
11
作者 姬浩博 王俊红 《计算机科学》 CSCD 北大核心 2016年第1期25-29,共5页
序列模式挖掘是从序列数据库中挖掘相对时间或其他模式出现频率高的模式。针对PrefixSpan算法构造投影数据库时开销巨大、扫描效率不高的问题,通过以序列扩展代替项集进行扩展、放弃挖掘序列数小于阈值min_support的投影数据库以及直接... 序列模式挖掘是从序列数据库中挖掘相对时间或其他模式出现频率高的模式。针对PrefixSpan算法构造投影数据库时开销巨大、扫描效率不高的问题,通过以序列扩展代替项集进行扩展、放弃挖掘序列数小于阈值min_support的投影数据库以及直接递归局部频繁项等方式进行改进,并将改进方法应用于Web用户行为模式挖掘中,对日志记录中的规律进行分析和研究。实验分析表明,相比PrefixSpan算法,该改进算法在算法效率方面有一定的提高。 展开更多
关键词 序列模式挖掘 WEB日志挖掘 PREFIXSPAN算法
下载PDF
基于深度神经网络和门控循环单元的动态图表示学习方法 被引量:4
12
作者 李慧博 赵云霄 白亮 《计算机应用》 CSCD 北大核心 2021年第12期3432-3437,共6页
学习图中节点的潜在向量表示是一项重要且普遍存在的任务,旨在捕捉图中节点的各种属性。大量工作证明静态图表示已经能够学习到节点的部分信息,然而,真实世界的图是随着时间的推移而演变的。为了解决多数动态网络算法不能有效保留节点... 学习图中节点的潜在向量表示是一项重要且普遍存在的任务,旨在捕捉图中节点的各种属性。大量工作证明静态图表示已经能够学习到节点的部分信息,然而,真实世界的图是随着时间的推移而演变的。为了解决多数动态网络算法不能有效保留节点邻域结构和时态信息的问题,提出了基于深度神经网络(DNN)和门控循环单元(GRU)的动态网络表示学习方法DynAEGRU。该方法以自编码器作为框架,其中的编码器首先用DNN聚集邻域信息以得到低维特征向量,然后使用GRU网络提取节点时态信息,最后用解码器重构邻接矩阵并将其与真实图对比来构建损失。通过与几种静态图和动态图表示学习算法在3个数据集上进行实验分析,结果表明DynAEGRU具有较好的性能增益。 展开更多
关键词 动态网络表示学习 深度神经网络 自编码器 门控循环单元 链路预测
下载PDF
关键节点选择的快速图聚类算法 被引量:3
13
作者 尤坊州 白亮 《计算机科学与探索》 CSCD 北大核心 2021年第10期1930-1937,共8页
在众多聚类算法中,谱聚类作为一种代表性的图聚类算法,由于其对复杂数据分布的适应性强、聚类效果好等优点而受到人们的广泛关注。然而,由于其高计算时间复杂度难以应用于处理大规模数据。为提高谱聚类算法在大规模数据集上的可用性,提... 在众多聚类算法中,谱聚类作为一种代表性的图聚类算法,由于其对复杂数据分布的适应性强、聚类效果好等优点而受到人们的广泛关注。然而,由于其高计算时间复杂度难以应用于处理大规模数据。为提高谱聚类算法在大规模数据集上的可用性,提出关键节点选择的快速图聚类算法。该算法包含三个重要步骤:第一,提出一种充分考虑抱团性和分离性的快速节点重要性评价方法;第二,选择关键节点代替原数据集构建二分图,通过奇异值分解获得数据的近似特征向量;第三,集成多次的近似特征向量,提高近似谱聚类结果的鲁棒性。该算法将时间复杂度由谱聚类原有的O(n3)降低到O(t(n+2n2)),增强了其在大规模数据集上的可用性。通过该算法与其他七个具有代表性的谱聚类算法在五个Benchmark数据集上进行的实验分析,比较结果展示了该算法相比其他算法能够更加高效地识别数据中的复杂类结构。 展开更多
关键词 聚类分析 图聚类 谱聚类 聚类集成 关键节点选择
下载PDF
一种基于符号关系图的快速符号数据聚类算法 被引量:1
14
作者 张岩金 白亮 《计算机科学》 CSCD 北大核心 2021年第4期111-116,共6页
由于在实际应用中有大量的符号数据生成,符号数据聚类成为了聚类分析的一个重要研究领域。目前,已有许多符号数据聚类算法被提出,但将它们应用于大数据环境时,仍然存在计算成本高、运行速度慢等问题。文中提出了一种基于符号关系图的快... 由于在实际应用中有大量的符号数据生成,符号数据聚类成为了聚类分析的一个重要研究领域。目前,已有许多符号数据聚类算法被提出,但将它们应用于大数据环境时,仍然存在计算成本高、运行速度慢等问题。文中提出了一种基于符号关系图的快速符号数据聚类算法。该算法使用符号关系图替代原始数据,缩小数据集的规模,有效地解决了这一问题。大量的实验分析显示新算法相比其他算法是有效的。 展开更多
关键词 符号数据 相似性度量 关系图 数据挖掘 聚类
下载PDF
基于三元多臂赌博机的树结构最优动作识别
15
作者 刘郭庆 王婕婷 +1 位作者 胡治国 钱宇华 《计算机应用》 CSCD 北大核心 2019年第8期2252-2260,共9页
蒙特卡罗树搜索(MCTS)在棋类博弈问题中展现出卓越的性能,但目前多数研究仅考虑胜负两种反馈从而假设博弈结果服从伯努利分布,然而这种设定忽略了常出现的平局结果,导致不能准确地评估盘面状态甚至错失最优动作。针对这个问题,首先构建... 蒙特卡罗树搜索(MCTS)在棋类博弈问题中展现出卓越的性能,但目前多数研究仅考虑胜负两种反馈从而假设博弈结果服从伯努利分布,然而这种设定忽略了常出现的平局结果,导致不能准确地评估盘面状态甚至错失最优动作。针对这个问题,首先构建了基于三元分布的多臂赌博机(TMAB)模型并提出了最优臂确认算法TBBA;然后,将TBBA算法应用到三元极大极小采样树(TMST)中,提出了简单迭代TBBA算法的TBBA_tree算法和通过将树结构转化成TMAB的三元极大极小采样树TMST最优动作识别(TTBA)算法。在实验部分,建立了两个精度不同的摇臂空间并在其基础上构造了多个具有对比性的TMAB和TMST。实验结果表明,相比均匀采样算法,TBBA算法准确率保持稳步上升且部分能达到100%,TBBA算法准确率基本保持在80%以上且具有良好的泛化性和稳定性,不会出现异常值和波动区间。 展开更多
关键词 蒙特卡罗树搜索 三元多臂赌博机 最优臂确认 序列决策 纯探索
下载PDF
Sen-BiGAT-Inter:情绪原因对抽取方法
16
作者 冯浩甲 李旸 +2 位作者 王素格 符玉杰 慕永利 《中文信息学报》 CSCD 北大核心 2022年第5期153-162,共10页
情绪原因对抽取任务是将情绪子句与原因子句同时抽取。针对该任务,现有模型的编码层未考虑强化情感词语义表示,且仅使用单一图注意力网络,因此,该文提出了一个使用情感词典、图网络和多头注意力的情绪原因对抽取方法(Sen-BiGAT-Inter)... 情绪原因对抽取任务是将情绪子句与原因子句同时抽取。针对该任务,现有模型的编码层未考虑强化情感词语义表示,且仅使用单一图注意力网络,因此,该文提出了一个使用情感词典、图网络和多头注意力的情绪原因对抽取方法(Sen-BiGAT-Inter)。该方法首先利用情感词典与子句中的情感词汇匹配,并将匹配的情感词汇与该子句进行合并,再使用预训练模型BERT(Bidirectional Encoder Representation from Transformers)对句子进行表示。其次,建立两个图注意力网络,分别学习情绪子句和原因子句表示,进而获取候选情绪原因对的表示。在此基础上,应用多头注意力交互机制学习候选情绪原因对的全局信息,同时结合相对位置信息得到候选情绪原因对的表示,用于实现情绪原因对的抽取。在中文情绪原因对抽取数据集上的实验结果显示,相比目前最优的结果,该文所提出的模型在F;值上提升约1.95。 展开更多
关键词 情绪原因对抽取 情感词典 图注意力网络
下载PDF
基于句法依存和条件随机场的韵律短语识别
17
作者 钱揖丽 张二萌 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第7期530-536,共7页
正确划分句子的韵律结构对于提高合成语音的质量具有重要的意义。特征的选择是韵律结构预测的关键因素之一。在中文信息处理中,文本特征可以分为浅层文本特征与深层文本特征。浅层特征包括词、词性、词长等;深层特征包括句法信息、语义... 正确划分句子的韵律结构对于提高合成语音的质量具有重要的意义。特征的选择是韵律结构预测的关键因素之一。在中文信息处理中,文本特征可以分为浅层文本特征与深层文本特征。浅层特征包括词、词性、词长等;深层特征包括句法信息、语义信息等。该文在挖掘剖析句法结构、依存句法结构同韵律结构之间关系的基础上,从文本中获取相关浅层和深层文本特征,并采用条件随机场模型实现韵律短语预测。首先以浅层文本特征进行韵律短语识别,然后在此基础上加入句法依存深层文本特征进行模型构建。实验结果表明:加入句法依存特征后,韵律短语预测精确率提高了13.3%,召回率提高了14.69%,F值提高了14.1%。 展开更多
关键词 韵律短语预测 句法依存 文本特征 条件随机场
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部