自然场景文本识别是计算机视觉领域的研究热点之一,在无人驾驶、图像检索、机器人导航等领域具有广泛的应用前景.由于自然场景中的文本图像存在背景复杂、透视失真、过度弯曲等现象,给文本识别带来了巨大的挑战.针对上述问题,本文提出...自然场景文本识别是计算机视觉领域的研究热点之一,在无人驾驶、图像检索、机器人导航等领域具有广泛的应用前景.由于自然场景中的文本图像存在背景复杂、透视失真、过度弯曲等现象,给文本识别带来了巨大的挑战.针对上述问题,本文提出了一种基于多路并行的位置关联网络(Multi-Path Parallel Location Association Network,MPLAN)的自然场景文本识别方法.首先,针对不规则文本图像,MPLAN使用文本矫正网络自适应学习图像变换,从而获得线性排列的文本图像.其次,为了捕获字符间的位置信息,MPLAN提出了位置关联模块,利用序列特征的有序性,通过捕获字符位置信息,以提高序列特征与目标字符的对齐准确度.此外,为了增强字符间的语义相关性,MPLAN提出了基于多路传输思想的并行注意力模块,获取全局语义信息,实现序列特征的上下文通信,从而锁定有效字符的位置.在包括规则文本、不规则文本在内的六个数据集上的实验结果表明,MPLAN能够有效利用位置信息与全局语义信息解码字符序列,特别是在识别不规则文本上取得了领先的性能.展开更多
多轮对话是人工智能领域的一个重要分支.如何从多轮对话上下文中正确提取与问题相关的核心内容是多轮对话任务的关键问题.现有模型存在辅助任务低效,对全局与局部信息的筛选不够充分,对较短的多轮对话数据学习能力不足等问题.针对上述问...多轮对话是人工智能领域的一个重要分支.如何从多轮对话上下文中正确提取与问题相关的核心内容是多轮对话任务的关键问题.现有模型存在辅助任务低效,对全局与局部信息的筛选不够充分,对较短的多轮对话数据学习能力不足等问题.针对上述问题,本文提出了一种局部信息增强且能够感知对话结构的多轮对话模型(Structure-aware Dialogue Model with Fine-grained Local Information,SAFL).针对子任务训练代价大的问题,提出了随机滑动窗口回复预测任务,在多轮对话上下文中的不同位置与大小的窗口内进行回复预测,充分学习细粒度的局部对话语义.针对信息筛选不够充分的问题,提出了重点局部信息蒸馏机制,借助多门控融合方法从全局和局部信息之中蒸馏出重点信息,提升模型融合效果.针对模型对较短的多轮对话上下文学习能力不足的问题,提出阶段信息学习机制,在微调前加强预训练语言模型对短多轮对话数据的领域学习,降低微调阶段中对短多轮对话的学习难度.此外,SAFL设计了对话结构感知任务在对话结构方面进一步加强模型对对话上下文的理解能力.Ubuntu和E-commerce数据集上的实验结果表明,SAFL模型的总体性能优于对比模型.展开更多
机器阅读理解(MRC)是自然语言处理领域的一个具有挑战性的任务,其目标是在给定文章中预测出相关问题的答案.随着深度学习和预训练语言模型的发展,许多端到端的机器阅读理解模型展现出优秀的性能,但是这些模型普遍存在鲁棒性不足的问题,...机器阅读理解(MRC)是自然语言处理领域的一个具有挑战性的任务,其目标是在给定文章中预测出相关问题的答案.随着深度学习和预训练语言模型的发展,许多端到端的机器阅读理解模型展现出优秀的性能,但是这些模型普遍存在鲁棒性不足的问题,当文本中存在干扰句时,它们的表现便显著下降.本文从人类做阅读理解任务的角度来解决这个问题,提出了一种端到端的多任务学习框架ASMI(Answer-Span Context Prediction and Mutual Information Estimation and Maximization)来提高MRC模型的鲁棒性.ASMI在预训练语言模型下游微调,包含两种辅助任务:(i)答案上下文预测;(ii)答案与上下文之间的互信息估计.本文设计了一种上下文注意力机制来预测答案上下文软标签,从而强化上下文对于问答任务的指导作用,并降低干扰句对模型的影响.本文还提出了一种新的负样本生成策略,并结合基于JS散度的互信息估计器来估计互信息,从而有效辨析答案上下文和干扰句之间的语义差异,使得模型学习到更加鲁棒的表示.在3个阅读理解基准数据集上的实验结果表明,本文提出的ASMI模型在EM和F1指标上均优于对比模型.展开更多
社区发现能够揭示真实社会网络的拓扑结构和动态特性.目前的社区发现算法多针对静态社会网络所设计,而绝大多数真实社会网络的社区结构是动态变化的.针对动态社区发现,现有算法通常基于社区结构平稳变化的假设,无法处理演化过程中可能...社区发现能够揭示真实社会网络的拓扑结构和动态特性.目前的社区发现算法多针对静态社会网络所设计,而绝大多数真实社会网络的社区结构是动态变化的.针对动态社区发现,现有算法通常基于社区结构平稳变化的假设,无法处理演化过程中可能出现的大量社区消亡或涌现等突发事件.为解决有效并高效地发现大规模动态社会网络的社区结构的问题,提出了一种基于邻域跟随关系的社区表示模型Follow-Community,模型刻画的社区由不同角色的节点以及节点间的跟随关系组成,通过发现节点间存在的直接或间接的跟随关系,可将跟随同一个节点的节点所构成的集合归为一个社区.基于该模型提出了一种具有接近线性时间复杂度的邻域跟随算法NFA(Neighborhood Following Algorithm),遍历网络节点一次即可得到静态社会网络的社区结构.进一步扩展得到增量邻域跟随算法iNFA(incremental Neighborhood Following Algorithm).通过更新网络演化过程中相关节点的邻域跟随关系,iNFA可发现动态社会网络的社区结构及社区演化.实验结果验证了算法在大规模动态社会网络社区发现方面具有精度、效率以及稳定性的优势.展开更多
文摘自然场景文本识别是计算机视觉领域的研究热点之一,在无人驾驶、图像检索、机器人导航等领域具有广泛的应用前景.由于自然场景中的文本图像存在背景复杂、透视失真、过度弯曲等现象,给文本识别带来了巨大的挑战.针对上述问题,本文提出了一种基于多路并行的位置关联网络(Multi-Path Parallel Location Association Network,MPLAN)的自然场景文本识别方法.首先,针对不规则文本图像,MPLAN使用文本矫正网络自适应学习图像变换,从而获得线性排列的文本图像.其次,为了捕获字符间的位置信息,MPLAN提出了位置关联模块,利用序列特征的有序性,通过捕获字符位置信息,以提高序列特征与目标字符的对齐准确度.此外,为了增强字符间的语义相关性,MPLAN提出了基于多路传输思想的并行注意力模块,获取全局语义信息,实现序列特征的上下文通信,从而锁定有效字符的位置.在包括规则文本、不规则文本在内的六个数据集上的实验结果表明,MPLAN能够有效利用位置信息与全局语义信息解码字符序列,特别是在识别不规则文本上取得了领先的性能.
文摘多轮对话是人工智能领域的一个重要分支.如何从多轮对话上下文中正确提取与问题相关的核心内容是多轮对话任务的关键问题.现有模型存在辅助任务低效,对全局与局部信息的筛选不够充分,对较短的多轮对话数据学习能力不足等问题.针对上述问题,本文提出了一种局部信息增强且能够感知对话结构的多轮对话模型(Structure-aware Dialogue Model with Fine-grained Local Information,SAFL).针对子任务训练代价大的问题,提出了随机滑动窗口回复预测任务,在多轮对话上下文中的不同位置与大小的窗口内进行回复预测,充分学习细粒度的局部对话语义.针对信息筛选不够充分的问题,提出了重点局部信息蒸馏机制,借助多门控融合方法从全局和局部信息之中蒸馏出重点信息,提升模型融合效果.针对模型对较短的多轮对话上下文学习能力不足的问题,提出阶段信息学习机制,在微调前加强预训练语言模型对短多轮对话数据的领域学习,降低微调阶段中对短多轮对话的学习难度.此外,SAFL设计了对话结构感知任务在对话结构方面进一步加强模型对对话上下文的理解能力.Ubuntu和E-commerce数据集上的实验结果表明,SAFL模型的总体性能优于对比模型.
文摘机器阅读理解(MRC)是自然语言处理领域的一个具有挑战性的任务,其目标是在给定文章中预测出相关问题的答案.随着深度学习和预训练语言模型的发展,许多端到端的机器阅读理解模型展现出优秀的性能,但是这些模型普遍存在鲁棒性不足的问题,当文本中存在干扰句时,它们的表现便显著下降.本文从人类做阅读理解任务的角度来解决这个问题,提出了一种端到端的多任务学习框架ASMI(Answer-Span Context Prediction and Mutual Information Estimation and Maximization)来提高MRC模型的鲁棒性.ASMI在预训练语言模型下游微调,包含两种辅助任务:(i)答案上下文预测;(ii)答案与上下文之间的互信息估计.本文设计了一种上下文注意力机制来预测答案上下文软标签,从而强化上下文对于问答任务的指导作用,并降低干扰句对模型的影响.本文还提出了一种新的负样本生成策略,并结合基于JS散度的互信息估计器来估计互信息,从而有效辨析答案上下文和干扰句之间的语义差异,使得模型学习到更加鲁棒的表示.在3个阅读理解基准数据集上的实验结果表明,本文提出的ASMI模型在EM和F1指标上均优于对比模型.
文摘社区发现能够揭示真实社会网络的拓扑结构和动态特性.目前的社区发现算法多针对静态社会网络所设计,而绝大多数真实社会网络的社区结构是动态变化的.针对动态社区发现,现有算法通常基于社区结构平稳变化的假设,无法处理演化过程中可能出现的大量社区消亡或涌现等突发事件.为解决有效并高效地发现大规模动态社会网络的社区结构的问题,提出了一种基于邻域跟随关系的社区表示模型Follow-Community,模型刻画的社区由不同角色的节点以及节点间的跟随关系组成,通过发现节点间存在的直接或间接的跟随关系,可将跟随同一个节点的节点所构成的集合归为一个社区.基于该模型提出了一种具有接近线性时间复杂度的邻域跟随算法NFA(Neighborhood Following Algorithm),遍历网络节点一次即可得到静态社会网络的社区结构.进一步扩展得到增量邻域跟随算法iNFA(incremental Neighborhood Following Algorithm).通过更新网络演化过程中相关节点的邻域跟随关系,iNFA可发现动态社会网络的社区结构及社区演化.实验结果验证了算法在大规模动态社会网络社区发现方面具有精度、效率以及稳定性的优势.