中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hi...中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hierarchical Transformer fusing Lexicon and Radical),以通过分层次融合的多元知识来帮助模型学习更丰富、全面的上下文信息和语义信息。首先,通过发布的中文词汇表和词汇向量表识别语料中包含的潜在词汇并把它们向量化,同时通过优化后的位置编码建模词汇和相关字符的语义关系,以学习中文的词汇知识;其次,通过汉典网发布的基于汉字字形的编码将语料转换为相应的编码序列以代表字形信息,并提出RFECNN(Radical Feature Extraction-Convolutional Neural Network)模型来提取字形知识;最后,提出Hierarchical Transformer模型,其中由低层模块分别学习字符和词汇以及字符和字形的语义关系,并由高层模块进一步融合字符、词汇、字形等多元知识,从而帮助模型学习语义更丰富的字符表征。在Weibo、Resume、MSRA和OntoNotes4.0公开数据集进行了实验,与主流方法NFLAT(Non-Flat-LAttice Transformer for Chinese named entity recognition)的对比结果表明,所提方法的F1值在4个数据集上分别提升了9.43、0.75、1.76和6.45个百分点,达到最优水平。可见,多元语义知识、层次化融合、RFE-CNN结构和Hierarchical Transformer结构对学习丰富的语义知识及提高模型性能是有效的。展开更多
针对线段因遮挡、断裂以及端点提取不准确等原因造成的线段特征匹配困难问题,特别是现有匹配算法在匹配过程中出现"多配多"时直接采取"最相似匹配"而导致丢失大量真实匹配的问题,提出了一种基于多重几何约束及0-1...针对线段因遮挡、断裂以及端点提取不准确等原因造成的线段特征匹配困难问题,特别是现有匹配算法在匹配过程中出现"多配多"时直接采取"最相似匹配"而导致丢失大量真实匹配的问题,提出了一种基于多重几何约束及0-1规划的线段特征匹配算法。首先,基于校正后视频帧间线段特征的空间相邻性计算线段匹配的初始候选集;然后,基于极线约束、单应矩阵模型约束以及点-线相邻性约束等多重几何约束,对候选集进行筛选从而剔除部分错误匹配;其次,将线段匹配问题建模为一个大规模0-1规划问题;最后,设计了一种基于分组策略的两阶段求解算法对该问题进行求解,从而实现线段特征的"一配一"精确匹配。实验结果表明,该算法与LS(Line Sigature)、LJL(LineJunction-Line)方法相比,匹配正确率接近,但匹配线段数量分别提高了60%和11%。所提算法可以实现视频帧间的线段特征匹配,为基于线特征的视觉SLAM(Simultaneously Localization and Mapping)奠定基础。展开更多
文摘中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hierarchical Transformer fusing Lexicon and Radical),以通过分层次融合的多元知识来帮助模型学习更丰富、全面的上下文信息和语义信息。首先,通过发布的中文词汇表和词汇向量表识别语料中包含的潜在词汇并把它们向量化,同时通过优化后的位置编码建模词汇和相关字符的语义关系,以学习中文的词汇知识;其次,通过汉典网发布的基于汉字字形的编码将语料转换为相应的编码序列以代表字形信息,并提出RFECNN(Radical Feature Extraction-Convolutional Neural Network)模型来提取字形知识;最后,提出Hierarchical Transformer模型,其中由低层模块分别学习字符和词汇以及字符和字形的语义关系,并由高层模块进一步融合字符、词汇、字形等多元知识,从而帮助模型学习语义更丰富的字符表征。在Weibo、Resume、MSRA和OntoNotes4.0公开数据集进行了实验,与主流方法NFLAT(Non-Flat-LAttice Transformer for Chinese named entity recognition)的对比结果表明,所提方法的F1值在4个数据集上分别提升了9.43、0.75、1.76和6.45个百分点,达到最优水平。可见,多元语义知识、层次化融合、RFE-CNN结构和Hierarchical Transformer结构对学习丰富的语义知识及提高模型性能是有效的。
文摘针对线段因遮挡、断裂以及端点提取不准确等原因造成的线段特征匹配困难问题,特别是现有匹配算法在匹配过程中出现"多配多"时直接采取"最相似匹配"而导致丢失大量真实匹配的问题,提出了一种基于多重几何约束及0-1规划的线段特征匹配算法。首先,基于校正后视频帧间线段特征的空间相邻性计算线段匹配的初始候选集;然后,基于极线约束、单应矩阵模型约束以及点-线相邻性约束等多重几何约束,对候选集进行筛选从而剔除部分错误匹配;其次,将线段匹配问题建模为一个大规模0-1规划问题;最后,设计了一种基于分组策略的两阶段求解算法对该问题进行求解,从而实现线段特征的"一配一"精确匹配。实验结果表明,该算法与LS(Line Sigature)、LJL(LineJunction-Line)方法相比,匹配正确率接近,但匹配线段数量分别提高了60%和11%。所提算法可以实现视频帧间的线段特征匹配,为基于线特征的视觉SLAM(Simultaneously Localization and Mapping)奠定基础。