期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例 被引量:3
1
作者 阮光册 周萌葳 《情报杂志》 CSSCI 北大核心 2024年第2期110-117,共8页
[研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。[研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法... [研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。[研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法对专利文献摘要文本进行向量化表示;其次,对向量化矩阵进行数据降维,利用HDBSCAN方式寻找原始数据中的高密度簇;最后,识别类簇文本集合中的主题特征,并完成主题呈现。[研究结论]对比LDA主题模型、K-means、doc2vec等方法,本文的实验结果提高了主题划分的细粒度和精确度,获得了较好的主题一致性。如何采用fine-tune策略进一步提升模型的效果,是未来该方法进一步深入探索的方向。 展开更多
关键词 sentence-bert 专利文本 主题识别 文本聚类
下载PDF
融合Sentence-BERT和LDA的评论文本主题识别 被引量:11
2
作者 阮光册 黄韵莹 《现代情报》 CSSCI 2023年第5期46-53,共8页
[目的/意义]为了解决评论文本主题识别时语义描述不充分以及学习到的主题语义连贯性不强等问题。本文将Sentence-BERT句子嵌入模型和LDA模型相结合,提升评论文本主题的语义性。[方法/过程]采用Sentence-BERT模型获取评论文本句子层面的... [目的/意义]为了解决评论文本主题识别时语义描述不充分以及学习到的主题语义连贯性不强等问题。本文将Sentence-BERT句子嵌入模型和LDA模型相结合,提升评论文本主题的语义性。[方法/过程]采用Sentence-BERT模型获取评论文本句子层面的向量特征,同时,采用LDA模型获取评论文本的概率主题向量,随后使用自动编码器连接两组向量,运用K-means算法对潜在空间向量进行聚类,从类簇中获取上下文主题信息。[结果/结论]通过对评论文本数据集的实验,本文方法可以较好地获得具有语义信息的主题词。Sentence-BERT模型与LDA结合,增加了模型的复杂性。通过对比,本文方法获得的主题一致性指标(Coherence)优于目前常见的评论文本主题识别方法。 展开更多
关键词 sentence-bert LDA模型 评论文本 主题识别
下载PDF
基于领域词典和Sentence-BERT的智能问答系统 被引量:2
3
作者 李强伟 王鑫 +2 位作者 陈浩民 赵坤 仝思凡 《电脑知识与技术》 2023年第25期21-24,33,共5页
主流的问答系统主要分为基于语义和基于文本匹配两种,而在基于文本匹配的问答模型中,通常是将问题对直接进行相似性比对进而得出最终的答案。然而,自然语言长问句一般比较冗余,如果直接进行计算,受冗余部分影响,正确率一般不高。为解决... 主流的问答系统主要分为基于语义和基于文本匹配两种,而在基于文本匹配的问答模型中,通常是将问题对直接进行相似性比对进而得出最终的答案。然而,自然语言长问句一般比较冗余,如果直接进行计算,受冗余部分影响,正确率一般不高。为解决上述问题,文章提出了一种基于Sentence-Bert和领域词典的智能问答系统,旨在实现更高效、更准确地问答。系统采用领域词典来过滤问句中的冗余部分,再使用训练好的Sentence-Bert句向量模型对预处理后的问句进行向量化,并计算余弦相似度来找到最匹配的问题。实验结果表明,相比Sentence-BERT,提高了问句相似性比对的精度。 展开更多
关键词 领域词典 智能问答 sentence-bert FAQ 相似性比对
下载PDF
基于Sentence-BERT语义表示的咨询问题提示列表自动构建方法研究——以糖尿病咨询为例 被引量:14
4
作者 唐晓波 刘亚岚 《现代情报》 CSSCI 2021年第8期3-15,共13页
[目的/意义]咨询问题提示列表能引导咨询者在智能问答和智能咨询系统进行咨询并为动态咨询引导提供基础。目前,关于问题提示列表构建的研究大多采用专家咨询法、访谈法,这些方法无法满足智能咨询服务要求,本文以有问必答网中糖尿病问答... [目的/意义]咨询问题提示列表能引导咨询者在智能问答和智能咨询系统进行咨询并为动态咨询引导提供基础。目前,关于问题提示列表构建的研究大多采用专家咨询法、访谈法,这些方法无法满足智能咨询服务要求,本文以有问必答网中糖尿病问答为例,提出了基于Sentence-BERT语义表示的咨询问题提示列表自动构建模型。[方法/过程]本文首先在糖尿病相关文献调查和分析的基础上确定糖尿病类目体系,并人工标注咨询问题类别;其次使用LDA模型对每类问题集进行主题聚类;然后各主题下通过Sentence-BERT预训练模型进行问题语义表示,textRank算法计算问题重要性并排序;最终冗余处理后构建出咨询问题提示列表。[结果/结论]实验结果表明,本文提出的模型能有效构建出信息质量较高的、内容丰富的咨询问题提示列表,对咨询引导有促进作用。 展开更多
关键词 问题提示列表 智能问答 智能咨询 问答社区 糖尿病咨询 LDA sentence-bert
下载PDF
Relation-Aware Entity Matching Using Sentence-BERT 被引量:1
5
作者 Huchen Zhou Wenfeng Huang +1 位作者 Mohan Li Yulin Lai 《Computers, Materials & Continua》 SCIE EI 2022年第4期1581-1595,共15页
A key aspect of Knowledge fusion is Entity Matching.The objective of this study was to investigate how to identify heterogeneous expressions of the same real-world entity.In recent years,some representative works have... A key aspect of Knowledge fusion is Entity Matching.The objective of this study was to investigate how to identify heterogeneous expressions of the same real-world entity.In recent years,some representative works have used deep learning methods for entity matching,and these methods have achieved good results.However,the common limitation of these methods is that they assume that different attribute columns of the same entity are independent,and inputting the model in the form of paired entity records will cause repeated calculations.In fact,there are often potential relations between different attribute columns of different entities.These relations can help us improve the effect of entity matching,and can perform feature extraction on a single entity record to avoid repeated calculations.To use attribute relations to assist entity matching,this paper proposes the Relation-aware Entity Matching method,which embeds attribute relations into the original entity description to form sentences,so that entity matching is transformed into a sentence-level similarity determination task,based on Sentence-BERT completes sentence similarity calculation.We have conducted experiments on structured,dirty,and textual data,and compared them with baselines in recent years.Experimental results show that the use of relational embedding is helpful for entity matching on structured and dirty data.Our method has good results on most data sets for entity matching and reduces repeated calculations. 展开更多
关键词 Knowledge fusion entity matching sentence-bert relation aware
下载PDF
基于专利文本多粒度深层语义的技术演化路径智能识别方法研究 被引量:3
6
作者 唐晓波 吴佳琳 吴海婷 《情报理论与实践》 CSSCI 北大核心 2024年第1期136-144,共9页
[目的/意义]专利文本是技术演化分析的可靠知识来源。利用领域多层本体和Sentence-BERT深度学习预训练模型可分别从词和句子两个角度挖掘多粒度深层文本语义信息,提升专利文本语义挖掘的全面性,进而提高技术演化路径识别的准确性。[方法... [目的/意义]专利文本是技术演化分析的可靠知识来源。利用领域多层本体和Sentence-BERT深度学习预训练模型可分别从词和句子两个角度挖掘多粒度深层文本语义信息,提升专利文本语义挖掘的全面性,进而提高技术演化路径识别的准确性。[方法/过程]以深度学习、基于本体的相似度计算及谱聚类算法等大数据和人工智能技术为基础,实现准确、高效、全面的技术演化路径智能识别。构建领域词典和领域本体,根据领域词典抽取专利摘要中的领域术语,根据领域本体中不同术语的最近共同祖先节点的深度,从词语级别计算专利摘要间的语义相似度;利用Sentence-BERT对专利摘要进行向量化表示,计算句子层面的语义相似度;结合两种相似度的计算结果构建相似度矩阵并进行谱聚类,根据谱聚类结果和专利时序特征识别技术演化路径。最后以光刻领域专利数据为例进行实证研究。[结果/结论]实验结果表明,谱聚类得到的技术类别划分结果的准确率、精确率、召回率和F1值的平均值均达到了85%以上,说明文章提出的基于专利文本多粒度深层语义的技术演化路径智能识别方法是有效的,其有助于科研人员、企业决策者和政府决策者探究技术发展历程,研判技术创新方向,推动关键技术研发。 展开更多
关键词 技术演化路径识别 领域本体 sentence-bert 谱聚类 文本挖掘
原文传递
基于专利异构数据融合的技术演化路径识别方法
7
作者 侯艳辉 荆明月 王家坤 《情报杂志》 CSSCI 北大核心 2024年第9期188-195,147,共9页
[研究目的]针对目前技术演化分析中多关注专利文本,忽略专利引文信息的问题,提出一种基于专利异构数据融合的技术演化路径识别方法。[研究方法]首先,使用Sentence-BERT模型提取专利文本语义特征;其次,使用图卷积神经网络模型将文本语义... [研究目的]针对目前技术演化分析中多关注专利文本,忽略专利引文信息的问题,提出一种基于专利异构数据融合的技术演化路径识别方法。[研究方法]首先,使用Sentence-BERT模型提取专利文本语义特征;其次,使用图卷积神经网络模型将文本语义特征与引文结构特征融合,实现异构数据融合构建专利向量;最后,划分时间窗,使用k-means算法对各时间窗进行技术主题聚类,基于相邻时间窗技术主题相似度构建技术演化路径。[研究结论]以人工智能领域为例进行实证研究,共发现4条技术演化路径。与相关权威报告进行比对,结果表明识别结果与人工智能技术领域的发展现状一致,验证了模型的有效性和科学性。 展开更多
关键词 专利 技术演化 技术演化路径识别 异构数据融合 人工智能 sentence-bert 图卷积神经网络
下载PDF
基于双粒度语义特征与异质性网络的知识共创价值识别
8
作者 王松 骆莹 刘新民 《情报杂志》 CSSCI 北大核心 2024年第5期123-131,共9页
[研究目的]旨在优化虚拟社区中知识共创价值的识别方法,缓解因信息过载和关联复杂性等导致的高价值性知识资源识别效果不佳的问题。[研究方法]从知识共创的动态协同过程入手,构建集成双粒度语义与异质性网络的知识共创价值识别模型(DGSH... [研究目的]旨在优化虚拟社区中知识共创价值的识别方法,缓解因信息过载和关联复杂性等导致的高价值性知识资源识别效果不佳的问题。[研究方法]从知识共创的动态协同过程入手,构建集成双粒度语义与异质性网络的知识共创价值识别模型(DGSHAN)。首先利用BERT、Sentence-BERT并行获取词、句双粒度知识单元的语义信息,继而引入CNN、BiLSTM差异化提炼协同知识的局部内核特征与动态时序特征;同时采用HAN处理异质性关联网络,挖掘用户交互下多类型实体与拓扑结构中的关联规律,最后融合知识资源组合和用户行为互动双链路特征,实现知识共创价值的有效识别。[研究结论]经魅族社区Flyme数据验证,该模型的识别准确度、宏F1、加权F1分别为82.16%、73.56%、81.39%,相较于其他基线模型,各评估指标都有显著提高,可以有效提升知识共创价值的识别效果。 展开更多
关键词 知识共创 动态协同 双粒度语义 异质性网络 价值识别 识别模型 BERT sentence-bert
下载PDF
融合词典信息和句子语义的中文命名实体识别
9
作者 王谭 陈金广 马丽丽 《计算机与现代化》 2024年第3期24-28,共5页
受益于深度学习技术的蓬勃发展,命名实体识别任务的性能也得到了进一步的提升。然而,基于深度学习网络的模型的优秀性能严重依赖于大量的标注样本的支持,在缺少标注样本的小数据集上难以充分挖掘深层次信息,导致识别效果不佳。基于以上... 受益于深度学习技术的蓬勃发展,命名实体识别任务的性能也得到了进一步的提升。然而,基于深度学习网络的模型的优秀性能严重依赖于大量的标注样本的支持,在缺少标注样本的小数据集上难以充分挖掘深层次信息,导致识别效果不佳。基于以上问题,本文提出一种融合词典信息和句子语义的中文命名实体识别模型LS-NER。首先,将字符在词典中匹配到的潜在词作为先验词汇信息供模型学习,应对中文分词问题。然后,将用于计算文本相似度的带有语义信息的句子嵌入并应用到命名实体识别任务中,帮助模型从相似的句子中寻找相似实体。最后,设计基于注意力机制思想的特征融合方式,使模型能够充分学习句子嵌入带来的语义信息。实验结果表明,本文模型在小数据集Resume和Weibo上应用均达到了不错的性能,在未增加其他外部信息的前提下,句子语义能帮助模型学习到更深层次的特征,比未添加句子信息的模型的F1分数分别高出0.15个百分点和2.26个百分点。 展开更多
关键词 命名实体识别 BERT SoftLexicon sentence-bert 条件随机场
下载PDF
融合领域词典的文旅客服问句匹配模型
10
作者 朱欣娟 牛婷婷 《西安工程大学学报》 CAS 2024年第3期92-99,共8页
在文旅领域智能问答中,用户问句文本表征稀疏、口语化表达、一词多义及特定领域词汇的识别困难使得常见的匹配模型难以将用户问句与标准问句进行精准匹配。针对此问题,本文构建了文旅客服问句匹配数据集和相应的领域词典,在此基础上提... 在文旅领域智能问答中,用户问句文本表征稀疏、口语化表达、一词多义及特定领域词汇的识别困难使得常见的匹配模型难以将用户问句与标准问句进行精准匹配。针对此问题,本文构建了文旅客服问句匹配数据集和相应的领域词典,在此基础上提出一种融合领域词典的文旅问句匹配模型SBIDD(Improved SBERT Model for Integrating Domain Dictionaries)。模型利用Sentence-BERT对问句进行向量化表示,在孪生网络模型中融入领域词典,增强问句的领域词权重,使得模型对领域词汇的识别能力大幅提升。在自建数据集和公开数据集ATEC 2018 NLP上分别进行实验。结果表明,构建的模型与5种经典文本匹配模型DSSM、BiMPM、ESIM、IMAF、TSFR-RM及基线模型SBERT相比效果更优,F1值达到95.65%,比基线模型提升了2.75%,且模型在检索任务上表现出更高的适配性和鲁棒性。 展开更多
关键词 问句匹配 文旅客服 sentence-bert 领域词典 智能问答 检索式问答
下载PDF
A Novel Optimization Scheme for Named Entity Recognition with Pre-trained Language Models
11
作者 Shuanglong Li Xulong Zhang Jianzong Wang 《Journal of Electronic Research and Application》 2024年第5期125-133,共9页
Named Entity Recognition(NER)is crucial for extracting structured information from text.While traditional methods rely on rules,Conditional Random Fields(CRFs),or deep learning,the advent of large-scale Pre-trained La... Named Entity Recognition(NER)is crucial for extracting structured information from text.While traditional methods rely on rules,Conditional Random Fields(CRFs),or deep learning,the advent of large-scale Pre-trained Language Models(PLMs)offers new possibilities.PLMs excel at contextual learning,potentially simplifying many natural language processing tasks.However,their application to NER remains underexplored.This paper investigates leveraging the GPT-3 PLM for NER without fine-tuning.We propose a novel scheme that utilizes carefully crafted templates and context examples selected based on semantic similarity.Our experimental results demonstrate the feasibility of this approach,suggesting a promising direction for harnessing PLMs in NER. 展开更多
关键词 GPT-3 Named Entity Recognition sentence-bert model In-context example
下载PDF
基于密度Canopy的评论文本主题识别方法 被引量:1
12
作者 刘滨 詹世源 +7 位作者 刘宇 雷晓雨 杨雨宽 陈伯轩 刘格格 高歆 皇甫佳悦 陈莉 《河北科技大学学报》 CAS 北大核心 2023年第5期493-501,共9页
融合Sentence-BERT和LDA的评论文本主题识别(SBERT-LDA)方法,将LDA的主题数作为K-means算法中的k值,导致算法可解释性较差、主题一致性较低。为了解决上述问题,提出基于密度Canopy的SBERT-LDA优化方法(SBERT-LDA-DC),利用密度Canopy改进... 融合Sentence-BERT和LDA的评论文本主题识别(SBERT-LDA)方法,将LDA的主题数作为K-means算法中的k值,导致算法可解释性较差、主题一致性较低。为了解决上述问题,提出基于密度Canopy的SBERT-LDA优化方法(SBERT-LDA-DC),利用密度Canopy改进Kmeans算法。实验结果表明,提出的方法在一致性指标上要优于使用K-means以及K-means++对特征向量聚类的同类方法;与SBERT-LDA方法相比,在1852条戏剧评论数据集上,一致性指标值提高了22.9%。因此,所提出的SBERT-LDA-DC方法是有效的,对产品或服务提供者更好地了解用户意见、完善自身产品或提升服务水平提供了新方法,具有较强的实际应用价值。 展开更多
关键词 自然语言处理 主题识别 评论文本 sentence-bert LDA
下载PDF
基于特征知识元的专利语义引用识别方法研究——以量子计算领域为例 被引量:3
13
作者 唐晓波 吴海婷 吴佳琳 《情报理论与实践》 CSSCI 北大核心 2023年第10期86-95,共10页
[目的/意义]专利引文分析是专利分析研究的重要内容。传统专利引文分析仅分析专利文献中明确标示的物理引用专利数据,不能够准确真实反映专利之间的引用关系,难以准确揭示专利之间的技术相似度。专利语义引用识别有利于准确真实揭示专... [目的/意义]专利引文分析是专利分析研究的重要内容。传统专利引文分析仅分析专利文献中明确标示的物理引用专利数据,不能够准确真实反映专利之间的引用关系,难以准确揭示专利之间的技术相似度。专利语义引用识别有利于准确真实揭示专利间的潜在语义联系,为专利的继承与创新评价提供参考,有助于专利授权前的专利审核和专利授权后的专利评价。[方法/过程]首先,基于规则和句法分析抽取了专利的特征知识元;其次,利用Sentence-BERT和Word2Vec对专利特征知识元及专利标题摘要文本进行向量化表示;再次,根据余弦相似度计算专利的特征相似度和整体相似度,结合专利申请日期的先后顺序得到专利的语义引用专利集;最后,采用量子计算领域专利数据进行了实验研究。[结果/结论]该专利语义引用识别方法能够实现语义引用专利的有效识别,有利于评价专利的技术新颖性、创造性和实用性,为专利审核和专利价值评估工作提供支持。 展开更多
关键词 语义引用识别 特征知识元 语义相似度 sentence-bert Word2Vec
原文传递
深度学习驱动的海量人文社会科学学术文献学科分类研究 被引量:15
14
作者 刘江峰 林立涛 +4 位作者 刘畅 何洪旭 吴娜 沈思 王东波 《情报理论与实践》 CSSCI 北大核心 2023年第2期71-81,共11页
[目的/意义]探索不同社会科学学科间差异,支持学科建设、科技检索服务,进一步完善文献学科的分类体系。[方法/过程]基于多种深度学习模型和预训练语言模型构建社会科学文献学科分类器,利用CSSCI目录中的20多个一级学科中近350万篇文献... [目的/意义]探索不同社会科学学科间差异,支持学科建设、科技检索服务,进一步完善文献学科的分类体系。[方法/过程]基于多种深度学习模型和预训练语言模型构建社会科学文献学科分类器,利用CSSCI目录中的20多个一级学科中近350万篇文献构成的数据集进行实验;利用Sentence-BERT输出摘要句子向量并进行层次聚类,根据聚类结果划分学科组,并计算模型对于不同学科组的分类性能以缓和学科交叉的影响;利用模糊准确性指标输出模型对每条记录输出的前N个高概率学科以弥补原有学科分类的局限性。[结果/结论]在“摘要+标题”上使用深度预训练语言模型取得最佳性能;基于层次聚类所得的学科组进行的分类较单一学科性能有所提升;模型的模糊准确性在N=3时能够达到96%。[局限]未考虑从全文文本上获取更丰富的文献学科特征进行自动分类。 展开更多
关键词 文献学科分类 预训练语言模型 BERT 跨学科性 sentence-bert
原文传递
一种基于孪生网络预训练语言模型的文本匹配方法研究 被引量:2
15
作者 卢美情 申妍燕 《集成技术》 2023年第2期53-63,共11页
孪生网络预训练语言模型(Sentence Embeddings using Siamese BERT-Networks,SBERT)在文本匹配的表示层面上存在两个缺点:(1)两个文本查询经BERT Encoder得到向量表示后,直接进行简单计算;(2)该计算不能考虑到文本查询之间更细粒度表示... 孪生网络预训练语言模型(Sentence Embeddings using Siamese BERT-Networks,SBERT)在文本匹配的表示层面上存在两个缺点:(1)两个文本查询经BERT Encoder得到向量表示后,直接进行简单计算;(2)该计算不能考虑到文本查询之间更细粒度表示的问题,易产生语义上的偏离,难以衡量单个词在上下文中的重要性。该文结合交互方法,提出一种结合多头注意力对齐机制的SBERT改进模型。该模型首先获取经SBERT预训练的两个文本查询的隐藏层向量;然后,计算两文本之间的相似度矩阵,并利用注意力机制分别对两个文本中的token再次编码,从而获得交互特征;最后进行池化,并整合全连接层进行预测。该方法引入了多头注意力对齐机制,完善了交互型文本匹配算法,加强了相似文本之间的关联度,提高了文本匹配效果。在ATEC 2018 NLP数据集及CCKS 2018微众银行客户问句匹配数据集上,对该方法进行验证,实验结果表明,与当前流行的5种文本相似度匹配模型ESIM、ConSERT、BERT-whitening、SimCSE以及baseline模型SBERT相比,本文模型在F1评价指标上分别达到了84.7%和90.4%,比Baseline分别提高了18.6%和8.7%,在准确率以及召回率方面也表现出了较好的效果,且具备一定的鲁棒性。 展开更多
关键词 文本匹配 sentence-bert 多头注意力对齐机制
下载PDF
面向科研基金项目名称短文本的学科交叉主题识别方法 被引量:1
16
作者 黄月 张昕 《情报杂志》 CSSCI 北大核心 2023年第10期157-162,80,共7页
[研究目的]针对科研基金项目名称,挖掘学科间的交叉主题,发现新的学科增长点,是一项具有实际意义的研究任务。基金名称构成的短文本数据集具有稀疏性和不规则性,已有方法在处理短文本数据上效果不佳。[研究方法]使用预训练模型BERT结合... [研究目的]针对科研基金项目名称,挖掘学科间的交叉主题,发现新的学科增长点,是一项具有实际意义的研究任务。基金名称构成的短文本数据集具有稀疏性和不规则性,已有方法在处理短文本数据上效果不佳。[研究方法]使用预训练模型BERT结合传统的共词分析方法,获得潜在的学科交叉词集,筛选出具有学科交叉性质的基金项目名称,再利用句向量模型Sentence-BERT获得项目名称的句向量表示,最后使用聚类算法k-means得到学科交叉主题。[研究结论]通过对国家社会科学基金“图书馆、情报与文献学”和“新闻学与传播学”两个学科的项目名称进行分析,并与已有基于词向量模型word2vec和聚类算法DBSCAN的学科交叉主题挖掘方法进行对比,实验结果表明本研究提出的基于Sentence-BERT的学科交叉主题识别方法得到的结果可解读性更强,研究主题更明确,为学科交叉主题识别贡献新思路。 展开更多
关键词 学科交叉 主题识别 科研基金项目 BERT sentence-bert 国家社会科学基金 共词分析法
下载PDF
数据集成场景下考虑语义信息的高效实体识别方法 被引量:2
17
作者 宗威 林松涛 刘继昶 《图书情报工作》 CSSCI 北大核心 2022年第14期128-136,共9页
[目的/意义]针对当前数据集成场景下,实体识别时未能充分提取文本语义信息导致识别效果不佳以及传统分块方法无法满足高效识别的问题,提出一种考虑语义信息的高效实体识别方法,以提升实体识别的效果与效率。[方法/过程]以需要集成的两... [目的/意义]针对当前数据集成场景下,实体识别时未能充分提取文本语义信息导致识别效果不佳以及传统分块方法无法满足高效识别的问题,提出一种考虑语义信息的高效实体识别方法,以提升实体识别的效果与效率。[方法/过程]以需要集成的两个数据集A、B为例,首先,分别对数据集A和B中的所有记录进行分词、去停用词等数据预处理操作,然后基于数据集A中的每一个词,建立数据集A的倒排索引;其次,计算数据集B中记录的每个词在数据集A中的重要度,依据重要度大小选择关键词代表该条记录;最后将关键词与索引词进行比对,基于Sentence-BERT模型依次计算关键词所对应的记录与索引词包含的所有记录之间的相似程度。将超过阈值的记录判定为对同一实体的描述记录,如此往复直至比对完数据集B中的所有记录。[结果/结论]实验结果表明,本文提出的考虑语义信息的高效实体识别方法在精确率、召回率、稳定性和响应时间等评价指标的表现上均优于传统的实体识别方法,为解决数据集成中的实体识别问题提供了方法指导。 展开更多
关键词 实体识别 sentence-bert模型 倒排索引 数据集成
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部