期刊文献+
共找到1,006篇文章
< 1 2 51 >
每页显示 20 50 100
基于Roberta的中文短文本语义相似度计算研究
1
作者 张小艳 李薇 《计算机应用与软件》 北大核心 2024年第8期275-281,366,共8页
针对传统基于孪生网络的文本语义相似度计算模型中存在特征提取能力不足的问题,提出一种融合孪生网络与Roberta预训练模型SRoberta-SelfAtt。在孪生网络架构上,通过Roberta预训练模型分别将原始文本对编码为字级别向量,并使用自注意力... 针对传统基于孪生网络的文本语义相似度计算模型中存在特征提取能力不足的问题,提出一种融合孪生网络与Roberta预训练模型SRoberta-SelfAtt。在孪生网络架构上,通过Roberta预训练模型分别将原始文本对编码为字级别向量,并使用自注意力机制捕获文本内部不同字之间的关联;通过池化策略获取文本对的句向量进而将表示结果交互并融合;在全连接层计算损失值,评价文本对的语义相似度。将此模型在两类任务下的三种数据集上进行实验,其结果相比于其他模型有所提升,为进一步优化文本语义相似度计算的准确率提供有效依据。 展开更多
关键词 孪生神经网络 Roberta 自注意力机制 中文短文本 语义相似度计算
下载PDF
结合混合特征提取与深度学习的长文本语义相似度计算
2
作者 徐捷 邵玉斌 +2 位作者 杜庆治 龙华 马迪南 《计算机工程与科学》 CSCD 北大核心 2024年第8期1513-1520,共8页
文本语义相似度计算是自然语言处理中一项非常重要的任务,但是目前对于文本语义相似度的研究多集中在短文本领域,而不是长文本。相较于短文本,长文本语义信息丰富,但同时语义信息容易分散。针对长文本语义信息分散的问题,提出一种特征... 文本语义相似度计算是自然语言处理中一项非常重要的任务,但是目前对于文本语义相似度的研究多集中在短文本领域,而不是长文本。相较于短文本,长文本语义信息丰富,但同时语义信息容易分散。针对长文本语义信息分散的问题,提出一种特征提取模型,提取出长文本的主要语义信息;对提取的语义信息使用滑窗重叠的方法输入BERT预训练模型得到文本向量表示;然后,通过双向长短期记忆网络建模长文本的前后语义联系,将其映射到语义空间内;再通过线性层增加模型表示能力;最后,通过相似语义向量内积最大化和交叉熵损失函数进行微调。实验结果表明,该模型在CNSE和CNSS数据集上F1分数分别为0.84和0.91,性能优于基线模型。 展开更多
关键词 长文本语义相似 特征提取 BERT预训练模型 语义空间
下载PDF
基于节点语义相似度的本体映射方法 被引量:1
3
作者 何杰 王佳蓉 王恒恒 《吉林大学学报(理学版)》 CAS 北大核心 2024年第2期399-409,共11页
针对本体映射特别是大尺度的异构本体映射由于语义异质性导致的映射精度和效率较低的问题,提出一种基于节点语义相似度的本体映射方法.首先,研究基于网络的本体解析和表示、本体自动分块、相似子本体快速识别、基于节点语义的子本体映... 针对本体映射特别是大尺度的异构本体映射由于语义异质性导致的映射精度和效率较低的问题,提出一种基于节点语义相似度的本体映射方法.首先,研究基于网络的本体解析和表示、本体自动分块、相似子本体快速识别、基于节点语义的子本体映射等关键技术;其次,以本体对齐评估倡议评估数据集中会议本体集进行实验,结果表明,该方法在性能上优于传统映射方法,在精度上高于基于片段的映射方法. 展开更多
关键词 语义相似 本体映射 本体分块 本体对齐估计倡议 精度 效率
下载PDF
基于要素及语义相似性双路召回的预案库匹配系统设计
4
作者 靳亚宾 邓驰 +2 位作者 郝继强 杨泽崇 陈晓东 《计算机与网络》 2024年第3期206-210,共5页
针对基于Best Matching 25(BM25)的传统文本匹配方法未考虑语义相似性,造成匹配精度较低及其他问题,提出了一种基于要素关键词及语义相似性双路召回的预案库匹配系统。提取各类预案的适用范围及其他关键要素,对关键要素进行语义向量抽... 针对基于Best Matching 25(BM25)的传统文本匹配方法未考虑语义相似性,造成匹配精度较低及其他问题,提出了一种基于要素关键词及语义相似性双路召回的预案库匹配系统。提取各类预案的适用范围及其他关键要素,对关键要素进行语义向量抽取并离线构建向量索引库;自动提取突发事件的类型、位置辖区等关键信息,分别通过关键词召回和语义向量检索召回得到候选集;将双路召回的结果进行聚合,通过排序模块对其进行相似度评分并排序返回最优匹配结果。实验结果表明,基于关键词及语义相似性的双路召回方法能更有效全面地召回相关预案,实现了应急预案的快速、精准化匹配。 展开更多
关键词 识别 语义相似 预案匹配
下载PDF
基于语义相似度的工程装备试验设计知识检索系统
5
作者 鞠进军 陈俞龙 +2 位作者 张颖 汪辉 宋万马 《现代电子技术》 北大核心 2024年第12期170-176,共7页
针对工程装备作战试验与在役考核方案和大纲设计(简称工程装备试验设计)专业性强、难度高、知识重用率低等问题,提出一种基于语义相似度的知识检索系统。首次构建工程装备试验设计领域本体模型,实现案例知识的规范化表示,为知识重用奠... 针对工程装备作战试验与在役考核方案和大纲设计(简称工程装备试验设计)专业性强、难度高、知识重用率低等问题,提出一种基于语义相似度的知识检索系统。首次构建工程装备试验设计领域本体模型,实现案例知识的规范化表示,为知识重用奠定基础。为提高案例检索的准确性,设计一种基于语义相似度的工程装备试验设计案例的双层检索方法,实现设计前与设计过程中相似案例的一次与二次精准推送。最后,以某型自行舟桥装备在役考核大纲设计为例进行试验。试验结果证明,所设计系统能够提高工程装备领域试验设计的效率和科学性。 展开更多
关键词 工程装备 试验设计 语义相似 知识检索 知识重用 本体模型 同义扩展
下载PDF
基于堆栈集成学习的文档隐含语义相似度判断算法
6
作者 杜洁 李芹 +1 位作者 潘媛 梁国迪 《电子设计工程》 2024年第3期74-77,82,共5页
受到文档数量规模的影响,文档隐含语义相似度判断结果存在不精准的问题,提出基于堆栈集成学习的文档隐含语义相似度判断算法。构建堆栈集成学习模型,输入文档隐含语义,获得与原文本一一对应的原始文本词袋向量。赋值名词、副词、形容词... 受到文档数量规模的影响,文档隐含语义相似度判断结果存在不精准的问题,提出基于堆栈集成学习的文档隐含语义相似度判断算法。构建堆栈集成学习模型,输入文档隐含语义,获得与原文本一一对应的原始文本词袋向量。赋值名词、副词、形容词,借助辅助词库矢量,识别类似隐含语义。构建文档隐含语义向量模型,提取基于文档隐含语义索引关键词。使用堆栈集成学习方法训练关键词,计算相似度获取判别结果。实验结果表明,该算法与实际关键词提取个数最大误差为1个,最高召回率为86%,相似度判断结果较为精准。 展开更多
关键词 堆栈集成学习 文档隐含语义 语义相似 判断
下载PDF
基于图文多模态融合的文档片段语义相似度判定算法
7
作者 潘媛 梁国迪 +1 位作者 邵馨叶 李芹 《电子设计工程》 2024年第3期106-109,114,共5页
为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现... 为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现基于图文多模态融合的文档片段标注。根据文本数据预处理条件,确定关键词权值指标,联合已知文档片段语义信息,求取相似性度量值的准确计算结果,完成文档片段语义相似度判定算法的设计。对比实验结果可知,在图文多模态融合技术的支持下,差异性赋值指标的平均值达到了1.0,对于网络主机而言,其在准确判别相似性文档片段语义信息方面的应用能力得到了保障。 展开更多
关键词 图文多模态融合 文档片段 语义相似 词袋模型 关键词权值 差异性赋值
下载PDF
语义相似度与BERT模型融合的多标签文本自适应分类方法
8
作者 张红 《微型电脑应用》 2024年第3期49-52,共4页
针对文本搜索需求难以判断、文本难以分类的问题,研究语义相似度与双向语言编码器(BERT)模型融合的多标签文本自适应分类方法。先预处理文本并确定文本表示形式,基于信息增益理论提取并降维处理文本特征,依据语义相似度理论计算文本之... 针对文本搜索需求难以判断、文本难以分类的问题,研究语义相似度与双向语言编码器(BERT)模型融合的多标签文本自适应分类方法。先预处理文本并确定文本表示形式,基于信息增益理论提取并降维处理文本特征,依据语义相似度理论计算文本之间相似度,再引入BERT模型搭建多标签文本自适应分类框架,通过对抗训练获取模型最佳参数,将待分类文本输入至训练好文本分类BERT模型中,即可实现多标签文本的自适应分类。实验数据显示应用提出方法获得F 1参量大于给定最小限值,汉明损失参量HL小于给定最大限值,充分证实了提出方法文本分类效果较佳。 展开更多
关键词 BERT模型 多标签 语义相似 文本分类
下载PDF
基于孪生ALBERT网络的语义相似度计算研究
9
作者 朱成雨 刘江涛 《电脑编程技巧与维护》 2024年第4期3-7,共5页
在自然语言处理领域,尤其是信息检索、机器翻译和智能问答系统等具体应用中,语义相似度计算至关重要。研究针对SBERT模型在文本内部关联关系和交互信息提取方面的局限性,提出了一种基于改进的孪生ALBERT网络的语义相似度计算模型(SALSA... 在自然语言处理领域,尤其是信息检索、机器翻译和智能问答系统等具体应用中,语义相似度计算至关重要。研究针对SBERT模型在文本内部关联关系和交互信息提取方面的局限性,提出了一种基于改进的孪生ALBERT网络的语义相似度计算模型(SALSA)。该方法在孪生网络的架构下引入了轻量级ALBERT语言模型和自注意力模块。实验显示,在LCQMC数据集上,相同参数量的SALSA模型在准确度和F1值上相较于SBERT模型分别提升了6.97%和6.22%,同时训练速度提升了0.5倍。 展开更多
关键词 孪生网络 语义相似 ALBERT语言模型 自注意力机制
下载PDF
地理要素类别语义相似度动态加权计算方法 被引量:1
10
作者 谭永滨 高玲玲 +4 位作者 李霖 程朋根 王红 李小龙 陈诚 《测绘学报》 EI CSCD 北大核心 2023年第5期843-851,共9页
语义相似度计算是解决地理要素类别语义异质问题的关键技术,在地理数据共享与交换应用中起着重要的作用。本文面向基础地理信息领域,针对相同特征属性在不同地理要素类别语义中存在重要性差异的特点,提出了一种基于动态权重的地理要素... 语义相似度计算是解决地理要素类别语义异质问题的关键技术,在地理数据共享与交换应用中起着重要的作用。本文面向基础地理信息领域,针对相同特征属性在不同地理要素类别语义中存在重要性差异的特点,提出了一种基于动态权重的地理要素类别语义相似度算法。本文算法引入词频-逆向文件频率,利用属性值的特殊性,计算特征属性的动态权重,根据不同类型的特征属性提出相应的相似度算法,重点分析多值复杂型属性值的分解及相似度算法,得到地理要素类别间的相似度。最后,从基础地理要素类别中选择200组样本对计算语义相似度,并与其他4种相似度算法进行对比分析。试验结果表明,本文算法能够有效地反映特征属性的重要性差异,获得更准确合理的地理要素类别的语义相似度。 展开更多
关键词 语义相似 词频-逆向文件频率 动态权重 地理要素类别
下载PDF
中国央行沟通稳定外汇市场的效果研究——基于语义相似度的分析 被引量:3
11
作者 郭豫媚 董芳园 +1 位作者 郭俊杰 苗珊 《中央财经大学学报》 CSSCI 北大核心 2023年第2期30-40,100,共12页
中国的央行沟通不仅用于引导货币政策预期和宏观经济预期,还发挥着稳定汇率的作用。然而,相比于央行沟通影响利率和股价的研究,针对汇率的研究仍然较少。本文使用EGARCH模型研究了中国人民银行货币政策执行报告语义相似度对汇率波动的影... 中国的央行沟通不仅用于引导货币政策预期和宏观经济预期,还发挥着稳定汇率的作用。然而,相比于央行沟通影响利率和股价的研究,针对汇率的研究仍然较少。本文使用EGARCH模型研究了中国人民银行货币政策执行报告语义相似度对汇率波动的影响,试图检验央行沟通在稳定汇率方面的成效。本文实证研究表明,央行沟通语义相似度的提高会加剧汇率波动。这是因为,央行沟通语义相似度越高,央行释放的新信息就越少,从而会阻碍预期引导、加剧市场分歧,最终引起市场波动。分主题的文本语义相似度研究得到了类似的结论。进一步地,本文还发现了央行沟通语义相似度对汇率稳定的影响存在非线性特征,即当期或上一期语义相似度越高,语义相似度的提高对汇率波动的影响会越大。异质性分析表明,央行沟通语义相似度对汇率的影响在汇率升贬值以及近期是否实施过货币政策操作的情况下均表现出显著的异质性。最后,本文对如何完善和实践央行沟通提出了政策建议。 展开更多
关键词 央行沟通 语义相似 汇率波动 货币政策工具
下载PDF
基于Transformer模型的问句语义相似度计算 被引量:3
12
作者 丁邱 迟海洋 +2 位作者 严馨 徐广义 邓忠莹 《计算机工程与设计》 北大核心 2023年第3期887-893,共7页
针对现有方法准确率不高、不能充分捕捉句子深层次语义特征的问题,提出一种基于Transformer编码器网络的问句相似度计算方法。在获取句子语义特征前引入交互注意力机制比较句子间词粒度的相似性,通过注意力矩阵和句子矩阵相互生成彼此... 针对现有方法准确率不高、不能充分捕捉句子深层次语义特征的问题,提出一种基于Transformer编码器网络的问句相似度计算方法。在获取句子语义特征前引入交互注意力机制比较句子间词粒度的相似性,通过注意力矩阵和句子矩阵相互生成彼此注意力加权后的新的句子表示矩阵,将获取的新矩阵同原始矩阵拼接融合,丰富句子特征信息;将拼接后的句子特征矩阵作为Transformer编码器网络的输入,由Transformer编码器分别对其进行深层次语义编码,获得句子的全局语义特征;通过全连接网络和Softmax函数对特征进行权重调整,得到句子相似度。在中文医疗健康问句数据集上模型取得了90.2%的正确率,较对比模型提升了将近4.2%,验证了该方法可以有效提高句子的语义表示能力和语义相似度的准确性。 展开更多
关键词 自然语言处理 Transformer编码器 交互注意力机制 特征融合 语义相似 语义编码 句子表示
下载PDF
基于语义相似度匹配的C语言课程教学资源在线检索方法 被引量:2
13
作者 刘红 《信息与电脑》 2023年第15期234-236,共3页
为提升检索结果的精准性,提出基于语义相似度匹配的C语言课程教学资源在线检索方法,构建并扩展C语言课程教学资源本体,使得教学资源具备计算机可理解的语义,计算资源之间的语义相似度并进行匹配,实现C语言课程教学资源在线检索。实验结... 为提升检索结果的精准性,提出基于语义相似度匹配的C语言课程教学资源在线检索方法,构建并扩展C语言课程教学资源本体,使得教学资源具备计算机可理解的语义,计算资源之间的语义相似度并进行匹配,实现C语言课程教学资源在线检索。实验结果表明,设计方法检索C语言课程教学资源的查准率为96.23%。 展开更多
关键词 语义相似 C语言课程 教学资源 在线检索
下载PDF
融合双重语义相似度的混合协同过滤推荐算法 被引量:2
14
作者 张茂宇 李海明 《计算机工程与设计》 北大核心 2023年第9期2671-2678,共8页
为缓解协同过滤推荐算法面对评分数据稀疏的问题,提出一种融合双重语义相似度的混合协同过滤算法。利用用户语义信息构建用户知识图谱,并用TransE算法进行知识表示。计算用户语义相似度,并与基于用户的协同过滤进行融合推荐。使用Trans... 为缓解协同过滤推荐算法面对评分数据稀疏的问题,提出一种融合双重语义相似度的混合协同过滤算法。利用用户语义信息构建用户知识图谱,并用TransE算法进行知识表示。计算用户语义相似度,并与基于用户的协同过滤进行融合推荐。使用TransH算法对物品知识图谱进行知识表示。将物品语义相似度融入到基于物品的协同过滤中进行推荐。基于两种推荐结果进行混合推荐。实验结果表明,该算法有效缓解了协同过滤推荐算法面对数据稀疏的问题。 展开更多
关键词 语义信息 用户知识图谱 物品知识图谱 知识表示 语义相似 协同过滤 混合推荐
下载PDF
基于混合机器学习模型的短文本语义相似性度量算法 被引量:2
15
作者 韩开旭 袁淑芳 《吉林大学学报(理学版)》 CAS 北大核心 2023年第4期909-914,共6页
为提高短文本语义相似性度量准确性,设计一种基于混合机器学习模型的短文本语义相似性度量算法.先对短文本实施预处理,基于混合机器学习模型构建短文本的字词向量模型,对短文本进行特征扩展;然后组合短文本的多样度量特征,对多样度量特... 为提高短文本语义相似性度量准确性,设计一种基于混合机器学习模型的短文本语义相似性度量算法.先对短文本实施预处理,基于混合机器学习模型构建短文本的字词向量模型,对短文本进行特征扩展;然后组合短文本的多样度量特征,对多样度量特征进行维度规约;最后通过构建一个集成学习模型,计算语义相似性结果,实现语义相似性的度量.使用“Quora Question Pairs”比赛数据集测试该方法的性能,测试结果表明,该方法的准确性较高,对数损失和度量均方差均较低,说明该方法的相似性度量准确性较高. 展开更多
关键词 混合机器学习模型 短文本 文本分词 语义相似 卡方检验 相似性度量
下载PDF
基于本体的土地类别语义相似度综合计算方法
16
作者 刘会园 赵学胜 +2 位作者 杨玉莹 彭舒 丁月圆 《测绘与空间地理信息》 2023年第2期39-42,47,共5页
不同领域所采用的土地分类系统,在类别划分及定义方面存在一定的差异,导致不同系统之间的数据存在语义异质性问题,使跨系统数据难以共享和集成。为了从语义层面解决这个问题,以GlobeLand 30土地覆盖分类系统和《土地利用现状分类标准》(... 不同领域所采用的土地分类系统,在类别划分及定义方面存在一定的差异,导致不同系统之间的数据存在语义异质性问题,使跨系统数据难以共享和集成。为了从语义层面解决这个问题,以GlobeLand 30土地覆盖分类系统和《土地利用现状分类标准》(GB/T 21010-2017)2个典型分类系统为例,提出了1种基于本体的土地类别语义相似度综合计算方法。使用基于本体属性、基于本体距离和内容、传统综合方法、改进综合方法4种算法,计算了上述2类系统类别间的语义相似度并进行了对比分析。结果表明:4种算法结果的大体变化趋势一致,而本文综合方法的计算值更接近实际情况。该方法为语义异质性的评估提供了一种量化方案,也为跨领域的知识集成与共享提供参考。 展开更多
关键词 语义相似 本体 分类系统 土地覆盖 土地利用
下载PDF
基于注意力机制和语义相似度的跨模态哈希检索
17
作者 王鸿 葛红 《计算机与现代化》 2023年第8期44-53,共10页
现如今,跨模态哈希检索已被广泛且成功地应用于多媒体相似性搜索应用中。为进一步提高检索性能,针对现有深度哈希检索方法存在的2个主要问题:1)如何度量不同模态的相似度,更精确地表示模态间的相似性;2)如何融合多个模态的特征,得到更... 现如今,跨模态哈希检索已被广泛且成功地应用于多媒体相似性搜索应用中。为进一步提高检索性能,针对现有深度哈希检索方法存在的2个主要问题:1)如何度量不同模态的相似度,更精确地表示模态间的相似性;2)如何融合多个模态的特征,得到更丰富的特征表示,避免把多个模态单独处理,未考虑之间的联系造成的信息丢失。因此提出基于注意力机制和语义相似度的跨模态哈希检索方法(ASSH),该模型定义了新的多标签相似度衡量方法,对不同标签的重要程度加以区分,更好地表达不同模态的相似信息。设计注意力机制融合模块,使得其在特征学习过程中融合不同模态的特征,加强不同模态之间的交互,来捕捉不同模态的局部重要信息。本文在MIR-Flickr25k、IAPR TC-12、NUS-WIDE等广泛使用的图文数据集上进行实验,实验结果表明本文方法在各个问题模式下均超过之前的方法,在哈希码长度为16 bit时,与当前最好的检索方法相比平均检索精度(mAP)分别提升了1.1%、0.63%。同时,消融实验也充分证明了本文方法的有效性。 展开更多
关键词 跨模态检索 注意力机制 语义相似 哈希检索 特征融合
下载PDF
融合用户偏好与语义相似度的推荐算法
18
作者 刘恩博 顾春华 《软件导刊》 2023年第1期199-203,共5页
基于矩阵分解的协同过滤推荐算法能够挖掘用户偏好和隐含特征,但算法仅利用用户—项目评分矩阵,没有考虑实体之间的语义相似度。为了解决以上问题,提出一种融合用户偏好与语义相似度的推荐算法,首先采用知识图谱表示学习方法,将实体与... 基于矩阵分解的协同过滤推荐算法能够挖掘用户偏好和隐含特征,但算法仅利用用户—项目评分矩阵,没有考虑实体之间的语义相似度。为了解决以上问题,提出一种融合用户偏好与语义相似度的推荐算法,首先采用知识图谱表示学习方法,将实体与关系的语义数据嵌入到低维的语义空间,计算实体之间的语义相似度;然后在矩阵分解模型的目标函数中融合实体的语义相似度;最后将算法在公开电影数据集上进行测试。实验结果表明,该算法的推荐性能优于对比算法,推荐评价指标准确率、召回率、F1值平均提升了9.25%、5.54%、8.7%,弥补了传统推荐算法存在的不足,提升了推荐效果。 展开更多
关键词 推荐算法 语义相似 表示学习 知识图谱
下载PDF
基于朴素贝叶斯模型的单词语义相似度度量 被引量:12
19
作者 王俊华 左万利 闫昭 《计算机研究与发展》 EI CSCD 北大核心 2015年第7期1499-1509,共11页
单词语义相似度度量是自然语言处理领域的经典和热点问题.通过结合朴素贝叶斯模型和知识库,提出一个新颖的度量单词语义相似度度量途径.首先借助通用本体WordNet获取属性变量,然后使用统计和分段线性插值生成条件概率分布列,继而通过贝... 单词语义相似度度量是自然语言处理领域的经典和热点问题.通过结合朴素贝叶斯模型和知识库,提出一个新颖的度量单词语义相似度度量途径.首先借助通用本体WordNet获取属性变量,然后使用统计和分段线性插值生成条件概率分布列,继而通过贝叶斯推理实现信息融合获得后验概率,并在此基础上量化单词语义相似度.主要贡献是定义了单词对距离和深度,并将朴素贝叶斯模型用于单词语义相似度度量.在基准数据集R&G(65)上,对比算法评判结果与人类评判结果的相关度,采用5折交叉验证对算法进行分析,样本Pearson相关度达到0.912,比当前最优方法高出0.4%,比经典算法高出7%~13%;Spearman相关度达到0.873,比经典算法高出10%~20%;且算法的运行效率和经典算法相当.实验结果显示将朴素贝叶斯模型和知识库相结合解决单词语义相似度问题是合理有效的. 展开更多
关键词 单词语义相似 语义相似 分段线性插值 朴素贝叶斯模型 WORDNET
下载PDF
一种基于语义相似度的文本聚类算法 被引量:18
20
作者 孙爽 章勇 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2006年第6期712-716,共5页
文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出... 文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出了一种基于语义相似度的文本聚类算法——TCU SS(Text clustering usingsem an ticsim ilarity)算法。TCU SS算法将文档表示成概念列表,有效地解决了数据维数高和聚簇描述难的问题,并给出如何利用概念列表进行聚簇描述的方法。TCU SS算法利用两个概念列表中单词间的语义相似度作为文档间相近程度的度量,并以图为基础进行聚类分析,避免有些聚类算法对聚簇形状的限制。实验证明,TCU SS算法提高了聚类质量。 展开更多
关键词 文本聚类 语义相似 文本表示 语义相似度的文本聚类算法
下载PDF
上一页 1 2 51 下一页 到第
使用帮助 返回顶部