期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
运用文本领域的常识改善基于支撑向量机的文本分类器性能 被引量:16
1
作者 李辉 史忠植 许卓群 《中文信息学报》 CSCD 北大核心 2002年第2期7-13,共7页
本文提出了一种提高中文文本分类器推广性能的方法。一般而言 ,采用机器学习的方法对文本集合进行训练 ,可以获得文本分类器。本文引入了文本语义不变性常识 ,并将其融合到文本分类器中 ,提出了改进文本分类器的方法。与支撑向量机相结... 本文提出了一种提高中文文本分类器推广性能的方法。一般而言 ,采用机器学习的方法对文本集合进行训练 ,可以获得文本分类器。本文引入了文本语义不变性常识 ,并将其融合到文本分类器中 ,提出了改进文本分类器的方法。与支撑向量机相结合 ,设计并实现了改进的文本分类器。对中文文本分类的实验表明 。 展开更多
关键词 文本分类器 同语义文档子段替换 人工文档样本 相容性条件 支撑向量机 文本信息机理
下载PDF
文本分类器准确性评估方法 被引量:13
2
作者 程泽凯 林士敏 《情报学报》 CSSCI 北大核心 2004年第5期631-636,共6页
随着计算机网络与信息技术的飞速发展,信息极大丰富而知识相对匮乏的状况在加剧.文本挖掘正成为目前研究者关注的焦点.文本分类是文本挖掘的基础和核心.构建一个分类准确的文本分类器是文本分类的关键.现在有很多文本分类的算法,在不同... 随着计算机网络与信息技术的飞速发展,信息极大丰富而知识相对匮乏的状况在加剧.文本挖掘正成为目前研究者关注的焦点.文本分类是文本挖掘的基础和核心.构建一个分类准确的文本分类器是文本分类的关键.现在有很多文本分类的算法,在不同的领域里取得了较好的效果.如何更加客观地评估分类器的性能,是目前值得研究的方向之一.结合作者的实际工作,本文列出目前常用的分类准确性测试和评估方法,简单对评估方法进行比较分析.文末提出了对准确性评估的一些改进设想. 展开更多
关键词 文本挖掘 文本分类器 准确性评估 评估方法 数据挖掘
下载PDF
中文文本分类器的设计 被引量:10
3
作者 陆建江 张文献 《计算机工程与应用》 CSCD 北大核心 2002年第15期49-51,共3页
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类型的过程。文章应用球形的k-均值算法确定每个文本的类标签,并通过Boosting算法构建分类器。构建的分类器具有以下特点:分类器的设计针对未知类标签的语料库,实用性好;分类... 文本分类是指在给定分类体系下,根据文本的内容自动确定文本类型的过程。文章应用球形的k-均值算法确定每个文本的类标签,并通过Boosting算法构建分类器。构建的分类器具有以下特点:分类器的设计针对未知类标签的语料库,实用性好;分类器能随着语料库中文本的变化而增加新的类,具有很好的可扩展性;分类器基于Boosting算法,具有很好的分类精度。 展开更多
关键词 中文文本分类器 设计 机器学习 BOOSTING算法 自然语言处理
下载PDF
文本分类器稳定性评估研究 被引量:3
4
作者 程泽凯 林士敏 《情报学报》 CSSCI 北大核心 2005年第1期64-68,共5页
文本分类是文本挖掘的基础和核心.构建一个分类准确而且稳定的文本分类器是文本分类的关键,很多学者提出了不同的文本分类器模型和算法.在现有的分类器评估方法中,关心的只是分类准确率,而对稳定性这个重要的评价标准却没有涉及.本文提... 文本分类是文本挖掘的基础和核心.构建一个分类准确而且稳定的文本分类器是文本分类的关键,很多学者提出了不同的文本分类器模型和算法.在现有的分类器评估方法中,关心的只是分类准确率,而对稳定性这个重要的评价标准却没有涉及.本文提出使用开放测试和封闭测试的准确性指标的比值作为衡量文本分类器稳定性的评估标准.通过文献数据验证以及在所建构的贝叶斯分类器实验平台MBNC上进行的检验表明,用这种标准评价文本分类器具有其合理性. 展开更多
关键词 文本分类器 贝叶斯分类器 文本挖掘 数据验证 实验平台 算法 测试 评估标准 评价标准 关心
下载PDF
基于Boost和信任函数的多文本分类器组合模型 被引量:1
5
作者 王爱华 张铭 +1 位作者 杨冬青 唐世渭 《计算机工程与应用》 CSCD 北大核心 2002年第2期51-54,共4页
人们对文本分类已经进行了大量的研究,取得很多研究成果,设计多种分类器,达到相当高的分类精确度。但使用单分类器进行文本分类有一些缺点,如分类模型对样本的敏感性,而且单分类器的分类精度很难再有很大的提高。因此,使用多分类器以提... 人们对文本分类已经进行了大量的研究,取得很多研究成果,设计多种分类器,达到相当高的分类精确度。但使用单分类器进行文本分类有一些缺点,如分类模型对样本的敏感性,而且单分类器的分类精度很难再有很大的提高。因此,使用多分类器以提高分类的精度是一个非常活跃的研究领域。文章提出使用近年在传统概率统计方法之上发展起来的信任函数理论和方法对多个文本分类器进行组合使用。具体方法是使用信任函数将分类结果进行综合,得到最终的分类结果。实验证明,基于信任函数的信息综合方法比已有的方法更合理,精度也得到提高。 展开更多
关键词 BOOST 信任函数 文本分类器组合模型 文档管理 信息处理
下载PDF
DocOnto--一种基于本体的文本分类器 被引量:1
6
作者 杨喜权 孙娜 +1 位作者 张野 孔德冉 《计算机应用》 CSCD 北大核心 2008年第S2期58-60,64,共4页
基于概念类别属性,在Protege平台下构建了茶领域本体,并实现基于茶领域本体的DocOnto文本分类器。在该分类器上对茶文档、酒文档和比萨文档进行分类实验,并与朴素贝叶斯分类器的实验结果对比,表明DocOnto分类器在综合查准率相当的情况下... 基于概念类别属性,在Protege平台下构建了茶领域本体,并实现基于茶领域本体的DocOnto文本分类器。在该分类器上对茶文档、酒文档和比萨文档进行分类实验,并与朴素贝叶斯分类器的实验结果对比,表明DocOnto分类器在综合查准率相当的情况下,有效地提高召回率,获得更高的F1指标。 展开更多
关键词 文本分类器 领域本体 贝叶斯分类器
下载PDF
基于模糊聚类和Naive Bayes方法的文本分类器 被引量:1
7
作者 杨岳湘 田艳芳 王韶红 《计算机工程与科学》 CSCD 2002年第5期18-21,共4页
本文提出一种文本分类的新方法 ,该方法将模糊聚类与基于NaiveBayes的EM分类算法相结合 ,从而大大提高了EM分类算法的准确性 ,并解决了使用字符匹配引起的不完整性和不准确性问题。该方法首先给出每个类的一些关键词 ,并把这些关键词作... 本文提出一种文本分类的新方法 ,该方法将模糊聚类与基于NaiveBayes的EM分类算法相结合 ,从而大大提高了EM分类算法的准确性 ,并解决了使用字符匹配引起的不完整性和不准确性问题。该方法首先给出每个类的一些关键词 ,并把这些关键词作为聚类中心进行聚类 。 展开更多
关键词 模糊聚类 NAIVE BAYES方法 文本分类器 聚类中心 神经网络
下载PDF
一种带潜在类别主题词的简单贝叶斯文本分类器 被引量:2
8
作者 马光志 张汇 《微计算机应用》 2004年第4期471-474,共4页
简单贝叶斯器是一种有效的文本分类方法。文中提出一种改进的简单贝叶斯文本分类器。即利用有限次的迭代来提升分类的精度 ,在迭代过程中 ,为每个分类实例引入了一个权值系数和一个呆滞系数 ,经过一次迭代 ,两个系数就会相应的改变 ,体... 简单贝叶斯器是一种有效的文本分类方法。文中提出一种改进的简单贝叶斯文本分类器。即利用有限次的迭代来提升分类的精度 ,在迭代过程中 ,为每个分类实例引入了一个权值系数和一个呆滞系数 ,经过一次迭代 ,两个系数就会相应的改变 ,体现了提升的思想。最终的分类结果则是整个迭代结果的综合。 展开更多
关键词 模式识别 文本分类方法 简单贝叶斯文本分类器 权值系数
下载PDF
一个基于非法文本用词特征分析的文本分类器 被引量:1
9
作者 李东艳 张永奎 《电脑开发与应用》 2006年第10期2-3,6,共3页
针对互联网中的不健康内容,通过对这类文本中用词特征的形式及出现频率的统计与分析,提出一种基于符号密度计算的特殊的自动识别算法。首先通过对训练文本的统计,得到初始特殊词表作为识别的基础。在进行文本分类时,利用包含两次筛选的... 针对互联网中的不健康内容,通过对这类文本中用词特征的形式及出现频率的统计与分析,提出一种基于符号密度计算的特殊的自动识别算法。首先通过对训练文本的统计,得到初始特殊词表作为识别的基础。在进行文本分类时,利用包含两次筛选的特殊词自动识别算法动态更新特殊词表及其权值,从而将特殊词信息与二分文本分类器相结合,提高对不健康文本的识别精度。结果表明,加入特殊词自动识别及判断,有效地提高了非法文本的识别精度。 展开更多
关键词 特殊词 特征分析 符号密度 自动识别 二分文本分类器
下载PDF
基于模糊模式识别的中文文本分类器的设计与实现 被引量:1
10
作者 武子英 《科技情报开发与经济》 2005年第16期228-230,共3页
文本自动分类系统是信息处理的重要研究方向,在文献检索、信息过滤和文本管理等领域中有着广泛的应用。介绍了一种基于模糊模式识别以及向量空间模型提取特征向量的中文文本分类器的设计与实现。
关键词 文本分类器 模糊模式识别 特征向量 贴近度
下载PDF
基于多种特征选择的NB组合文本分类器设计
11
作者 樊康新 《计算机工程》 CAS CSCD 北大核心 2009年第24期191-193,共3页
针对朴素贝叶斯(NB)分类器在分类过程中存在诸如分类模型对样本具有敏感性、分类精度难以提高等缺陷,提出一种基于多种特征选择方法的NB组合文本分类器方法。依据Boosting分类算法,采用多种不同的特征选择方法建立文本的特征词集,训练N... 针对朴素贝叶斯(NB)分类器在分类过程中存在诸如分类模型对样本具有敏感性、分类精度难以提高等缺陷,提出一种基于多种特征选择方法的NB组合文本分类器方法。依据Boosting分类算法,采用多种不同的特征选择方法建立文本的特征词集,训练NB分类器作为Boosting迭代过程的基分类器,通过对基分类器的加权投票生成最终的NB组合文本分类器。实验结果表明,该组合分类器较单NB文本分类器具有更好的分类性能。 展开更多
关键词 特征选择 朴素贝叶斯 组合文本分类器 BOOSTING算法
下载PDF
基于朴素贝叶斯的渔业文本分类器研究 被引量:2
12
作者 邵乐 于红 +2 位作者 刘溪婧 綦孝姬 梁晓娜 《大连水产学院学报》 CSCD 北大核心 2010年第1期45-48,共4页
通过阐述朴素贝叶斯文本分类器的算法原理及其用于建立渔业文本分类器的优点,给出了基于朴素贝叶斯的渔业文本分类器的基本结构,并用实验验证了该结构的性能。结果表明,基于渔业词库的朴素贝叶斯渔业文本分类器具有比普通文本分类器更... 通过阐述朴素贝叶斯文本分类器的算法原理及其用于建立渔业文本分类器的优点,给出了基于朴素贝叶斯的渔业文本分类器的基本结构,并用实验验证了该结构的性能。结果表明,基于渔业词库的朴素贝叶斯渔业文本分类器具有比普通文本分类器更好的性能。 展开更多
关键词 渔业 文本分类器 朴素贝叶斯
下载PDF
一种基于迭代学习的文本分类器构造方法
13
作者 檀林 张永奎 《电脑开发与应用》 2004年第2期5-6,共2页
文本自动分类系统是信息处理的重要研究方向。针对文本分错类和相似度低找不到合适类别等两种错误 ,提出一种迭代的学习算法 ,它利用分错的文本向量来提高或降低相应类别向量的权重 ,从而纠正分类错误 ,提高了分类准确率 ,并且最终得到... 文本自动分类系统是信息处理的重要研究方向。针对文本分错类和相似度低找不到合适类别等两种错误 ,提出一种迭代的学习算法 ,它利用分错的文本向量来提高或降低相应类别向量的权重 ,从而纠正分类错误 ,提高了分类准确率 ,并且最终得到了较精确的类别描述向量和较优的分类器。 展开更多
关键词 迭代学习 文本分类器 信息处理 度量函数 特征抽取
下载PDF
基于神经网络算法的文本分类器研究
14
作者 李淑鹏 《软件导刊》 2007年第12期102-103,共2页
文本自动分类是目前最常用的文本信息自动处理技术,也是人工智能、自然语言处理和信息检索领域的研究热点。对文本自动分类所涉及的相关问题进行了全面论述,并简单介绍了基于神经网络的文本分类器的设计与实现。
关键词 神经网络 神经网络算法 文本分类 文本分类器 特征提取
下载PDF
一种新颖的基于马氏距离的文本分类方法的研究 被引量:4
15
作者 张素莉 潘欣 《长春工程学院学报(自然科学版)》 2011年第2期102-105,共4页
KNN(k最近邻算法)是文本挖掘领域最成熟最简单的分类方法之一。该方法对文本分类中的距离参数的选取敏感,错误的选择将导致分类精度降低,影响最终分类效果,该缺陷限制了KNN分类器在文本数据挖掘中的应用。因此,本文将马氏距离引入到文... KNN(k最近邻算法)是文本挖掘领域最成熟最简单的分类方法之一。该方法对文本分类中的距离参数的选取敏感,错误的选择将导致分类精度降低,影响最终分类效果,该缺陷限制了KNN分类器在文本数据挖掘中的应用。因此,本文将马氏距离引入到文本分类领域,并将其与KNN算法相结合,提出了一种基于马氏距离的新的文本分类方法(Mahalanobis distance-KNN,MDKNN),该方法克服KNN算法对距离函数的敏感性。实验表明,与传统的KNN和Naive Bayes分类算法相比,该方法在文本分类的精度和稳定性上有所提高。 展开更多
关键词 马氏距离 KNN分类器 文本分类器
下载PDF
基于大数据挖掘技术的文本分类研究 被引量:6
16
作者 孟鑫淼 《现代电子技术》 北大核心 2020年第17期126-129,共4页
文本数据具有规模大、特征维数高等特点,当前文本分类方法无法刻画文本变化特点,使得文本分类正确率低、误差大、分类时间长,为了获得理想的文本分类效果,设计基于大数据挖掘技术的文本分类方法。首先对当前文本分类的研究进展进行分析... 文本数据具有规模大、特征维数高等特点,当前文本分类方法无法刻画文本变化特点,使得文本分类正确率低、误差大、分类时间长,为了获得理想的文本分类效果,设计基于大数据挖掘技术的文本分类方法。首先对当前文本分类的研究进展进行分析,找出导致当前文本分类效果差的原因;然后,提取文本分类原始特征,并引入核主成分分析算法对原始特征进行处理,降低特征维数,简化文本分类器的结构;最后,采用大数据挖掘技术构建文本分类器,并与其他文本分类方法进行对比测试。测试结果表明,所提方法可以更好地描述文本变化特点,能够对各种类型文本进行准确识别和分类,文本分类精度超过95%,明显高于当前其他文本分类方法,并且所提方法的文本分类时间显著减少,具有更好的文本分类效果。 展开更多
关键词 大规模文本数据 高维特征 大数据挖掘技术 文本分类器 分类精度 分类时间
下载PDF
基于特征相关的改进加权朴素贝叶斯分类算法 被引量:30
17
作者 饶丽丽 刘雄辉 张东站 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第4期682-685,共4页
朴素贝叶斯分类算法的特征项间强独立性的假设在现实中是很难满足的.为了在一定程度上放松这一假设,提出了基于特征相关的改进加权朴素贝叶斯分类算法,该算法采用一种新的权重计算方法,这种权重计算方法是在传统词频-反文档频率(TF-IDF... 朴素贝叶斯分类算法的特征项间强独立性的假设在现实中是很难满足的.为了在一定程度上放松这一假设,提出了基于特征相关的改进加权朴素贝叶斯分类算法,该算法采用一种新的权重计算方法,这种权重计算方法是在传统词频-反文档频率(TF-IDF)权重计算基础上,考虑到特征项在类内和类间的分布情况,另外还结合特征项间的相关度,调整权重计算值,加大最能代表所属类的特征项的权重,将它称之为TF-IDF-FC权重计算.与基于传统TF-IDF权重的加权朴素贝叶斯分类算法和其他常用加权朴素贝叶斯分类算法比较,如基于属性加权的朴素贝叶斯分类算法,这种算法的分类效果均有一定的提高. 展开更多
关键词 朴素贝叶斯文本分类器 加权朴素贝叶斯文本分类算法 TF—IDF权重 特征项间的相关度
下载PDF
基于语义的文本信息安全过滤平台 被引量:2
18
作者 李新 《信息化研究》 2009年第6期15-20,23,共7页
信息安全是人们关注的焦点,从传统的基于行为的安全向基于内容本身的安全不断发展,信息安全的外延在不断扩大。Internet提供的海量、庞杂的信息中,不良信息以不同的表现形式,从不同的角度对不同人群造成毒害或干扰。因此,对网络访问进... 信息安全是人们关注的焦点,从传统的基于行为的安全向基于内容本身的安全不断发展,信息安全的外延在不断扩大。Internet提供的海量、庞杂的信息中,不良信息以不同的表现形式,从不同的角度对不同人群造成毒害或干扰。因此,对网络访问进行必要的、有效的内容过滤是营造健康安全网络环境的重要环节。但是,传统的文本信息过滤算法仅能实现结构对应层次上的判断,无法体现文本的语义,过滤效果难以满足智能化的要求。文中结合计算机语言学知识,提出并实现了一种语义分析的过滤方法,对于那些冗长文本中因为分散存在的关键字而造成的假匹配,通过语义分析,可以很好地甄别处理,从而提高系统的召回率。 展开更多
关键词 信息安全 语义过滤 分词 文本分类器
下载PDF
基于共识和分类改善文档聚类的识别信息方法 被引量:6
19
作者 王留洋 俞扬信 +1 位作者 陈伯伦 章慧 《计算机应用》 CSCD 北大核心 2020年第4期1069-1073,共5页
不同的聚类算法用于设计各自的策略,然而,每种技术在执行特定数据集时都有一定的局限性。选择恰当的识别信息方法(DIM)可确保文档聚类的进行。针对这些问题提出一种基于共识和分类的文档聚类(DCCC)的DIM。首先,选择识别信息最大化聚类(C... 不同的聚类算法用于设计各自的策略,然而,每种技术在执行特定数据集时都有一定的局限性。选择恰当的识别信息方法(DIM)可确保文档聚类的进行。针对这些问题提出一种基于共识和分类的文档聚类(DCCC)的DIM。首先,选择识别信息最大化聚类(CDIM)作为数据集生成初始聚类的解决方法,并使用两种不同的CDIM方法生成两个初始聚集;其次,使用不同的参数方法对两初始聚集再进行初始化,通过簇标签信息间的关系建立共识,最大限度地提高文档的识别数总和;最后,选择识别文本权重分类(DTWC)作为文本分类器给共识分配新的簇标签,通过训练文本分类器更改基础分区,并根据预报标签信息生成最后的分区。采用8个网络数据集进行实验,选择BCubed的精度和召回率指标进行聚类验证。实验结果表明,所提出的共识分类方法的聚类结果优于对比方法的聚类结果。 展开更多
关键词 共识聚类 文档聚类 识别信息 簇标签 文本分类器
下载PDF
基于候选链接主题边缘文本的主题爬虫研究
20
作者 张环 《山东师范大学学报(自然科学版)》 CAS 2018年第4期421-426,共6页
针对基于文本内容的主题爬虫算法引入过多无关特征属性以及没有考虑出现频次不同的特征属性对相关性判定影响的不足,提出一种基于候选链接主题边缘文本的主题爬虫.使用杜威十进分类法提取锚文本关键词和与锚文本关键词词义相近的网页正... 针对基于文本内容的主题爬虫算法引入过多无关特征属性以及没有考虑出现频次不同的特征属性对相关性判定影响的不足,提出一种基于候选链接主题边缘文本的主题爬虫.使用杜威十进分类法提取锚文本关键词和与锚文本关键词词义相近的网页正文中的关键词,称为候选链接主题边缘文本.在使用朴素贝叶斯分类器进行相关性判定时,对出现频次不同的特征属性进行加权,获取的候选链接按照判定结果的大小顺序存入队列等待下一轮的访问.实验结果表明,该爬虫有效提高了相关网页获取的准确性. 展开更多
关键词 主题爬虫 候选链接 杜威十进分类 朴素贝叶斯文本分类器
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部