题名 一个基于向量空间模型的中文文本自动分类系统
被引量:45
1
作者
朱华宇
孙正兴
张福炎
机构
南京大学计算机软件新技术国家重点实验室
南京大学多媒体技术研究所
出处
《计算机工程》
CAS
CSCD
北大核心
2001年第2期15-17,63,共4页
基金
国家自然科学基金项目!(69903006)
江苏省"九五"重点科技攻关项目!(BE96017)
教育部高等学校骨干教师资助计划项目!(教技司[2
文摘
介绍了一个基于向量空间模型的中文文本自动分类系统,重点阐述了特征提取、空间降维、层次分类和分类器训练等技术的实现方法。实践表明:该系统对文本分类具有较高的平均查全率和平均精度。
关键词
中文文本自动分类系统
向量空间模型
自然语言处理
Keywords
Text categorization;Chinese text;Vector space model;Feature extraction
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
题名 基于字频向量的中文文本自动分类系统
被引量:17
2
作者
王梦云
曹素青
机构
山西大学成人教育学院
出处
《情报学报》
CSSCI
北大核心
2000年第6期644-649,共6页
文摘
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型 ,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习 ,实现了基于全局最小错误率的汉字—类别两个向量空间的映射函数 ,并用该函数对测试文本进行分类。
关键词
文本 分类
中文
自动 分类
字频向量
映射函数
语料库
汉字
分类号
G254
[文化科学—图书馆学]
题名 基于向量空间模型的文本自动分类系统的研究与实现
被引量:293
3
作者
庞剑锋
卜东波
白硕
机构
中国科学院计算技术研究所
出处
《计算机应用研究》
CSCD
北大核心
2001年第9期23-26,共4页
文摘
随着网络信息的迅猛发展 ,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向 ,它是指在给定的分类体系下 ,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术 ,包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨 ,并且提出了基于向量空间模型的文本分类系统的结构 。
关键词
中文 信息处理
向量空间模型
文本 自动 分类 系统
人工智能
计算机
Keywords
Text categorization
Chinese information processing
Vector space model
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
题名 中文文档自动分类系统的设计与实现
被引量:45
4
作者
邹涛
王继成
黄源
张福炎
机构
南京大学多媒体计算机研究所
出处
《中文信息学报》
CSCD
北大核心
1999年第3期26-32,共7页
基金
江办省科委九五科技攻关项目
文摘
文档自动分类是信息处理领域中的一项重要研究课题。本文阐述了一个中文文档自动分类系统的设计与实现,并着重介绍了系统实现中的一些主要技术问题的处理,如文本分类模型、特征提取、词典构造等。
关键词
VSM
特征提取
中文 文档
文档分类
自动 分类 系统
Keywords
Text ClassificationClassification ModelVSMFeature Selection
分类号
TP391
[自动化与计算机技术—计算机应用技术]
G254.1
[文化科学—图书馆学]
题名 中文文本的关键词自动抽取和模糊分类
被引量:54
5
作者
何新贵
彭甫阳
机构
北京系统工程研究所
出处
《中文信息学报》
CSCD
北大核心
1999年第1期9-15,共7页
文摘
本文提出了中文文本分类的两种模糊方法,一种基于模糊集间的语义距离[2],一种基于本文中提出的‘模糊分类网络’。两者都必须首先从文本中抽取关键词集合,本文给出了一种主要采用统计方法结合受限自然语言理解技术的模糊关键词集合提取方法,它与模糊分类方法结合,可望达到文本信息的自动分类。所提出的方法同样适合于模式识别之类问题的解决。
关键词
中文 文本
分类
关键词
自动 抽取
模糊分类
Keywords
Text Classification Fuzzy
method Fuzzy classification network Semantic distance
分类号
TP391
[自动化与计算机技术—计算机应用技术]
G254.2
[文化科学—图书馆学]
题名 基于支持向量机的中文文本自动分类研究
被引量:25
6
作者
都云琪
肖诗斌
机构
西安电子科技大学计算机学院
北京信息工程学院中文信息处理研究中心
出处
《计算机工程》
CAS
CSCD
北大核心
2002年第11期137-138,F003,共3页
文摘
根据文本数据学习的特点,采用线性支持向量机(LSVM)学习算法,实现了一个中文文本自动分类系统,并对该系统进行了针对大规模真实文本的试验测试。结果发现,系统的招回率较低,而准确率较高,该文对此结果进行了分析,并提出了一种采用训练中拒识样本信息对分类器输出进行改进的方法,试验表明,该方法有效地提高了系统的性能,取得了令人满意的结果。
关键词
支持向量机
中文 文本
自动 分类
招回率
准确率
学习算法
中文 信息处理
Keywords
Text categorizaiton;Linear support vector machine(LSVM);Recall;Precision
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
题名 一个中文文本自动分类数学模型
被引量:18
7
作者
曹素青
曾伏虎
曹焕光
机构
山西大学
出处
《情报学报》
CSSCI
北大核心
1999年第1期27-32,共6页
文摘
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类。
关键词
中文 文本
自动 分类
字频向量
映射函数
Keywords
automatic Chinese text categorization,Chinese character frequency vector,example based mapping method.
分类号
G254.1
[文化科学—图书馆学]
题名 基于矢量空间模型的文本自动分类系统研究
被引量:6
8
作者
包剑
冀常鹏
李义杰
机构
辽宁工程技术大学电子与信息工程系
出处
《计算机系统应用》
2005年第3期47-49,共3页
文摘
随着互联网及其信息服务的快速增长,对于网络信息资源的获取越来越重要,而面向Web的文本挖掘技术的发展及应用对于解决这一问题将会起到极其重要的影响。通过分析文本自动分类的关键理论及技术,给出基于矢量空间模型的文本自动分类系统的执行过程,给出了系统的实现算法,提高了系统的精度和效率。
关键词
文本 自动 分类
矢量空间模型
文本 挖掘
实现算法
系统
互联网
快速
网络信息资源
信息服务
获取
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
题名 一个面向文本分类的中文特征词自动抽取方法
被引量:4
9
作者
付德宇
代成琴
机构
哈尔滨工业大学信息与网络中心
出处
《计算机工程与应用》
CSCD
北大核心
2006年第15期165-167,共3页
文摘
文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点,设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法,并通过实验与传统的词典分词法进行了比较,结果表明,这种方法对于中高频词条的识别率接近于词典分词法,而分词速度则远远高于词典分词法,能够满足对大规模开放域文本进行快速特征词自动抽取的需求。
关键词
中文 特征词自动 抽取
文本 分类
汉字结合模式
Keywords
Chinese lexical items' extraction,text categorization,combination patterns of Chinese characters
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 中文文本自动分类研究进展
被引量:7
10
作者
王闰强
胡铁军
机构
中国医学科学院医学信息研究所
出处
《医学情报工作》
2002年第6期342-345,347,共5页
文摘
简要回顾了文本自动分类研究的发展史,对现有的中文文本分类技术和分类系统进行了分析与比较,同时讨论了目前主要的几种自动分类算法,在此基础上指出了当前中文文本自动分类研究存在的不足和今后研究的重点。最后指出了加强各类电子词典的建设是促进自动分类技术不断成熟并被广泛应用的一个重要工作。
关键词
文本 分类
自动 分类
分类 算法
中文 文本
向量空间模型
潜在语义索引
自然语言处理
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 面向搜索引擎的文本自动分类系统实现
被引量:1
11
作者
许璐蕾
机构
苏州市职业大学计算机工程系
出处
《苏州市职业大学学报》
2007年第4期79-81,共3页
文摘
文本自动分类是搜索引擎研究领域的一个新热点。立足于实验性的小型搜索引擎,整合免费资源和多种开源工具,快速构建一个可供学校实验室科研、教学使用的文本分类器,并通过实验验证了方案的可行性。
关键词
中文 信息处理
搜索引擎
文本 自动 分类
机器学习
Keywords
Chinese information process
search engine
automatic text categorization
machine learning
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 一种中文文本自动分类方法的研究
12
作者
尹桂秀
机构
湘潭大学图书馆
出处
《情报理论与实践》
CSSCI
北大核心
2002年第2期115-116,122,共3页
文摘
This article introduces a Chinese text automatic classification method,including its principle and classification process.The article focuses on some key theoretical problems,such as word classification,keyword collection and keyword matching.
关键词
中文 文本
自动 分类
分词技术
数据挖掘技术
预处理
特征表示
特征提取
特征匹配
Keywords
text mining
data mining
automatic classificatin
分类号
G254.1
[文化科学—图书馆学]
题名 中文文本自动分类中的特征选择改进与研究
13
作者
张振浩
周奇年
杨继慧
徐登彩
机构
浙江理工大学信息学院
浙江理工大学图书馆
出处
《工业控制计算机》
2012年第11期89-90,92,共3页
文摘
特征选择是中文文本分类过程中的一个关键环节,文本特征项选择的优劣将直接影响文本分类的准确率。针对传统的特征选择算法没有考虑到特征项的类别区分度在特征选择中的作用而丧失了一些优秀的特征项的问题,文中通过引入特征项的类别区分度对传统的特征选择算法进行改进。实验结果表明,改进方法的分类效果要好于传统方法,从而验证了改进方法的有效性和可行性。
关键词
中文 文本 自动 分类
特征选择
类别区分度
互信息
期望交叉熵
Keywords
chinese automatic text categorization,term feature selection,class discriminating degree,excepted cross entropy,mutual information
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 中文文本词性自动校对系统的实现
14
作者
钱揖丽
郑家恒
机构
山西大学
出处
《电脑开发与应用》
2004年第1期25-27,共3页
基金
国家 8 6 3高技术研究发展计划基金资助 ( 2 0 0 1 AA1 1 4 0 31 )
文摘
提出了一种从正确标注的训练语料中自动获取兼类词词性较对规则的方法 ,并设计和实现了相应的词性自动校对系统。通过对中文文本进行自动校对 。
关键词
中文 信息处理
中文 文本 词性
自动 校对系统
语料库
属性约简
Keywords
Chinese text,Partofspeech,automatic correction,Partofspeech tagging,multicatgeory words
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
题名 基于内容的中文网页自动分类系统
15
作者
孙瑶琴
机构
浙江农业商贸职业学院〈筹〉
出处
《中国校外教育》
2009年第7期161-161,共1页
文摘
文章阐述了国内在基于内容的中文网页自动分类方面所做研究工作的发展现状,分析了已有工作的特点;在此基础上,结合自己的工作提出了一个基于内容的中文网页自动分类系统分析。给出了系统的总体结构设计思想和总体结构框架,以及组成系统的各个模块的功能和结构描述。按照该系统的设计思想和进一步的详细设计可以搭建一个系统化的、功能较为全面的、具有较高效率的中文网页自动分类系统平台。
关键词
中文 网页自动 分类 系统
文本
特征
分类 器
测试
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
TP391
[自动化与计算机技术—计算机应用技术]
题名 网络文本自动分类系统的研究与设计
被引量:9
16
作者
牛忠兰
陈跃新
徐正同
潘鲁军
机构
国防科大计算机学院
济南军区技术局
出处
《微处理机》
2002年第2期41-43,共3页
文摘
近年来 ,随着 Internet的飞速发展 ,人们可以突破地域的限制 ,方便地共享信息资源。但如何从大量信息中迅速有效地提取出所需信息却成了一个难题 ,信息的自动分类是解决此类难题的有效方法。本文从网络文本自动分类的需求出发 ,探讨分类系统的一些主要特征及优化算法 。
关键词
网络文本 自动 分类 系统
设计
特征提取
分类 器
INTENET
Keywords
text classification,feature extraction,categorizer,match arithmetic
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
题名 中文文本自动分类技术的研究
被引量:2
17
作者
余坎
机构
武汉理工大学
出处
《理工高教研究》
2008年第4期140-142,共3页
文摘
文本自动分类技术是随着网络信息化而发展起来的。它的作用是将各地海量的电子资源通过网络联系在一起,实现资源共享。本文通过对自动分类技术的类型及基本概念的概述,提出了自动分类中两种重要的算法技术。
关键词
中文 文本
自动 分类
文档检索
Keywords
Chinese text
automatic sorting
document retrieval
分类号
G354.4
[文化科学—情报学]
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于统计分词的中文文本分类系统
被引量:1
18
作者
D吴雅娟
柳培林
丁子睿
机构
大庆石油学院计算机与信息技术学院
大庆石油管理局通信公司
出处
《电脑知识与技术》
2005年第4期71-74,共4页
文摘
本文阐述了一个中文文本分类系统的设计和实现,对文本分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细介绍,将基于统计的二元分词方法应用于中文文本分类,并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,实现了在事先没有词表的情况下,通过统计构造单字及二字词词表,从而对文本进行分词,然后再进行文本的分类。
关键词
分类 系统
分词
中文 文本 分类
系统 结构
特征提取
训练算法
详细介绍
分类 算法
方法应用
分类 方法
统计特性
词表
Keywords
Chinese Text Classification
Statistical Word Segmentation
Feature selection
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
Q949.751.9
[生物学—植物学]
题名 中文文本自动校对技术研究及系统组成
19
作者
刘晶茹
王开铸
机构
哈尔滨铁路工程学校
哈尔滨工业大学计算机科学与工程系
出处
《电脑学习》
1999年第6期4-5,共2页
文摘
对文本自动校对国内外发展现状进行描述,针对中文文本出现错误的状况进行分析,提出了查错、纠错的两类自动校对技术:基于语料统计的词的匹配校术和基于自然语言理解的理解技术。给出了中文文本自动校对系统的组成及关键技术。
关键词
中文 文本
自动 校对
系统 组成
语言文字处理
Keywords
Chinese text automatic proofreading technique system composition
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于文本特征识别的医院电子档案自动分类系统设计
20
作者
刘伟
机构
曲阜市人民医院
出处
《信息与电脑》
2023年第23期171-173,共3页
文摘
随着医疗信息化的快速发展,医院电子档案的数量迅速增长,急需有效的管理与分类系统来提高工作效率和数据质量。传统的手动分类方法不仅耗时且易出错,严重影响了医院信息系统的运行效率和服务质量。因此,设计一个基于文本特征识别的自动分类系统显得尤为重要。文章旨在设计并实现一个高效的医院电子档案自动分类系统,通过利用先进的文本处理技术和算法,实现高效准确的档案管理。
关键词
文本 特征识别
医院电子档案
自动 分类 系统
Keywords
text feature identification
hospital electronic file
automatic classification system
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
R197.323
[医药卫生—卫生事业管理]