期刊文献+
共找到259篇文章
< 1 2 13 >
每页显示 20 50 100
Application of the probability-based covering algorithm model in text classification
1
作者 ZHOU Ying 《Chinese Journal of Library and Information Science》 2009年第4期1-17,共17页
The probability-based covering algorithm(PBCA) is a new algorithm based on probability distribution. It decides, by voting, the class of the tested samples on the border of the coverage area, based on the probability ... The probability-based covering algorithm(PBCA) is a new algorithm based on probability distribution. It decides, by voting, the class of the tested samples on the border of the coverage area, based on the probability of training samples. When using the original covering algorithm(CA), many tested samples that are located on the border of the coverage cannot be classified by the spherical neighborhood gained. The network structure of PBCA is a mixed structure composed of both a feed-forward network and a feedback network. By using this method of adding some heterogeneous samples and enlarging the coverage radius,it is possible to decrease the number of rejected samples and improve the rate of recognition accuracy. Relevant computer experiments indicate that the algorithm improves the study precision and achieves reasonably good results in text classification. 展开更多
关键词 Probability-based covering algorithm Structural training algorithm PROBABILITY text classification
原文传递
An Effective Concept Extraction Method for Improving Text Classification Performance
2
作者 ZHANGYuntao GONGLing +1 位作者 WANGYongcheng YINZhonghang 《Geo-Spatial Information Science》 2003年第4期66-72,共7页
This paper presents anew way to extract concept that can beused to improve text classification per-formance (precision and recall). Thecomputational measure will be dividedinto two layers. The bottom layercalled docum... This paper presents anew way to extract concept that can beused to improve text classification per-formance (precision and recall). Thecomputational measure will be dividedinto two layers. The bottom layercalled document layer is concernedwith extracting the concepts of parti-cular document and the upper layercalled category layer is with findingthe description and subject concepts ofparticular category. The relevant im-plementation algorithm that dramatic-ally decreases the search space is dis-cussed in detail. The experiment basedon real-world data collected from Info-Bank shows that the approach is supe-rior to the traditional ones. 展开更多
关键词 text classification concept extraction characteristic term associationrule algorithm
下载PDF
Automatic Arabic Document Classification Based on the HRWiTD Algorithm
3
作者 Ehsan Othman Ayoub Al-Hamadi 《Journal of Software Engineering and Applications》 2018年第4期167-179,共13页
The documents contain a large amount of valuable knowledge on various subjects and, more recently, documents on the Internet are available from various sources. Therefore, automatic, rapid and accurate classification ... The documents contain a large amount of valuable knowledge on various subjects and, more recently, documents on the Internet are available from various sources. Therefore, automatic, rapid and accurate classification of these documents with less human interaction has become necessary. In this paper, we introduce a new algorithm called the highest repetition of words in a text document (HRWiTD) to classify the automatic Arabic text. The corpus is divided into a train set and a test set to be applied to proposed classification technique. The train set is analyzed for learning and the learning data is stored in the Learning Dataset file. The category that contains the highest repetition for each word is assigned as a category for the word in Learning Dataset file. This file includes non-duplicate words with the value of higher repetition and categories and they get from all texts in the train set. For each text in the test set, the category of words is assigned to a specific category by using Learning Dataset file. The category that contains the largest number of words is assigned as the predicted category of the text. To evaluate the classification accuracy of the HRWiTD algorithm, the confusion matrix method is used. The HRWiTD algorithm has been applied to convergent samples from six categories of Arabic news at SPA (Saudi Press Agency). As a result, the accuracy of the HRWiTD algorithm is 86.84%. In addition, we used the same corpus with the most popular machine learning algorithms which are C5.0, KNN, SVM, NB and C4.5, and their results of classification accuracy are 52.86%, 52.38%, 51.90%, 51.90% and 30%, respectively. Thus, the HRWiTD algorithm gives better classification accuracy compared to the most popular machine learning algorithms on the selected domain. 展开更多
关键词 AUTOMATIC text classification CONFUSION Matrix SPA Machine Learning algorithms
下载PDF
Multi-Label Chinese Comments Categorization: Comparison of Multi-Label Learning Algorithms 被引量:4
4
作者 Jiahui He Chaozhi Wang +2 位作者 Hongyu Wu Leiming Yan Christian Lu 《Journal of New Media》 2019年第2期51-61,共11页
Multi-label text categorization refers to the problem of categorizing text througha multi-label learning algorithm. Text classification for Asian languages such as Chinese isdifferent from work for other languages suc... Multi-label text categorization refers to the problem of categorizing text througha multi-label learning algorithm. Text classification for Asian languages such as Chinese isdifferent from work for other languages such as English which use spaces to separate words.Before classifying text, it is necessary to perform a word segmentation operation to converta continuous language into a list of separate words and then convert it into a vector of acertain dimension. Generally, multi-label learning algorithms can be divided into twocategories, problem transformation methods and adapted algorithms. This work will usecustomer's comments about some hotels as a training data set, which contains labels for allaspects of the hotel evaluation, aiming to analyze and compare the performance of variousmulti-label learning algorithms on Chinese text classification. The experiment involves threebasic methods of problem transformation methods: Support Vector Machine, Random Forest,k-Nearest-Neighbor;and one adapted algorithm of Convolutional Neural Network. Theexperimental results show that the Support Vector Machine has better performance. 展开更多
关键词 Multi-label classification Chinese text classification problem transformation adapted algorithms
下载PDF
Ensemble Filter-Wrapper Text Feature Selection Methods for Text Classification
5
作者 Oluwaseun Peter Ige Keng Hoon Gan 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第11期1847-1865,共19页
Feature selection is a crucial technique in text classification for improving the efficiency and effectiveness of classifiers or machine learning techniques by reducing the dataset’s dimensionality.This involves elim... Feature selection is a crucial technique in text classification for improving the efficiency and effectiveness of classifiers or machine learning techniques by reducing the dataset’s dimensionality.This involves eliminating irrelevant,redundant,and noisy features to streamline the classification process.Various methods,from single feature selection techniques to ensemble filter-wrapper methods,have been used in the literature.Metaheuristic algorithms have become popular due to their ability to handle optimization complexity and the continuous influx of text documents.Feature selection is inherently multi-objective,balancing the enhancement of feature relevance,accuracy,and the reduction of redundant features.This research presents a two-fold objective for feature selection.The first objective is to identify the top-ranked features using an ensemble of three multi-univariate filter methods:Information Gain(Infogain),Chi-Square(Chi^(2)),and Analysis of Variance(ANOVA).This aims to maximize feature relevance while minimizing redundancy.The second objective involves reducing the number of selected features and increasing accuracy through a hybrid approach combining Artificial Bee Colony(ABC)and Genetic Algorithms(GA).This hybrid method operates in a wrapper framework to identify the most informative subset of text features.Support Vector Machine(SVM)was employed as the performance evaluator for the proposed model,tested on two high-dimensional multiclass datasets.The experimental results demonstrated that the ensemble filter combined with the ABC+GA hybrid approach is a promising solution for text feature selection,offering superior performance compared to other existing feature selection algorithms. 展开更多
关键词 Metaheuristic algorithms text classification multi-univariate filter feature selection ensemble filter-wrapper techniques
下载PDF
融合概率类别特征增强的短文本分类
6
作者 廖列法 李奎 姚秀 《计算机工程与设计》 北大核心 2024年第7期2074-2081,共8页
对短文本所含信息量缺乏而导致分类准确度难以提升的问题进行研究,提出一种融合概率类别特征增强的短文本分类网络模型FT_BDCNN。将N-gram处理后产生的N元词典通过TF-IDF分离出具有概率类别区分度的特征信息(FT模块);将向量化表示后的... 对短文本所含信息量缺乏而导致分类准确度难以提升的问题进行研究,提出一种融合概率类别特征增强的短文本分类网络模型FT_BDCNN。将N-gram处理后产生的N元词典通过TF-IDF分离出具有概率类别区分度的特征信息(FT模块);将向量化表示后的文本信息输入到改进后的特征提取模块中;将两个模块的输出进行特征融合,完成文本分类。实验结果表明,所提模型在THUCNews数据集上的F1值达到91.91%。FT模块可以与现有分类模型进行融合,提升模型的分类性能。 展开更多
关键词 类别特征增强 短文本 双池化 特征融合 统计算法 快速分类 深度学习
下载PDF
基于改进遗传算法和DBSCAN聚类的学习数据深度挖掘方法 被引量:2
7
作者 孟涛 王晓勇 胡胜利 《齐齐哈尔大学学报(自然科学版)》 2024年第1期45-50,55,共7页
为了从在线学习大数据中提取有用信息,实现自适应特征提取和聚类,提出了基于改进模糊遗传算法和DBSCAN聚类的细粒度学习数据挖掘方法。通过在信息管理平台中应用数据挖掘技术,将学习表现评估转换为文本分类问题,基于动态数据分析细粒度... 为了从在线学习大数据中提取有用信息,实现自适应特征提取和聚类,提出了基于改进模糊遗传算法和DBSCAN聚类的细粒度学习数据挖掘方法。通过在信息管理平台中应用数据挖掘技术,将学习表现评估转换为文本分类问题,基于动态数据分析细粒度的知识获取结果。所提改进的遗传算法自动提取出文本中的最优特征集,利用模糊规则关联测试内容与知识点。最后,利用基于密度的聚类算法得到每个知识点的个体和整体测试结果。实验结果表明,所提方法能够自动处理大量数据,全面准确地分析测试结果中不同知识点的掌握程度,有助于信息管理平台数据的二次开发和深入挖掘。 展开更多
关键词 大数据 数据挖掘 遗传算法 模糊规则 文本分类
下载PDF
融合文本分类算法的皮肤病辅助诊疗模型
8
作者 凌天 诸佳珍 +1 位作者 焦阳 李露芳 《中国医学物理学杂志》 CSCD 2024年第8期1046-1052,共7页
针对当前皮肤病辅助诊断中生物医学特征建模规模较小且耗费巨大人工成本,而患者疾病特征的时间序列同样无法准确描述等难点,本研究运用融合文本分类算法,融合常用的文本分类模型TextLSTM、TextCNN、RCNN得到皮肤疾病辅助诊疗模型(TLNN模... 针对当前皮肤病辅助诊断中生物医学特征建模规模较小且耗费巨大人工成本,而患者疾病特征的时间序列同样无法准确描述等难点,本研究运用融合文本分类算法,融合常用的文本分类模型TextLSTM、TextCNN、RCNN得到皮肤疾病辅助诊疗模型(TLNN模型),通过提取图像传感器医学特征向量化后进行预处理减少焦块数量以及消除偏差较大的特征信息,提高决策数据精度。在ISIC2018和PH2数据集进行对照实验,TLNN模型的准确率为72.36%,高于其余3种文本分类模型。在与医生主观诊断对比实验中,模型诊断准确率为92%,接近于医生94%的平均准确率,而有效诊断效率(1.17min/例)明显高于医生人工诊断(4.57min/例),整体效率提升幅度达290%,结果表明对比传统人工诊断,融合文本分类算法模型能以更短时间获得精确的诊断。TLNN模型可以应用于疾病诊断,辅助医生医疗决策,为患者提供优质便捷的智能诊疗服务。 展开更多
关键词 皮肤病 辅助诊断 融合文本分类算法 D-S证据理论 医学特征
下载PDF
ID4TST:基于融合数据集的文本风格迁移模型
9
作者 顾亦然 薛宇辰 张腾飞 《小型微型计算机系统》 CSCD 北大核心 2024年第10期2338-2344,共7页
文本风格迁移是自然语言处理的一项新兴任务,旨在改变文本的风格属性并保持其语义不变,本文对写作风格的迁移进行研究.在较小规模数据集上训练的风格迁移模型虽然能根据源文本生成具有目标的写作风格的文本,但是却无法很好地保留源文本... 文本风格迁移是自然语言处理的一项新兴任务,旨在改变文本的风格属性并保持其语义不变,本文对写作风格的迁移进行研究.在较小规模数据集上训练的风格迁移模型虽然能根据源文本生成具有目标的写作风格的文本,但是却无法很好地保留源文本的内容.本文将多个数据集融合进一个训练集,利用更大规模的数据增强模型抽取高级语义特征的能力,同时加入启发式语言模板用于区分不同的数据集.此外,本文还改进了作家归属分类器的分类算法进行写作风格的量化.实验结果表明,本文提出的方法生成的文本不仅能在一定程度上更接近目标写作风格,并且在源文本内容保存和通顺程度方面都优于其他模型. 展开更多
关键词 文本风格迁移 写作风格 融合数据集 启发式语言模板 分类算法
下载PDF
基于对比学习和注意力机制的文本分类方法
10
作者 钱来 赵卫伟 《计算机工程》 CAS CSCD 北大核心 2024年第7期104-111,共8页
文本分类作为自然语言处理领域的基本任务,在信息检索、机器翻译和情感分析等应用中发挥着重要作用。然而大多数深度模型在预测时未充分考虑训练实例的丰富信息,导致学到的文本特征不够全面。为了充分利用训练实例信息,提出一种基于对... 文本分类作为自然语言处理领域的基本任务,在信息检索、机器翻译和情感分析等应用中发挥着重要作用。然而大多数深度模型在预测时未充分考虑训练实例的丰富信息,导致学到的文本特征不够全面。为了充分利用训练实例信息,提出一种基于对比学习和注意力机制的文本分类方法。首先,设计一种有监督对比学习训练策略,旨在优化模型对文本向量表征的检索,提高模型在推理过程中检索到的训练实例的质量;然后,构建注意力机制,对获取的训练文本特征进行注意力分布学习,聚焦关联性更强的相邻实例信息,获得更多隐含的相似特征;最后,将注意力机制与模型网络相结合,融合相邻的训练实例信息,增强模型提取多样性特征的能力,实现全局特征和局部特征的提取。实验结果表明,所提方法在卷积神经网络(CNN)、双向长短期记忆网络(Bi LSTM)、图卷积网络(GCN)、BERT和Ro BERTa等多个模型上都取得了显著的性能提升。以CNN模型为例,其在THUCNews数据集、今日头条数据集和搜狗数据集上宏F1值分别提高了4.15、6.2和1.92个百分点。因此,该方法也为文本分类任务提供了一种有效的解决方案。 展开更多
关键词 文本分类 深度模型 对比学习 近似最近邻算法 注意力机制
下载PDF
基于句法CYK图神经网络的知识增强文本分类
11
作者 章巍 陈学奇 +2 位作者 韩剑锋 虞小江 吴海燕 《计算机应用》 CSCD 北大核心 2024年第S01期11-17,共7页
句子分类方法主要分为基于特征工程的机器学习方法、序列化模型和结构化模型,但基于特征工程的机器学习方法对词序不敏感易产生稀疏向量,序列化模型忽略了句子的短语、依存关系等句法结构信息,结构化模型如句法树、二叉树等的准确率受... 句子分类方法主要分为基于特征工程的机器学习方法、序列化模型和结构化模型,但基于特征工程的机器学习方法对词序不敏感易产生稀疏向量,序列化模型忽略了句子的短语、依存关系等句法结构信息,结构化模型如句法树、二叉树等的准确率受句法解析工具影响。针对上述问题,构建基于句法CYK(Cocke Younger Kasami)图神经网络(GNN)的知识增强文本分类模型S-CYK,对输入句子分别构建对应的短语树和CYK图以形成句法CYK图,并利用关系图注意力网络(RGAT)进行句子分类。在公共数据集AG’s News、DBpedia、ARP(Amazon Review Polarity)和ARF(Amazon Review Full)上的实验结果表明,与现有先进模型半监督变分自编码器(SSVAE)、对抗性微调BERT(AFTB)、基于GloVe的ABLSTM(GloVe+ABLSTM)和融合FastText的CNN(CNN with FastText)相比,S-CYK模型在4个数据集的准确率提升了0.04%~1.21%。S-CYK使用句法CYK图结构进行知识增强,能有效增强聚合句子信息的能力。 展开更多
关键词 句法知识 CYK算法 知识增强 图神经网络 文本分类
下载PDF
基于Softmax回归分类模型的网页搜索排序算法
12
作者 党米花 《吉林大学学报(信息科学版)》 CAS 2024年第5期985-990,共6页
针对网页搜索结果存在返回的网页与搜索的关键词领域不相关的领域漂移现象,导致用户无法搜索到需求信息的问题,提出基于Softmax回归分类模型的网页搜索排序算法。选择网页搜索文本特征,得到相应的特征项,利用向量表示模型,将选择的网页... 针对网页搜索结果存在返回的网页与搜索的关键词领域不相关的领域漂移现象,导致用户无法搜索到需求信息的问题,提出基于Softmax回归分类模型的网页搜索排序算法。选择网页搜索文本特征,得到相应的特征项,利用向量表示模型,将选择的网页搜索文本特征项转换为格式化数据,对网页搜索文本数据进行均衡处理,获取网页搜索文本数据集。采用Softmax回归分类模型,分类处理网页搜索文本数据集,预测网页搜索文本类别,通过Okapi BM25算法,对网页搜索文本进行排序操作,实现网页搜索排序。实验结果表明,所提算法具有较好的网页搜索排序,提升了网页搜索排序精度,避免网页搜索排序过程中的领域漂移现象。 展开更多
关键词 Softmax回归分类模型 网页搜索排序 文本预处理 TF-IDF算法 Okapi BM25算法
下载PDF
基于文本-光谱特征联合学习的高光谱图像分类算法
13
作者 孟龙祥 李奇 《电脑与信息技术》 2024年第5期7-11,共5页
高光谱图像分类任务是遥感对地观测领域中的重要研究课题之一。针对高光谱图像覆盖范围广、地物种类多、人工标记难度高等问题,设计了一种基于文本-光谱联合学习的分类算法,利用文本模态的语义先验来增强不同场景之间的知识迁移能力,借... 高光谱图像分类任务是遥感对地观测领域中的重要研究课题之一。针对高光谱图像覆盖范围广、地物种类多、人工标记难度高等问题,设计了一种基于文本-光谱联合学习的分类算法,利用文本模态的语义先验来增强不同场景之间的知识迁移能力,借助特征重建的方式学习判别和迁移信息,并采用自适应的文本嵌入交互模块挖掘编码器的潜在特征,实现了多模态特征之间的联合优化与分类效果提升。同时,采用4种不同算法进行对比验证,结果表明,新算法在单类别精度、总体精度(Overall Accuracy,OA)和Kappa系数方面均优于其他算法。 展开更多
关键词 高光谱图像 分类算法 文本-光谱
下载PDF
基于朴素贝叶斯算法的微博垃圾信息自动识别系统
14
作者 崔凯雯 《移动信息》 2024年第6期291-294,共4页
贝叶斯算法是一种利用数学概率来计算可能性的算法,被广泛用于各种分类器,其将所有事件都假设为相互独立的事件,从而降低算法难度。文中设计并实现了一种基于朴素贝叶斯算法的微博垃圾信息自动识别系统。该系统基于MyEclipse8.6工具,采... 贝叶斯算法是一种利用数学概率来计算可能性的算法,被广泛用于各种分类器,其将所有事件都假设为相互独立的事件,从而降低算法难度。文中设计并实现了一种基于朴素贝叶斯算法的微博垃圾信息自动识别系统。该系统基于MyEclipse8.6工具,采用Java语言进行开发,首先使用爬虫程序对微博评论区内容进行抓取,并以txt格式保存评论区内容以备后续训练使用,随后采用MMAnalyzer算法进行中文文本分词,提取文本特征,最后使用朴素贝叶斯分类器进行分类。实验结果表明,基于朴素贝叶斯算法的分类器设计简单、使用方便且正确率较高,是一种具有良好前景的初级分类器。 展开更多
关键词 朴素贝叶斯算法 分类器 中文分词 文本分类
下载PDF
基于GBDT模型的接触网异物分类研究
15
作者 郭心全 吴霞 +2 位作者 李俊波 沈鹍 郝贵才 《智能计算机与应用》 2024年第6期41-49,共9页
为解决铁路接触网异物信息文本数据利用不充分的问题,快速高效地判识接触网异物类别,开展接触网异物分类研究。首先,通过分析接触网异物文本特点,抽取出与接触网异物类别相关的实体建立“接触网异物词典”;其次,以Jieba分词工具加载该... 为解决铁路接触网异物信息文本数据利用不充分的问题,快速高效地判识接触网异物类别,开展接触网异物分类研究。首先,通过分析接触网异物文本特点,抽取出与接触网异物类别相关的实体建立“接触网异物词典”;其次,以Jieba分词工具加载该词典对文本数据进行分词并清洗;随后,通过词频-逆向文件频率(TF-IDF)算法挖掘文本信息的关键特征,并以8:2比例拆分训练集和测试集;最后,构建梯度提升决策树(GBDT)分类模型以训练集进行训练,以训练好的模型和测试集进行模型验证,并通过实验对比常用的K最近邻(KNN)、多项式朴素贝叶斯(MNB)、逻辑回归(LR)、随机森林(RF)、决策树(DT)等7个多类别文本分类模型。实验结果表明,基于TF-IDF+GBDT的接触网异物分类模型的精确率、召回率和F1值分别达到了94.70%、94.74%和94.53%,优于相比较的其他分类模型,具备一定的推广和应用价值。 展开更多
关键词 接触网 异物 文本分类 TF-IDF算法 GBDT模型
下载PDF
轻量化人工智能翻译文本特征分类算法
16
作者 裴丹 《计算机应用文摘》 2024年第17期170-172,共3页
由于人工智能翻译文本整体规模较大,在分类处理时往往存在领域划分异常的情况。为此,文章提出了轻量化人工智能翻译文本特征分类算法,构建了与特定领域相关的领域知识语料库,分别从词汇特征与句法特征2个角度提取人工智能翻译文本的轻... 由于人工智能翻译文本整体规模较大,在分类处理时往往存在领域划分异常的情况。为此,文章提出了轻量化人工智能翻译文本特征分类算法,构建了与特定领域相关的领域知识语料库,分别从词汇特征与句法特征2个角度提取人工智能翻译文本的轻量化特征。根据翻译文本特征与对应领域知识语料库特征之间的距离关系,该算法可实现分类处理,在对不同领域文本进行分类时不仅表现出较高的稳定性,且被准确分类文本数量始终保持在18篇以上,具有良好的分类效果。 展开更多
关键词 轻量化 人工智能的翻译文本 特征分类算法 领域知识语料库 词汇特征 句法特征 语义特征 轻量化特征
下载PDF
Research and Implementation of Text Similarity System Based on Power Spectrum Analysis 被引量:1
17
作者 Ying Xie Shouning Qu Huanhuan Song 《Journal of Computer and Communications》 2014年第6期7-17,共11页
The paper proposed the research and implement of text similarity system based on power spectrum analysis. It is not difficult to imagine that the signals of brain are closely linked with writing process. So we build t... The paper proposed the research and implement of text similarity system based on power spectrum analysis. It is not difficult to imagine that the signals of brain are closely linked with writing process. So we build text modeling and set pulse signal function to get the power spectrum of the text. The specific detail is getting power spectrum from economic field to build spectral library, and then using the method of power spectrum matching algorithm to judge whether the test text belonged to the economic field. The method made text similarity system finish the function of text intelligent classification efficiently and accurately. 展开更多
关键词 Pulsing Signal Function Power Spectrum MATCHING algorithm text SIMILARITY SYSTEM text Intelligent classification
下载PDF
基于LDA模型融合Catboost算法的文本自动分类系统设计与实现 被引量:2
18
作者 刘爱琴 郭少鹏 张卓星 《国家图书馆学刊》 CSSCI 北大核心 2023年第5期84-92,共9页
互联网的蓬勃发展使得文本数据呈指数型增长态势,如何实现文本内容的高效分类成为信息资源管理工作面临的紧要问题。本文以维普学术期刊资源与百度新闻网页作为基础语料集,基于LDA模型抽取文档主题、切分文本内容,融合集成学习Catboost... 互联网的蓬勃发展使得文本数据呈指数型增长态势,如何实现文本内容的高效分类成为信息资源管理工作面临的紧要问题。本文以维普学术期刊资源与百度新闻网页作为基础语料集,基于LDA模型抽取文档主题、切分文本内容,融合集成学习Catboost算法获得文档在主题上的概率分布,然后利用训练集提取出的隐含主题-文本矩阵进行分类器训练,最终构建文本分类系统。研究结果显示,该系统能够有效完成文本混合自动分类,分类误差率较低,分类性能明显优于传统的文本分类方法。 展开更多
关键词 隐含狄利克雷分布(LDA) 文本自动分类 SVM算法 Catboost算法
下载PDF
基于三支决策的KNN渐进式文本分类方法 被引量:7
19
作者 马新宇 黄春梅 姜春茂 《计算机应用研究》 CSCD 北大核心 2023年第4期1065-1069,共5页
在传统的文本分类中,KNN算法以其简单、分类准确率高、非参数得到了广泛的应用。但是传统KNN算法在进行文本分类的过程中,需要计算待分类文本与每一个训练样本的相似度,当面对海量的文本时,分类的效果会明显降低。针对此问题,提出了一... 在传统的文本分类中,KNN算法以其简单、分类准确率高、非参数得到了广泛的应用。但是传统KNN算法在进行文本分类的过程中,需要计算待分类文本与每一个训练样本的相似度,当面对海量的文本时,分类的效果会明显降低。针对此问题,提出了一种基于三支决策的KNN渐进式文本分类方法用于提高其分类效率,结合三支决策在分类问题中的优势,将三支决策与KNN算法相结合,对标题、摘要、关键词等进行渐进式的分类处理,从而完成待分类文本的分类,提高文本分类的效率和性能。实验表明,该算法能够在确保KNN算法分类准确率的基础上,同时提高分类效率。 展开更多
关键词 三支决策 KNN算法 渐进式 文本分类
下载PDF
基于图卷积神经网络的主题模型文本分类探究 被引量:2
20
作者 王治学 《科技创新与应用》 2023年第36期83-86,共4页
现阶段,人们的大量生活信息多以社交媒体、新闻报道等方式记录存储。而在文本分类中融入图卷积神经网络主题模型算法,可将各类信息数据通过分类控制,全面应用到国民经济、社会管理及网络安全当中。基于此,该文简单分析融合主题模型的卷... 现阶段,人们的大量生活信息多以社交媒体、新闻报道等方式记录存储。而在文本分类中融入图卷积神经网络主题模型算法,可将各类信息数据通过分类控制,全面应用到国民经济、社会管理及网络安全当中。基于此,该文简单分析融合主题模型的卷积神经网络分类,并深入探讨文本分类系统实践,以供参考。 展开更多
关键词 图卷积神经网络 文本分类 主题模型 设计实践 算法
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部