题名 Web文档分类中TFIDF特征选择算法的改进
被引量:4
1
作者
段国仑
谢钧
郭蕾蕾
王晓莹
机构
陆军工程大学指挥控制工程学院
陆军工程大学通信工程学院
出处
《计算机技术与发展》
2019年第5期49-53,共5页
基金
国家自然科学基金(61101202)
文摘
随着海量数据资源在网络中的出现,Web文档分类技术越来越受到重视。在Web文档分类的研究中,特征选择算法有着重要的研究意义。特征选择能有效降低文本向量空间模型的维度,从而构造出更快,消耗更低的预测模型。传统的TFIDF算法仅仅依靠文档中所包含特征词的词频和逆文档频率来判断该特征词对于文档分类的重要性,忽略了特征项在类内和类间的分布以及数据集不均衡现象,从而效果受到制约。针对存在的不足进行改进,提出了类内分布因子以及类间分布因子。基于类内以及类间因子,替代逆文档频率,可以使得改进的表达式能够选择出更加高效的特征词。通过使用SVM分类器进行文本分类对比实验,与改进前的方法相比,该方法能使F_1值得到一定程度的提高,在不均衡数据集上同样具有较好的分类效果。
关键词
WEB文档分类
特征选择
TFIDF算法
SVM
Keywords
Web document classification
feature selection
TFIDF algorithm
SVM
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 一种融合多种信息的Web文档分类方法
被引量:1
2
作者
段国仑
谢钧
郭蕾蕾
王晓莹
机构
陆军工程大学指挥控制工程学院
陆军工程大学通信工程学院
出处
《信息技术与网络安全》
2018年第6期76-79,共4页
文摘
当前的Web文档分类方法大多以正文的文本分类为基础,没有很好地利用网页中所蕴含的多种信息。为提高Web文档的分类精度,提出一种融合Web文档中多种信息(如正文、描述信息、关键字、图片相关文本、标题以及文章中加粗等特殊字体)的文本分类方法。鉴于不同信息对于分类的贡献不尽相同,采用遗传算法给各种信息设置合适的权重,最终采用支持向量机对Web文档进行分类。实验结果表明,与仅使用正文文本进行分类的方法相比,所提出的融合多种信息的方法能有效提高分类精度。
关键词
WEB文档分类
信息融合
遗传算法
支持向量机
Keywords
Web document classification
information fusion
genetic algorithm
support vector machine
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
题名 基于AP聚类的多特征融合方法
被引量:3
3
作者
郭蕾蕾
俞璐
段国仑
陶性留
机构
陆军工程大学通信工程学院
陆军工程大学指挥控制工程学院
出处
《计算机技术与发展》
2019年第8期47-52,共6页
基金
国家自然科学基金(61702543,71501186)
江苏省“333高层次人才培养工程”(BRA2016542)
文摘
经典的聚类方法通常只适用于单一特征数据,对于多特征数据,特征融合显得尤为重要。传统的多特征融合方式易造成维数灾难、尺度较小的特征被忽视等问题。对于“视图(特征)不平衡”数据,上述问题显得尤为突出。为此,提出了一种基于成对约束的多特征融合AP聚类算法。该算法用“差特征”数据聚类得到约束信息,利用“好特征”数据得到基础相似度矩阵,再利用成对约束来调整基础相似度矩阵,在新得到的相似度矩阵上进行AP聚类。该特征融合方法中,“好特征”占据主导,“差特征”只是以约束的形式发挥作用,克服了现有特征融合方法中效果差距很大的特征平起平坐的缺点。实验结果表明,相较于单视图聚类、多视图数据直接拼接后再聚类、多视图谱聚类等方法,多特征融合AP聚类算法取得了较好的性能,有效地解决了“视图(特征)不平衡”问题。
关键词
AP聚类
多特征融合
视图(特征)不平衡
成对约束
相似度矩阵
Keywords
AP clustering
multi-feature fusion
view(feature)imbalance
pairwise constraints
similarity matrix
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于奇异值分解和隐Markov模型的动态手势识别
被引量:3
4
作者
蒋海军
谢钧
段国仑
王根春
机构
中国人民解放军陆军工程大学指挥控制工程学院
[
出处
《信息技术与网络安全》
2018年第1期106-110,共5页
文摘
提出了基于奇异值分解(Singular Value Decomposition,SVD)特征矩阵压缩和隐Markov模型(Hidden Markov Model,HMM)的动态手势识别方法。该方法通过SVD对特征矩阵进行时间维度的压缩,然后通过HMM的方法对提取的动态手势进行识别。通过对特征矩阵压缩可以显著地减少训练HMM的迭代计算量,提高模型的训练效率。采用Leap Motion体感控制器追踪并提取自定义的10个阿拉伯数字的动态手势特征。实验验证结果表明,该方法对这些动态手势在当前有限样本条件下的总识别率均在96%以上。
关键词
动态手势识别
Leap
MOTION
奇异值分解
隐MARKOV模型
Keywords
dynamic gesture recognition
Leap Motion
singular value decomposition (SVD)
hidden Markov model (HMM)
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
题名 基于Co-training的多视图AP聚类算法
5
作者
郭蕾蕾
俞璐
段国仑
陶性留
机构
陆军工程大学通信工程学院
陆军工程大学指挥控制工程学院
出处
《通信技术》
2018年第10期2325-2330,共6页
文摘
为应对多视图数据激增而带来的挑战,多视图学习技术成为新的研究热点。在聚类领域,经典的聚类方法只适用于具有单一表示或单一视图的聚类对象。而在多视图聚类中,对于不同的聚类方法,不同视图之间的信息交互和更新的方式具有较大的差异,没有普适的通用方法。针对以上缺点,基于Co-training思想,根据信息交互更新方式的不同,提出了一种多视图AP聚类算法。该算法将各视图的归属度信息和吸引度信息交叉迭代,综合两种信息确定最后的聚类中心。实验结果表明,相较于单视图聚类和多视图数据直接拼接后再聚类等方法,所提的多视图AP聚类算法能取得较好的性能。
关键词
协同训练
AP聚类
多视图
Co—clustering
图像特征
Keywords
co-training
AP clustering
multi-view
Co-clustering
image feature
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于伴随文本信息的Web图像批量标注方法
6
作者
郭蕾蕾
俞璐
段国仑
陶性留
机构
陆军工程大学通信工程学院
陆军工程大学指挥控制工程学院
出处
《信息技术与网络安全》
2018年第9期70-75,共6页
文摘
针对Web图像数据规模大幅增长难以管理及人工标注费时费力等问题,提出了一种仅利用伴随文本信息进行Web图像批量标注的方法。首先对图像的文本信息进行分词、去除停用词、词向量化等预处理;然后利用近邻传播算法对文本聚类,并利用TF-IDF对文档进行关键词抽取,建立候选词词典。分别定义和计算候选词与关键词、候选词与文档、候选词与聚类簇的相似度;最终选取相似度较大的候选词作为图像簇的标注。实验结果表明,基于伴随文本信息的图像标注算法在自建数据集上标注精度和宏F1值达到了88%和49%,达到了预期目标,提高了标注效率。
关键词
图像标注
文本聚类
伴随文本
相似度度量
关键词抽取
Keywords
image annotation
text clustering
surrounding text
similarity measure
keyword extraction
分类号
TP37
[自动化与计算机技术—计算机系统结构]