网页分类技术被引量：18

Web document classification techniques

导出

摘要网页分类是使用机器学习的方法实现网页类别的自动标注。回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法。使用纯文本分类技术处理网页是不合理的。基于概率模型的方法和关系学习方法计算量大,关系学习方法学习结果的可解释性好,支持向量机方法分类准确率高,但核函数的构造和大规模数据集的训练都是该算法的难题。应该采用多种指标对网页分类算法进行评价。 Web document classification assigns labels to web documents based on machine learning techniques. A review of various text classification techniques showed that the main difficulties in web document classification are the page representation methods and the classification algorithms. Techniques that go beyond text categorization approaches are needed. Probabilistic algorithms and relational learning methods are both time-consuming. SVM (support vector machine) classifiers are quite accurate but the automatic kernel selection and the large scale training are both key problems. Various measures were investigated to compare algorithm performance based on sample datasets.

作者孙建涛沈抖陆玉昌石纯一

机构地区清华大学计算机科学与技术系智能技术与系统国家重点实验室

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2004年第1期65-68,共4页 Journal of Tsinghua University(Science and Technology)

基金国家"九七三"基础研究基金项目(G1998030414)

关键词网页分类机器学习文本分类网络挖掘 machine learning web document classification text categorization web mining

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1Salton G, McGill J. Introduction to Modern Information Retrieval 1 edition [M]. Auckland: McGraw Hill, 1983.
2Slattery S. Hypertext Classification [D]. Pittsburgh: Carnegie Mellon Univ, 2001.
3Yang Y, Slattery S, Ghani R. A study of approaches to hypertext categorization [J]. J Intelligent Info Syst, 2002, 18(2/3): 219-241.
4Furnkranz J. Exploiting structural information for text classification on the WWW [A]. IDA'99 [C]. Amsterdam: Springer Verlag, 1999. 487-497.
5Chakrabarti S, Dom B, Indyk P. Enhanced hypertext categorization using hyperlinks [A]. Laura M H, Tiwary A. Proc ACM SIGMOD Int Conf on Management of Data [C]. New York: ACM Press, 1998. 307-318.
6Ghani R, Slattery S, Yang Y. Hypertext categorization using hyperlink patterns and meta data [A]. Brodley C, ICML'01 [C]. San Francisco: Morgan Kaufmann, 2001.
7Oh H, Myaeng S, HoLee M. A practical hypertext categorization method using links and incrementally available class information [A]. Nicholas B, Peter I. Proc SIGIR-00 [C]. New York: ACM Press, 2000. 264-271.
8Choon Y. Classification of world wide web documents [D]. Pittsburgh: Carnegie Mellon Univ, 2000.
9范焱,郑诚,王清毅,蔡庆生,刘洁.用Naive Bayes方法协调分类Web网页[J].软件学报,2001,12(9):1386-1392. 被引量：53
10Koller D, Sahami M. Hierarchically classifying documents using very few words [A]. Fisher D, ICML97 [C]. San Francisco: Morgan Kaufmann, 1997. 170-178.

二级参考文献1

1Lang K，Proc the 12th Int Conference on Machine Learning（ICML 95），1995年，331页

共引文献52

1张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
2张茂元,卢正鼎.基于特征选取及模糊学习的网页分类方法研究[J].小型微型计算机系统,2004,25(7):1397-1400. 被引量：4
3刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
4钟茂生.WEB页面的模糊聚类[J].华东交通大学学报,2004,21(5):59-62. 被引量：2
5王丽侠,房福亭.分级聚类与平面划分结合方法在网页分类中的应用[J].计算机工程与应用,2004,40(35):139-141. 被引量：2
6梁春燕,郭力,夏诏杰,杨章远.网络搜索引擎的性能优化策略和相关技术[J].计算机工程与应用,2004,40(36):179-182. 被引量：5
7许勇,宋柔.基于HMM的百科辞典文本中句子的知识点分类[J].计算机工程与应用,2005,41(4):35-37. 被引量：5
8贾泂,梁久祯.基于支持向量机的中文网页自动分类[J].计算机工程,2005,31(10):145-147. 被引量：12
9邵浩然,张亮,马范援.基于损失最小化的SVM多类网页分类算法[J].计算机应用与软件,2005,22(7):16-17.
10李明杰.特征抽取方法在网页分类中的应用[J].常熟理工学院学报,2005,19(4):106-108. 被引量：1

同被引文献133

1彭涛,左万利,赫枫龄,张长利.基于粒子群优化算法的网页分类技术[J].计算机研究与发展,2006,43(z3):33-38. 被引量：2
2邱江涛,唐常杰,乔少杰,段磊,刘齐宏.基于加权频繁项集的文本分类规则挖掘[J].四川大学学报（工程科学版）,2008,40(6):110-114. 被引量：3
3赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
6侯小静,王黎明.利用HTML标签筛选网页分类样本[J].微机发展,2005,15(3):142-144. 被引量：3
7张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
8贾泂,梁久祯.基于支持向量机的中文网页自动分类[J].计算机工程,2005,31(10):145-147. 被引量：12
9王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13
10王晔,黄上腾.基于潜在链接分析的FTSVM网页分类[J].计算机工程,2006,32(10):12-14. 被引量：3

引证文献18

1张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
2王一蕾,吴英杰.基于数据量的文本分词算法选取的研究[J].福建电脑,2006,22(9):18-19.
3刘杰,刘冰,刘猛,陈晓红.一种基于Oracle Text的中文网页自动分类系统[J].网络安全技术与应用,2007(5):72-74.
4陈益军.一种基于元数据方法的KNN网页分类器的设计与实现[J].福建电脑,2007(6):137-137.
5蔡崇超.一种基于不完整数据集的网页分类技术[J].软件导刊,2011,10(1):143-145. 被引量：1
6兰均,施化吉,李星毅,徐敏.基于特征词复合权重的关联网页分类[J].计算机科学,2011,38(3):187-190. 被引量：12
7周序生,李爽.网页自动分类的建模与仿真研究[J].计算机仿真,2011,28(10):121-124. 被引量：3
8高玉良,张济强,白瑶.基于Lucene的多索引搜索的研究与应用[J].电脑知识与技术,2012,8(3):1470-1472. 被引量：2
9俞五炎.基于特征权值系数算法的网页分类方法研究[J].中国电子商务,2012(8):34-35.
10钱程,阳小兰.基于语义扩展的网页标签推荐系统[J].计算机工程与科学,2012,34(10):145-149.

二级引证文献46

1俞五炎.基于特征权值系数算法的网页分类方法研究[J].中国电子商务,2012(8):34-35.
2钱程,阳小兰.基于语义扩展的网页标签推荐系统[J].计算机工程与科学,2012,34(10):145-149.
3李力沛,罗颖.面向Web检索服务的个性化词典的研究与实现[J].计算机时代,2012(11):1-3.
4姜锐,衣马木艾山.阿布都力克木.一种基于支持向量机集成的决策树分类算法[J].科技通报,2013,29(8):145-147. 被引量：5
5库波.一种基于子集抽取的数据分布不一致学习算法[J].科技通报,2013,29(12):118-120.
6潘光强,周军,何洋.基于朴素贝叶斯分类模型的文本特征选择研究[J].电脑知识与技术,2014(1):133-137.
7张运涛.一种基于核函数参数优化的属性选择算法[J].计算机应用与软件,2014,31(4):305-307. 被引量：3
8严云洋,瞿学新,朱全银,李翔,赵阳.基于离群点检测的分类结果置信度的度量方法[J].南京大学学报（自然科学版）,2019,55(1):102-109. 被引量：4
9邢丽莉,张兵,鹿玉红,李忠,周海全.基于粗糙集约简并加权的SVM分类算法[J].科技通报,2014,30(9):167-172.
10吴欣远,林建辉.基于粗糙集约简并加权的SVM分类算法[J].微型机与应用,2014,33(20):55-57.

1陈芊希,范磊.基于深度学习的网页分类算法研究[J].微型电脑应用,2016,32(2):25-28. 被引量：3
2蒋宗礼,时福林.基于链接关系的网页分类优化算法[J].计算机与现代化,2014(5):14-17. 被引量：2
3刘雅正,陈受凯,唐向阳.基于简化MD5的TFIDF算法[J].科学技术与工程,2012,20(31):8447-8450. 被引量：1
4时雷,虎晓红,席磊.基于集成学习的网页分类算法[J].郑州大学学报（理学版）,2009,41(3):26-29. 被引量：1
5邵浩然,张亮,马范援.基于损失最小化的SVM多类网页分类算法[J].计算机应用与软件,2005,22(7):16-17.
6陈益军.一种基于元数据方法的KNN网页分类器的设计与实现[J].福建电脑,2007(6):137-137.
7刘晓勇.基于GA与SVM融合的网页分类算法[J].辽宁工程技术大学学报（自然科学版）,2010,29(5):953-955. 被引量：8
8秦杰,闫付亮,朱海丰,司群,谢蕙.基于链接信息的网页分类算法[J].微电子学与计算机,2012,29(6):108-112. 被引量：1
9彭小刚,傅向华.单路径层次化网页分类算法[J].计算机工程与设计,2008,29(9):2356-2358.
10李村合,冯静.一种改进的KNN网页分类算法[J].微计算机应用,2008,29(3):21-25. 被引量：3

清华大学学报（自然科学版）

2004年第1期

浏览历史

内容加载中请稍等...

网页分类技术被引量：18

参考文献18

二级参考文献1

共引文献52

同被引文献133

引证文献18

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

网页分类技术 被引量：18

参考文献18

二级参考文献1

共引文献52

同被引文献133

引证文献18

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

网页分类技术被引量：18