期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
面向网页分类的网页摘要方法 被引量:5
1
作者 鲁明羽 沈抖 +1 位作者 郭崇慧 陆玉昌 《电子学报》 EI CAS CSCD 北大核心 2006年第8期1475-1480,共6页
网页分类是网络挖掘的重要研究内容之一.与文本分类相比,网页分类面临的困难更多.去除网页中的噪声信息可以提高网页分类的精度,基于摘要的网页分类方法利用了这一思想.本文对三种传统的网页摘要方法进行了分析和改进,提出了Content Bod... 网页分类是网络挖掘的重要研究内容之一.与文本分类相比,网页分类面临的困难更多.去除网页中的噪声信息可以提高网页分类的精度,基于摘要的网页分类方法利用了这一思想.本文对三种传统的网页摘要方法进行了分析和改进,提出了Content Body摘要方法以及基于四种摘要方法的混合摘要方法;在此基础上,进行了大量基于摘要的网页分类实验.实验结果表明,所有的摘要方法都可以提高分类效果,其中混和摘要方法效果最好,可以使分类的F1值得到12.9%的改进. 展开更多
关键词 网页分类 网页摘要 CONTENT BODY 混合摘要方法
下载PDF
网页分类技术 被引量:18
2
作者 孙建涛 沈抖 +1 位作者 陆玉昌 石纯一 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第1期65-68,共4页
网页分类是使用机器学习的方法实现网页类别的自动标注。回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法。使用纯文本分类技术处理网页是不合理的。基于概率模型的方法和... 网页分类是使用机器学习的方法实现网页类别的自动标注。回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法。使用纯文本分类技术处理网页是不合理的。基于概率模型的方法和关系学习方法计算量大,关系学习方法学习结果的可解释性好,支持向量机方法分类准确率高,但核函数的构造和大规模数据集的训练都是该算法的难题。应该采用多种指标对网页分类算法进行评价。 展开更多
关键词 网页分类 机器学习 文本分类 网络挖掘
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部