基于提取网站层次结构的网页分类方法被引量：4

Web page classification based on extracting hierarchy from Web site

下载PDF

导出

摘要网页自动分类是当前互联网搜索领域一个热点研究课题,目前主要有基于网页文本内容的分类和基于网页间超链接结构的分类。但是这些分类都只利用了网页的信息,没有考虑到网页所在网站提供的信息。文中提出了一种全新的对网站内部拓扑结构进行简约的算法,提取网站隐含的层次结构,生成层次结构树,从而达到对网站内部网页实现多层次分类的目的,并且已经成功应用到电子商务智能搜索和挖掘系统中。 Web page classification was one of the hot study problems in the domain of Internet Search currently. Now there were the classifiers based on text and the hyperlinks. But all these methods of classification only used the information of the pages without the information that was provided from the whole web site. In the article, there was a new arithmetic that simplifies the topology structure of the Web site and extracted the connotative hierarchy of the classification to build the classified tree, through which we could achieve the multi-level classification. This method has been applied to the system of intelligent searching and mining of electronic business successfully.

作者邓健爽郑启伦彭宏

机构地区华南理工大学计算机科学与工程学院

出处《计算机应用》 CSCD 北大核心 2006年第5期1134-1136,共3页 journal of Computer Applications

基金广东省科技攻关项目(2005B10101033 A10202001) 广州市科技攻关项目(2004Z2-D0091)

关键词网页分类网站层次结构 URL聚类 Web page classification Hierarchy of Web site URL clustering

分类号 TP393.02 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Http://www. google.com[EB/OL].
2BRIN S, PAGE L. The Anatomy of a Large-Scale Hypertextual Web Search Engine [EB/OL]. http://www.site. uottawa.ca/- start/csi5389/readinga/google.pdf.
3Http://www. yahoo.com[EB/OL].
4KOLLER D, SAHAMI M. Hierarchically classifying documents using very few words[A]. FisherD, ICML 97[C]. SanFrancisco:Morgan Kaufmann, 1997. 170 - 178.
5CHAKRABARTI S, DOM B, INDYK P. Enhanced hypertext categorization using hyperlinks[A]. LAURA MH, TIWARY A. Proc ACM SIGM OD Int Confon Management of Data[C]. NewYork:ACM Press, 1998. 307-318.
6SLATFERY S. Hypertext Classification[D]. Pittsburgh: Carnegie Mellon Univ, 2001.
7CRAVEN M, SLATTERY S. Relation all earning with statistical predicate invention: Better models for hypertext [J]. Machine Learning. 2001,43(1/2) : 97 - 119.
8LODHI H, TAYLOR S, CRISTIANINI N, et al. Text classification using string kernels[A]. NIPS[C], 2000. 563 -569.
9CRISTIANINI N, TAYLOR S, LODHI H. Latent semantic kernels[A]. Proc 18th Int Confon Machine Learning[C].SanFrancisco:Morgan Kaufmann, 2001. 66-73.

同被引文献32

1董宝力,祁国宁,顾新建.基于混合向量空间模型的主题网站识别[J].清华大学学报（自然科学版）,2005,45(S1):1795-1801. 被引量：4
2高伟锋,刘连芳.基于分词和基于N-Gram的网页分类系统比较研究[J].广西科学院学报,2005,21(S1):58-60. 被引量：1
3刘青,何政.结合EM算法的朴素贝叶斯方法在中文网页分类上的应用[J].计算机工程与科学,2005,27(7):65-66. 被引量：4
4谭胜,马静,吴一占.基于主题描述模型的相关性判断在网页信息抽取中的应用[J].情报学报,2011,30(2):155-159. 被引量：6
5宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
6付德宇,代成琴,仲玮.基于关键资源的网站自动分类系统[J].哈尔滨工业大学学报,2006,38(1):19-21. 被引量：1
7王晔,黄上腾.基于潜在链接分析的FTSVM网页分类[J].计算机工程,2006,32(10):12-14. 被引量：3
8董宝力,祁国宁.面向制造网络的节点发现技术研究[J].浙江大学学报（工学版）,2006,40(5):738-742. 被引量：4
9袁家政,须德,鲍泓.基于结构与文本关键词相关度的XML网页分类研究[J].计算机研究与发展,2006,43(8):1361-1367. 被引量：13
10刘艳敏,刘飚,封化民,宋国森,方勇.Web页面主题信息抽取研究与实现[J].计算机工程与应用,2006,42(21):146-148. 被引量：11

引证文献4

1高波.网页元素结构化模型的研究[J].常州工学院学报,2008,21(3):43-45.
2李勇.中文网页分类研究综述[J].现代计算机,2012,18(15):3-7. 被引量：1
3邓厚平,武刚.基于爬虫和网站分类的主题信息源发现方法[J].计算机工程与应用,2016,52(3):59-65. 被引量：2
4李飞,李晗静,姚登峰,吕会华.基于网页结构的网站无障碍抽样方法[J].现代电子技术,2018,41(21):80-83.

二级引证文献3

1杨艳霞.基于本体的旅游网络评论情感分析与预警系统[J].计算机与数字工程,2016,44(4):649-652. 被引量：3
2刘建成,吴保国,陈栋.基于网络爬虫的森林经营知识采集系统研建[J].浙江农林大学学报,2017,34(4):743-750. 被引量：5
3郭鹏.网络环境下收益管理系统需求无约束估计综述[J].计算机工程与应用,2017,53(19):17-25. 被引量：7

1胡宏智,王华.Web日志挖掘技术的应用研究[J].网络安全技术与应用,2011(5):77-78. 被引量：2
2崔英敏,陈阳.Web日志挖掘中的用户聚类与URL聚类[J].福建电脑,2007,23(6):15-16.
3冯雁,王申康.Web站点层次结构抽取算法的分析和实现[J].浙江大学学报（工学版）,2005,39(10):1507-1511. 被引量：3
4周序生,李爽.网页自动分类的建模与仿真研究[J].计算机仿真,2011,28(10):121-124. 被引量：3
5方宏,吕太之.求职网站职位列表页链接信息的自动提取[J].现代图书情报技术,2009(7):93-96. 被引量：3
6曹银银.Web日志挖掘及其在校园网中的应用[J].电脑知识与技术,2008(4):1-3. 被引量：2
7李忠元.教育网站的Web数据挖掘[J].甘肃广播电视大学学报,2002,12(4):77-79. 被引量：1
8张佳,梁少华.Web结构挖掘与其基于超链接结构的算法[J].科技信息,2007(2):20-20.
9李滔,王俊普,徐杨.一种基于粗糙集的网页分类方法[J].小型微型计算机系统,2003,24(3):520-522. 被引量：19
10左仁祥.WEB页上信息收集与查询[J].江西广播电视大学学报,2000(4):66-70.

计算机应用

2006年第5期

浏览历史

内容加载中请稍等...

基于提取网站层次结构的网页分类方法被引量：4

参考文献9

同被引文献32

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于提取网站层次结构的网页分类方法 被引量：4

参考文献9

同被引文献32

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于提取网站层次结构的网页分类方法被引量：4