一种基于文本内容的HITS改进算法
被引量:5
An Improved HITS Based on Text
摘要
HITS算法是WEB结构挖掘中一种经典的链接分析算法,其主要问题是容易发生主题漂移。针对这一问题,提出了一种基于文本内容和链接分析相结合的改进算法。实验证明改进后的算法提高了查询结果的相关度,减少了主题漂移的发生。
出处
《计算机系统应用》
2009年第9期38-40,131,共4页
Computer Systems & Applications
基金
广西青年科学基金(桂科青0832101)
参考文献8
-
1王晓宇,周傲英.万维网的链接结构分析及其应用综述[J].软件学报,2003,14(10):1768-1780. 被引量:61
-
2倪现君.结构挖掘中web有向图模型的改进算法[J].微计算机信息,2007,23(36):163-165. 被引量:5
-
3Chakrabarti S, Dom B, Raghavan P, et al. Automatic resource compilation by analyzing hyperlink structure and associated text. Compute Networksand ISDN Systems, April, 1998,30(1-7).
-
4Gevrey J, Ruger S. Link-based approaches for text retrieval. Proceedings of TREC-10, NIST. NIST Special Publication, 2002.
-
5Xingw, Ghorbania.Weighted PageRank Algorithm. Proceedings of the Second Conference on Commu- nication Networks and Services Research, 2004:305- 314.
-
6Kosala R, Blockeel H. Web Mining Research: A Survey. ACMSIGKDD, 2007:40 - 43.
-
7Mizuuchi Y. Finding Context Paths for Web Pages. Proc. ofACM Hypertext, 1999:13 - 22.
-
8Borodin A, Roberts GO, Rosenthal JS, et al. Finding Authorities and Hubs Form Link Structures on the Word Wide Web. In Web, Hong Kong, China, May 2001.
二级参考文献47
-
1彭曙蓉,王耀南.针对小文本的Web数据挖掘技术及其应用[J].微计算机信息,2006,22(07X):203-205. 被引量:10
-
2Ding J, Gravano L, Shivakumar N. Computing geographical scopes of Web resources. In: Amr A, et al., eds. Proceedings of the 26th International Conference on Very Large Data Bases. Cairo: Morgan Kaufmann Publishers, 2000. 545-556.
-
3Bar-Yossef Z. Approximating aggregate queries about Web pages via random walks. In: Amr A, et al., eds. Proceedings of the 26th International Conference on Very Large Data Bases. Cairo: Morgan Kanfmann Publishers, 2000. 535-544.
-
4Larson R. Bibliometrics of the World Wide Web: An exploratory analysis of the intellectual stTucture of cyberspace. In: Hans-Peter F, et al., eds. Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Zurich: ACM Press, 1996. 85-92.
-
5Botafago A. Cluster analysis for hypertext systems. In: Robert K, et al., eds. Proceedings of the 16th Annual ACM SIGIR Conference on Research and Development in Information Retrieval. Pittsburgh: ACM Press, 1993. 116-125.
-
6Mukherjea S. WTMS: A system for collecting and analyzing topic-specified web information. In: Albert V, et al., eds. Proceedings of the 9th ACM-WWW International Conference. Amsterdam: ACM Press, 2000. 457--471.
-
7Kumar R, Raghavan P, Rajagopalan S, Sivakumar D, Tomkins A, Upfal E. The Web as a graph. In: Serge A, ed. Proceedings of the 18th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems. Pennsylvania: ACM Press, 1999.109-118.
-
8Carriere J, Kazman R. WebQuery: Searching and visualizing the Web through connectivity. Computer Networks and ISDN Systems, 1997,29(8-13): 1257-1267.
-
9Chakrabarti S, Dora B, Indyk P. Enhanced hypertext classification using hyperlinks. In: Laura H, ed. Proceedings of the ACM SIGMOD International Conference on Management of Data. Washington: ACM Press, 1998. 307-318.
-
10Spertus E. ParaSite: Mining strctural information on the Web. Computer Networks and ISDN Systems, 1997,29(8-13):1205-1215.
共引文献63
-
1蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量:1
-
2苏铓,史国振,李凤华,申莹,黄琼,王苗苗.细粒度超媒体描述模型及其使用机制[J].通信学报,2013,34(S1):223-229. 被引量:1
-
3冉丽,何毅舟,许龙飞.基于Web结构挖掘的搜索引擎作弊检测方法[J].计算机应用,2004,24(10):158-160. 被引量:4
-
4熊海灵,伍胜,余建桥,李航.一种基于RPUC的Web文档索引库的更新算法[J].计算机科学,2004,31(8):95-96. 被引量:1
-
5邱均平,张洋.网络信息计量学综述[J].高校图书馆工作,2005,25(1):1-12. 被引量:44
-
6杨光.链接分析在企业竞争情报活动中的应用[J].图书情报工作,2005,49(1):19-21. 被引量:17
-
7王凤霞,张景,常晓.电子教务门户研究与设计[J].计算机工程,2005,31(8):227-229. 被引量:2
-
8王凤霞,吕林涛.基于.Net的分布式软件体系结构设计与应用[J].微电子学与计算机,2005,22(3):144-147. 被引量:7
-
9刘红,邵晓良,胡吉兵.基于页面内容和链接结构的超链接主题预测算法[J].现代图书情报技术,2005(5):41-45. 被引量:1
-
10戚华春,黄德才,郑月锋.具有时间反馈的PageRank改进算法[J].浙江工业大学学报,2005,33(3):272-275. 被引量:27
同被引文献35
-
1蔡国民,王雅琳.搜索引擎的相关排序算法分析与优化[J].吉首大学学报(自然科学版),2006,27(5):17-19. 被引量:4
-
2李昕,朱永胜,武港山.Web结构分析算法HITS的改进及应用[J].计算机工程,2005,31(6):40-42. 被引量:5
-
3周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量:156
-
4姚树宇,赵少东.一种使用分布式技术的搜索引擎[J].计算机应用与软件,2005,22(10):127-129. 被引量:7
-
5王继民,彭波.搜索引擎用户点击行为分析[J].情报学报,2006,25(2):154-162. 被引量:45
-
6吕佳.基于兴趣度的Web用户访问模式分析[J].计算机工程与设计,2007,28(10):2403-2404. 被引量:8
-
7QIN JL, ZHOU YL, CHAU M. Building domain specific web collec- tions for scientific digital libraries: a meta search enhanced focused crawling method [A]. Proceedings of the 4th ACM/IEEE - CS joint conference on Digital libraries [C]. 2004. 6.
-
8KRISHNA B, GEORGEAM. When experts agree: using nenaffiliated experts to rank popular topics: prec. of the 10th International World WideWeb Conference [C]. [s.l.]: [s.n.], 2001.
-
9HAVELIWALA T H. Topic---sensitive PageRank: proc. of the 11th International World Wide Web Conference [ C ]. [ s.l. ]: [ s. n. ], 2002.
-
10Kleinberg J. Authoritative sources in a hyperlinked environment [J]. Journal of the ACM, 1999, 46 (5) : 604 - 632.
引证文献5
-
1梁永演.浅析搜索引擎的超链接分析排序算法[J].晋图学刊,2011(4):34-36.
-
2李志义.网络爬虫的优化策略探略[J].现代情报,2011,31(10):31-35. 被引量:17
-
3梁永演.浅析搜索引擎的超链接分析排序算法[J].图书情报论坛,2011(3):48-50. 被引量:1
-
4邹腊梅,龚向坚,欧阳利军.基于用户历史及兴趣度的HC-HITS算法研究[J].南华大学学报(自然科学版),2013,27(2):54-57.
-
5范聪银,李顺初,董晓旭,白丽霞.基于相似结构的算法设计[J].应用数学进展,2013,2(3):107-113. 被引量:4
二级引证文献22
-
1武昊,廖安平,何超英,侯东阳.基于主题相关度的地理信息Web服务爬虫研究[J].地理与地理信息科学,2012,28(2):27-30. 被引量:12
-
2罗宗祥.基于新浪云的微博传播可视化研究[J].软件,2012,33(7):117-119. 被引量:5
-
3周远超,叶枫,高依旻,张雪洁.水利垂直搜索引擎的研究[J].计算机与数字工程,2012,40(10):64-66. 被引量:2
-
4王沐心.门户网站保密检查系统[J].计算机与现代化,2013(10):121-124.
-
5金晓耕,孙建军.基于高校网站的社会网络分析与评价的相关性探究[J].现代情报,2014,34(9):51-55. 被引量:3
-
6白丽霞,李顺初,桂东冬.复合型第二种Weber方程边值问题的新解法[J].中北大学学报(自然科学版),2014,35(6):633-637. 被引量:7
-
7刘爱华,李顺初.二阶线性齐次微分方程边值问题相似构造解的应用及Matlab图版分析[J].纯粹数学与应用数学,2015,31(4):350-359. 被引量:3
-
8罗梅,李顺初.连带Legendre微分方程边值问题解的相似结构[J].重庆工商大学学报(自然科学版),2015,32(11):34-37. 被引量:7
-
9张海,左晓华.聚焦爬虫在互联网金融领域的应用[J].产业与科技论坛,2016,15(11):50-51.
-
10黄兴利,韩艳龙,张长胜,刘笑言,潘永付.基于云计算的Android恶意程序协同检测系统[J].计算机技术与发展,2016,26(8):79-82. 被引量:1
-
1郭鸿,周娅.Web结构挖掘中HITS算法的改进[J].信息化纵横,2009(16):70-72. 被引量:3
-
2李玥,刘发升.基于链接分析的HITS算法研究[J].软件导刊,2008,7(11):70-72. 被引量:5
-
3党燕.Agent技术及在远程故障诊断中的应用研究[J].荆楚理工学院学报,2009,24(7):41-44.
-
4陈卓民.基于HITS算法改进的Web数据挖掘方法研究应用[J].自动化与仪器仪表,2016(7):255-257. 被引量:1
-
5余润海.PageRank算法在网页搜索中的实现[J].考试周刊,2009(24):181-181.
-
6张荣磊,宋洋,田爱奎,谭浩.基于社会网络分析的权威网页挖掘研究[J].电脑知识与技术(过刊),2016,22(7X):69-71.
-
7CheckPoint获2011最佳Web支持站点奖项[J].电信科学,2011,27(6):135-135.
-
8Check Point获2011最佳Web支持站点奖项[J].计算机安全,2011(6):14-14.
-
9张艳鹏,张博阳.基于嵌入式Linux的农业信息化远程监控系统的研究[J].自动化与仪器仪表,2015(12):10-11. 被引量:2
-
10杨晨.反垃圾邮件工作有了“杀手锏”[J].信息网络安全,2007(8):52-53.