基于爬虫和网站分类的主题信息源发现方法被引量：2

Discovery of topic-specific information source based on web crawler and website classification

下载PDF

导出

摘要如何发现主题信息源是主题Web信息整合的前提。提出了一种主题信息源发现方法,将主题信息源发现转化为网站主题分类问题,并利用站外链接发现新的信息源。从网站中提取出能反映网站主题的内容特征词和结构特征词,建立描述网站主题的改进的向量空间模型。以该模型为基础,通过类中心向量法与SVM相结合对网站主题进行分类。提出一种能尽量少爬取网页的网络搜索策略,在发现站外链接的同时爬取最能代表网站主题的页面。将该主题信息源发现方法应用于林业商务信息源,通过实验验证了该方法的有效性。 The discovery of topic-specific information source is the premise of Web information integration. A topic-specific information discovery method is presented, changing the problem to website topic classification and discover websites using external links. An improved VSM model is established to describe the website topic, using both content and structure features extracted from websites. Based on the improved VSM model, a classification method combining center-vector algorithm and SVM is presented to classify the topic of websites. A web search strategy aiming to minimize the quantity of crawled web page is presented to find out web pages that best represent the topic of the website. The topic-specific information source discovery method is used to find forestry business website for test and performs well.

作者邓厚平武刚

机构地区北京林业大学信息学院

出处《计算机工程与应用》 CSCD 北大核心 2016年第3期59-65,共7页 Computer Engineering and Applications

基金中央高校基本科研业务费专项基金资助项目(No.BLYX200928)

关键词网站主题特征描述分类爬虫信息源发现 website topic feature description classification crawler information source discovery

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1董宝力,祁国宁,顾新建.基于混合向量空间模型的主题网站识别[J].清华大学学报（自然科学版）,2005,45(S1):1795-1801. 被引量：4
2Ester M,Kriegel H,Schubert M.Accurate and efficient crawling for relevant websites[C]//VLDB Endowment,2004:396-407.
3Ester M,Kriegel H,Schubert M.Web site mining:a new way to spot competitors,customers and suppliers in the World Wide Web[C]//Proc of ACM SIGKDD,2002:249-258.
4Kriegel H.Classification of websites as sets of feature vectors[C]//Proc IASTED DBA,2004:127-132.
5付德宇,代成琴,仲玮.基于关键资源的网站自动分类系统[J].哈尔滨工业大学学报,2006,38(1):19-21. 被引量：1
6董宝力,祁国宁.面向制造网络的节点发现技术研究[J].浙江大学学报（工学版）,2006,40(5):738-742. 被引量：4
7王莉军,杨炳儒,翟云,谢永红.动态社区发现算法的研究进展[J].计算机应用研究,2011,28(9):3211-3214. 被引量：6
8李会,王立峰.Web网页文本特征选择方法研究[J].计算机工程与设计,2010,31(16):3724-3727. 被引量：4
9谭胜,马静,吴一占.基于主题描述模型的相关性判断在网页信息抽取中的应用[J].情报学报,2011,30(2):155-159. 被引量：6
10寇苏玲,蔡庆生.中文文本分类中的特征选择研究[J].计算机仿真,2007,24(3):289-291. 被引量：30

二级参考文献159

1杨涛.中国50所大学网站的网络影响因子比较分析[J].图书情报工作,2004,48(6):47-50. 被引量：11
2黄晓斌,葛容.国家图书馆网站被链接的比较分析[J].图书馆学研究,2004(8):32-35. 被引量：8
3田红梅,李强.基于链接分析的学术性核心网站评价[J].情报科学,2004,22(9):1078-1080. 被引量：15
4宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
5田永鸿,黄铁军,高文.基于多粒度树模型的Web站点描述及挖掘算法[J].软件学报,2004,15(9):1393-1404. 被引量：5
6顾健,黄萱菁,吴立德.一种利用链接信息检索关键资源的算法[J].计算机科学,2004,31(10):189-192. 被引量：2
7沙勇忠,欧阳霞.中国省级政府网站的影响力评价——网站链接分析及网络影响因子测度[J].情报资料工作,2004,25(6):17-22. 被引量：65
8张洋,邱均平,文庭孝.网络链接分析研究进展[J].图书情报知识,2004,21(6):3-8. 被引量：20
9徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
10段宇峰.网站特征的定量研究(一)——对大学网站链接特征的探讨[J].情报理论与实践,2005,28(1):82-86. 被引量：14

共引文献107

1王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
2王煜,张浩斌.面向主题的网页采集系统的设计与研究[J].计算机与数字工程,2008,36(4):78-80. 被引量：3
3符发.中文文本分类中特征选择方法的比较[J].现代计算机,2008,14(6):43-45. 被引量：7
4高波.网页元素结构化模型的研究[J].常州工学院学报,2008,21(3):43-45.
5蔡明,倪贤贵.基于超链接和内容相关度的综合爬行策略[J].微计算机信息,2008,24(27):204-205.
6姚兴山.基于词频的中文文本分类研究[J].现代情报,2009,29(2):179-181. 被引量：4
7李家兵.中文文本分类特征选择的研究[J].皖西学院学报,2009,25(2):22-25. 被引量：1
8肖婷,唐雁.改进的χ^2统计文本特征选择方法[J].计算机工程与应用,2009,45(14):136-137. 被引量：26
9林森,唐发根.基于Log似然比的特征选择算法[J].计算机工程,2009,35(19):56-58. 被引量：4
10张翔,周明全,耿国华.基于粗糙集的中文文本特征选择方法研究[J].计算机应用与软件,2010,27(3):4-5. 被引量：3

同被引文献27

1吴保国,李成赞,马驰,张旸.森林培育专家决策支持系统的研究[J].北京林业大学学报,2009,31(S2):1-8. 被引量：15
2张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
3高强,朱金福.航空收益管理中非限化估计方法研究[J].预测,2005,24(5):66-69. 被引量：8
4陈瑜,罗利.航空收入管理的需求修复方法[J].成都信息工程学院学报,2005,20(6):747-750. 被引量：10
5何冬昀,罗利.航线需求预测的一种改进Winters方法[J].交通运输系统工程与信息,2006,6(6):103-107. 被引量：6
6刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：132
7申晋.基于Lucene和Nutch的林业垂直搜索引擎的研建[J].农业网络信息,2008(4):16-18. 被引量：7
8丁宝琼,谢远平,吴琼.基于改进DOM树的网页去噪声方法[J].计算机应用,2009,29(B06):175-177. 被引量：6
9张戬慧.专业智能搜索系统在动物医学领域中的应用[J].东北农业大学学报,2009,40(9):141-144. 被引量：1
10金岳富,范剑英,冯扬.分布式Web信息采集系统的设计与实现[J].哈尔滨理工大学学报,2010,15(1):116-119. 被引量：7

引证文献2

1刘建成,吴保国,陈栋.基于网络爬虫的森林经营知识采集系统研建[J].浙江农林大学学报,2017,34(4):743-750. 被引量：5
2郭鹏.网络环境下收益管理系统需求无约束估计综述[J].计算机工程与应用,2017,53(19):17-25. 被引量：7

二级引证文献12

1郭鹏.收益管理中的多分布网络需求无约束估计模型[J].统计与决策,2018,0(5):44-49. 被引量：2
2刘江,刘国玺,张雁,吕丹桔.基于多线程和翻译的网络爬虫鸟类音频数据采集系统设计与实现[J].现代计算机,2018,24(20):85-88. 被引量：2
3郭鹏,周杰.基于分解查找的航空客运网络需求无约束估计[J].工业工程与管理,2019,24(4):136-144. 被引量：2
4俞永飞.试析局域环境下计算机网络线路循环单元控制技术[J].黑河学院学报,2019,10(9):218-220.
5张会儒,雷相东,李凤日.中国森林经理学研究进展与展望[J].林业科学,2020,56(9):130-142. 被引量：26
6董富江,张文学.分布式主题舆情采集与分析系统设计[J].软件导刊,2020,19(11):116-119.
7郭鹏.航线网络中需求无约束估计的非参数选择模型[J].管理科学学报,2020,23(12):30-51. 被引量：2
8谢蓉蓉,徐慧,郑帅位,马刚.基于网络爬虫的网页大数据抓取方法仿真[J].计算机仿真,2021,38(6):439-443. 被引量：16
9黎妍,肖卓宇.引入Scrapy框架的Python网络爬虫应用研究[J].福建电脑,2021,37(10):58-60. 被引量：5
10郭鹏,周杰.航线网络需求非限化估计中的策略行为发现算法[J].工业工程与管理,2023,28(3):96-110.

1陈阳.现代多媒体技术在网站艺术设计中的应用[J].中国西部科技,2006,5(10):34-35. 被引量：4
2王文钢.网之初性莫急[J].电子测试,2002(10):50-51.
3孙立辉,商月平.企业网站建设应注意的问题[J].科技情报开发与经济,2005,15(10):188-189. 被引量：3
4叶培顺.非结构化P2P网络搜索策略研究[J].榆林学院学报,2015,25(2):37-40.
5爱好者网站LOGO大征集活动开始[J].电脑爱好者,2006,0(17):116-116.
6瞿苏.基于HTML5+CSS3实现天气预报网站主题页面[J].安徽电子信息职业技术学院学报,2017,16(1):38-42.
7孙洲伟,赵长林.将流行攻击的风险最小化[J].网管员世界,2009(21):79-80.
8孟庆杰.ASP.NET 2.0主题与皮肤意义及实现[J].南京工业职业技术学院学报,2007,7(2):48-50.
9刘永超.浅谈企业网站的设计[J].计算机光盘软件与应用,2014,17(23):288-288.
10陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类方法的研究与实现[J].计算机应用,2004,24(S1):277-279. 被引量：19

计算机工程与应用

2016年第3期

浏览历史

内容加载中请稍等...

基于爬虫和网站分类的主题信息源发现方法被引量：2

参考文献15

二级参考文献159

共引文献107

同被引文献27

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于爬虫和网站分类的主题信息源发现方法 被引量：2

参考文献15

二级参考文献159

共引文献107

同被引文献27

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于爬虫和网站分类的主题信息源发现方法被引量：2