面向新闻网的智能抓取技术被引量：2

The Intelligent Fetching Technology Research about News

导出

摘要随着新闻网信息的急剧增加,研究面向新闻网的智能抓取技术变得十分必要。在基于主题网络爬虫的基础上,改进了网页与主题的相关度算法,设计出面向新闻网的智能抓取技术。按照预先确定的主题,分析超链接和刚刚抓取的网页内容,获取下一个要爬行的URL。有选择的访问新闻网上的网页和相关的链接,尽可能保证多爬行与主题相关的网页。实验结果表明,改进后的抓取技术比以往的新闻网抓取技术在性能上有较大提升,抓取准确率显著提高。 With the rapid increase of network information, it becomes necessary to research intelligent fetching technology for news. In this paper, on the basis of topic web crawler, it improved web page with the theme of correlation algorithm, designed news oriented in- telligent fetching. According to the predetermined theme, it should be analyzed hyperlinks and grab web content to obtain the next craw- ling URL. Web pages online and related links are selective to access, the related subject web pages are crawled as much as possible. The experiment results show that the improved technology was highly promoted in the performance and the grab significantly accuracy compared to the previous technology.

作者吕振辽翟莹莹魏彦婧

机构地区东北大学计算中心

出处《控制工程》 CSCD 北大核心 2013年第4期707-710,共4页 Control Engineering of China

基金国家自然科学基金(61272179) 中央高校基本科研业务费专项资金资助(N110316001) 辽宁省自然科学基金(20092005)

关键词主题提取网络爬虫页面相关度 topic distillation web crawler page relevance

分类号 TP27 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献20

1宋海洋,刘晓然,钱海俊.一种新的主题网络爬虫爬行策略[J].计算机应用与软件,2011,28(11):264-267. 被引量：15
2乔建忠.一种基于统计特征面向“类型”主题抓取的网页相关性判断策略研究[J].现代图书情报技术,2012(6):9-16. 被引量：3
3汪涛,樊孝忠.链接分析对主题爬虫的改进[J].计算机应用,2004,24(B12):174-176. 被引量：12
4魏晶晶,杨定达,廖祥文.基于网页内容相似度改进算法的主题网络爬虫[J].计算机与现代化,2011(9):1-4. 被引量：6
5王江红,朱丽君,李彩虹.一种新型网络爬虫的设计与实现[J].微计算机信息,2010,26(3):136-137. 被引量：4
6刘昊.搜索引擎优化策略在新闻网站中的应用[J].电脑知识与技术（过刊）,2009,15(3X):1857-1858. 被引量：1
7陈燕娜,邵志清.基于全文搜索的中文搜索引擎设计技术[J].计算机工程与应用,2002,38(17):196-198. 被引量：10
8Asahi N, Yamamoto T,Nakamura S, et al. Finding intermediateentity between two examples on the Web[ C]. Proceedings of The EleventhInternational Workshop on Web Information and Data Management. NewYork,USA’2009’l :83-86.
9Bohunsky P, Gatterbauer W. Visual structure-based Web pageclustering and retrieval[ C] . Proceedings of the 19th International Confer-ence on World Wide Web. New York,USA, 2010,22: 1067-1068.
10曹军.Google的PageRank技术剖析[J].情报杂志,2002,21(10):15-18. 被引量：70

二级参考文献108

1严亚男,束洪春,吴水军.引入发电权交易市场解决水电来水不确定性的问题[J].云南电力技术,2006,34(4):18-20. 被引量：6
2刘亚安,薛禹胜,管晓宏.Price-taker在两个电力市场中的交易决策 (二)发电商的策略[J].电力系统自动化,2004,28(17):12-15. 被引量：22
3汪涛,樊孝忠,顾益军,刘林.基于概念分析的主题爬虫设计[J].北京理工大学学报,2004,24(10):890-893. 被引量：10
4杨子林.电力市场下各种网损分摊方法的应用与比较[J].华北电力技术,2005(3):37-40. 被引量：12
5高志华,任震,黄雯莹.电力市场中调峰权及其交易机制[J].中国电机工程学报,2005,25(5):88-92. 被引量：48
6马新顺,文福拴,刘建新.构造发电公司最优报价策略的机会约束规划方法[J].电网技术,2005,29(10):35-39. 被引量：30
7王壬,尚金成,冯旸,周晓阳,张勇传,游义刚.基于CVaR风险计量指标的发电商投标组合策略及模型[J].电力系统自动化,2005,29(14):5-9. 被引量：95
8董福贵,张世英.发电厂商组合报价模型的经济学分析[J].华北电力大学学报（社会科学版）,2005(3):37-39. 被引量：2
9周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：155
10姚建刚,周启亮,张佳启,黄攀.基于期权理论的发电权交易模型[J].中国电机工程学报,2005,25(21):76-81. 被引量：53

共引文献147

1蔡建超,蔡明.一种基于P2P网络的分布式PageRank算法[J].微计算机信息,2008,24(3):104-105. 被引量：4
2刘林,汪涛,樊孝忠.主题爬虫的解决方案[J].华南理工大学学报（自然科学版）,2004,32(z1):137-141. 被引量：10
3隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
4张奇忠.基于计算机网络教育的智能搜索引擎排序研究[J].科技经济市场,2006(12). 被引量：1
5唐培和,杨新伦,刘浩.Google搜索引擎及其实现技术[J].广西工学院学报,2004,15(2):29-33. 被引量：4
6何晓阳,吴治蓉,连丽红,谢永碧.SALSA算法技术剖析[J].情报杂志,2004,23(7):26-27. 被引量：3
7唐培和,杨新论,刘浩.Google搜索引擎剖析[J].情报杂志,2004,23(8):88-90. 被引量：5
8葛蓉.利用网络日志分析提高搜索引擎的检准率[J].情报科学,2004,22(10):1250-1253. 被引量：5
9焦玉英,刘伟成.网络环境下情报检索模型理论发展及评价体系研究[J].情报理论与实践,2004,27(5):523-527. 被引量：6
10汪涛,樊孝忠,顾益军,刘林.基于概念分析的主题爬虫设计[J].北京理工大学学报,2004,24(10):890-893. 被引量：10

同被引文献22

1琚春华,鲍福光.基于情境和主体特征融入性的多维度个性化推荐模型研究[J].通信学报,2012,33(S1):17-27. 被引量：8
2苏潭英,郭宪勇,金鑫.一种基于Lucene的中文全文检索系统[J].计算机工程,2007,33(23):94-96. 被引量：22
3李聪,梁昌勇,马丽.基于领域最近邻的协同过滤推荐算法[J].计算机研究与发展,2008,45(9):1532-1538. 被引量：93
4徐文杰,陈庆奎.增量更新并行W eb爬虫系统[J].计算机应用,2009,29(4):1117-1119. 被引量：8
5霍庆,刘培植.使用Solr为大数据库搭建搜索引擎[J].软件,2011,32(6):11-14. 被引量：16
6许飒爽,曹健.面向服务环境的服务个性化推荐算法[J].计算机集成制造系统,2011,17(11):2526-2531. 被引量：4
7乔岳,陈丽云.我国网上交易的机制演化与信息传导[J].中南财经政法大学学报,2012(3):48-55. 被引量：1
8杨慧中,董陶,陶洪峰.基于改进K-means聚类算法的组合模型建模[J].控制工程,2013,20(2):201-203. 被引量：18
9安靖.面向网络舆情的检索系统设计研究[J].软件导刊,2013,12(7):40-41. 被引量：1
10赵瑾璐,郑婷予.C2C模式下淘宝网购交易双方博弈模型分析[J].管理学刊,2014,27(3):58-61. 被引量：2

引证文献2

1焦明海,陈晓芳,陈旭,苏钟海.基于贝叶斯网络认知反馈的协同过滤推荐[J].控制工程,2017,24(7):1310-1317. 被引量：3
2陈欢,黄勃,刘文竹,高永彬,姜晓燕.基于Python的网络新闻爬虫与检索[J].软件导刊,2019,18(5):168-171. 被引量：10

二级引证文献13

1刘晖,石倩.基于网络爬虫的新闻网站自动生成系统的设计与实现[J].电子技术与软件工程,2019(13):18-19. 被引量：3
2李福荣,贾志刚.基于Python的校园贴吧数据爬虫技术研究[J].技术与市场,2019,26(11):34-35. 被引量：2
3耿晓利,邓添文.用户需求网络信息的优先协同过滤推荐仿真[J].计算机仿真,2019,36(11):352-355. 被引量：5
4仇晨晔.面向人工智能时代的离散数学教学方法研究[J].软件导刊,2019,18(12):192-194. 被引量：13
5许凤翔.一种改进相似度的协同过滤算法实现[J].电子科技,2020,33(2):54-59. 被引量：7
6陈广智.教师总览性上课时间信息生成方法及其Python实现[J].软件导刊,2020,19(6):166-170.
7王海玲.大数据时代下信科专业离散数学教学改革[J].计算机教育,2020(7):66-69. 被引量：7
8陈耶拉,耿秀丽.基于改进协同过滤的个性化产品服务系统方案推荐[J].计算机集成制造系统,2021,27(1):240-248. 被引量：10
9王胜,谢元平.基于Scrapy和Kettle的对标城市政策文件库建设[J].电子技术与软件工程,2021(5):181-183. 被引量：2
10吴道君.大数据背景python在网络爬虫框架中的应用[J].科学技术创新,2021(21):97-99. 被引量：5

1宋韬.对工业机器人抓取技术的研究[J].中国新技术新产品,2012(9):4-4. 被引量：2
2美国国家科学基金会(NSP)资助Energid开发机器人抓取技术[J].机器人技术与应用,2009(3):48-48.
3陈舜华,王晓彤,郝志峰,蔡瑞初,肖晓军,卢宇.基于微博API的分布式抓取技术[J].电信科学,2013,29(8):146-150. 被引量：7
4张海东.关于对互联网信息采集支持静态页面和动态页面的抓取技术的文献综述[J].科学咨询,2007(5):49-51.
5刘金亮,吴芳,孟海江.智能化垂直搜索系统的构建[J].电脑知识与技术,2010(01Z):286-287.
6抓取技术为雄克带来商机[J].机械工程师,2014,0(12):3-3.
7王恒海.运动中的夹手[J].国外科技新书评介,2006(2):17-18.
8G.Cubric,G.Nikolic,吴丽霞.应用于转移针织物的真空握持器[J].国际纺织导报,2014,42(4):27-28. 被引量：1
9王学林,姬长英,周俊,居洪玲,张帆.基于力外环控制的果蔬抓取技术研究[J].浙江农业学报,2009,21(6):627-632. 被引量：7
10雄克着眼于未来的移动抓取技术[J].工具技术,2013,47(12).

控制工程

2013年第4期

浏览历史

内容加载中请稍等...

面向新闻网的智能抓取技术被引量：2

参考文献20

二级参考文献108

共引文献147

同被引文献22

引证文献2

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

面向新闻网的智能抓取技术 被引量：2

参考文献20

二级参考文献108

共引文献147

同被引文献22

引证文献2

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

面向新闻网的智能抓取技术被引量：2