中文博客搜索引擎研究被引量：3

Study of Chinese blog search engine

下载PDF

导出

摘要为了充分利用博客日志所提供的信息,提出了建立中文博客搜索引擎的基本思路。通过对博客的技术特点和博客搜索引擎工作原理的分析,设计了中文博客搜索引擎的系统结构。在此基础上,利用规则定义和正则表达式,结合真正简易聚合技术对传统的网络爬虫进行了改进,较好地解决了博客信息难以被收录的问题。利用真正简易聚合技术对博客信息进行格式化处理,加快了博客信息采集速度。通过对中文分词的扩展,利用Lucene.net全文搜索工具实现了一个中文博客搜索引擎。实验测试结果表明,采用的方案和技术是可行的。 To fully exploit the information contained in blogs, the idea of Chinese Blog search engine （CBSS） is proposed. After analyzing the characteristics of blogs and the principle of CBSS, the architecture of CBSS is designed. Based on the CBSS architecture, the traditional web crawler is improved by using rules definition, regular expression, and really simple syndication （RSS） to solve the problem that it is hard to collect blog information. Furthermore, the blog information is formatted using RSS to accelerate the process of collection. A CBSS is implemented based on Lucene.net with the expansion of Chinese words segmentation. Finally, the experimental results show that the design and the technology are feasible.

作者潘冰徐亮亮

机构地区暨南大学珠海学院北京数码大方科技有限公司

出处《计算机工程与设计》 CSCD 北大核心 2010年第8期1718-1721,共4页 Computer Engineering and Design

关键词博客博客搜索引擎网络爬虫真正简易聚合正则表达式 blog blog search engine crawler RSS regular expression

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1王娜.博客搜索引擎与传统搜索引擎的比较研究[J].图书情报工作,2006,50(7):54-57. 被引量：11
2胡海荣.国外博客搜索引擎的比较研究[J].图书馆,2008(6):55-56. 被引量：2
3博客搜索引擎[EB/OL].http://www.sowang.corn/SEARCH/blog-search.htm,2009.
4张立彬,杨军花,翟春红,王璐.基于RSS的搜索引擎技术及其发展趋向探析[J].情报科学,2009,27(2):183-189. 被引量：14
5李刚,宋伟,邱哲.Ajax+Lucene构建搜索引擎[M].北京:人民邮电出版社,2006:204-217.
6向晖,郭一平,王亮.基于Lucene的中文字典分词模块的设计与实现[J].现代图书情报技术,2006(8):46-50. 被引量：27
7彭曙蓉,章兢,杨文忠.MD5算法在消除重复网页算法中的应用[J].电脑知识与技术,2005(10):15-16. 被引量：5
8Kelvin Zhang.Lucene.net的中文分词组件Advanced Chinese-Analyzer [EB/OL]. http://www.cnblogs.com/KelvinZhang/archive/2007/03/03/AdvancedChineseAnalyzer.html.

二级参考文献58

1潘有能,邓三鸿.基于XML和关联规则的Web挖掘研究[J].现代图书情报技术,2004(7):30-34. 被引量：9
2王林.搜索引擎的原理和发展[J].图书馆理论与实践,2004(4):37-38. 被引量：17
3高琰,谷士文,谭立球,费耀平.基于Lucene的搜索引擎设计与实现[J].微机发展,2004,14(10):27-30. 被引量：23
4李子臣 ,王晓丽 .引擎竞争的两大焦点：RSS技术和桌面搜索模式[J].中国信息导报,2004(10):54-56. 被引量：10
5易海燕.新闻网站:用好RSS聚合新闻这把双刃剑[J].中国传媒科技,2005(6):44-47. 被引量：2
6江泽文,李桂蓉.RSS:即将到来的互联网新革命[J].传媒观察,2005(9):46-47. 被引量：5
7柯青.基于RSS技术的个性化信息服务新方式——由雅虎看RSS在搜索引擎中的应用[J].情报理论与实践,2005,28(5):537-541. 被引量：18
8刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
9伍玉伟.RSS:网络信息“聚合”利器[J].图书情报论坛,2006(1):72-73. 被引量：16
10张道银,蔡瑞英.RSS技术及其应用研究[J].微计算机信息,2006,22(07X):281-283. 被引量：27

共引文献61

1廖思周.MD5算法防穷举(冲撞)破译的设计及其实现[J].五邑大学学报（自然科学版）,2006,20(4):33-37. 被引量：1
2廖大蓉.浅论网络环境下信息检索方法[J].图书情报工作,2010,54(S1):264-265.
3靳辉.基于RSS技术的图书馆一站式信息服务[J].黑龙江史志,2010(23):93-94. 被引量：2
4彭曙蓉,王耀南.针对小文本的Web数据挖掘技术及其应用[J].微计算机信息,2006,22(07X):203-205. 被引量：10
5叶云,梁京章.基于Lucene的搜索引擎在远程教育平台中的应用[J].现代计算机,2007,13(4):53-55. 被引量：2
6张弢,张成昱.一种数字教学资源聚类重构系统的实现[J].现代图书情报技术,2007(8):1-5.
7任严,韩臻,刘丽.基于FFMPEG的视频转换与发布系统[J].计算机工程与设计,2007,28(20):4962-4963. 被引量：26
8王莉云,王华,陈刚,姚乃明.基于Lucene的全文检索系统的设计与实现[J].计算机工程与设计,2007,28(24):5959-5961. 被引量：14
9宋佳,诸云强,刘润达.一种基于Lucene改进的全文检索工具包[J].计算机工程与应用,2008,44(4):172-175. 被引量：15
10张程,陈自郁,古平,杨瑞龙.基于DOM树结构的Blog网页自动识别[J].计算机应用研究,2008,25(5):1489-1491. 被引量：8

同被引文献14

1郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(06X):304-306. 被引量：18
2Tim Berners-Lee. Semantic Web - XML2000 [ EB/OL] . http: //www. w3. org/2000/Talks/1206-xml2k-tbl/, 2000-12-06.
3张柳松.基于本体的智能检索系统的研究[J].微计算机信息,2007,23(33):237-238. 被引量：4
4李翔,李生红,刘功申,等.信息内容安全管理及应用[M].北京:机械工业出版社,2010:7.
5何凤英.基于本体的垂直搜索引擎的研究[J].信息化纵横,2009(13):48-51. 被引量：2
6曾润喜.网络舆情信息资源共享研究[J].情报杂志,2009,28(8):187-191. 被引量：167
7叶育鑫,欧阳丹彤.语义Web搜索技术研究进展[J].计算机科学,2010,37(1):1-5. 被引量：20
8刘佐达,张久岭,陈茂科,李星.一种面向BBS信息检索的主题网络爬虫算法[J].郑州大学学报（理学版）,2010,42(2):22-25. 被引量：13
9潘涛,梁正友.Nutch中网页排序效果的改进方法[J].计算机工程,2010,36(13):42-44. 被引量：6
10王远定,梁久祯.利用关键词倒排表实时检索中文网页[J].计算机工程与应用,2010,46(28):135-137. 被引量：4

引证文献3

1刘兆伟,黄永峰.面向主题搜索引擎的实现与优化[J].数据通信,2011(4):29-32.
2崔琳,汪材印.基于语义Web的Blog智能检索系统研究[J].长江大学学报（自然科学版）,2011,8(10):77-79. 被引量：2
3马国富.网络论坛类媒体舆情热点主动发现的方法[J].重庆科技学院学报（社会科学版）,2015(3):7-8.

二级引证文献2

1杨敏,马建玲.基于SIOC构建科学博客本体实践探究[J].情报资料工作,2012,33(6):66-70. 被引量：1
2常春梅,崔琳.基于语义扩展的图书智能查询系统研究[J].电脑编程技巧与维护,2014(24):108-109. 被引量：1

1李志华.我的目标是博客的ALEXA——专访第一中文博客搜索引擎“中客网”创始人陈校[J].市场营销案例,2006(6):16-17.
2肖离离.浅议基于RSS技术的博客搜索引擎[J].电子商务,2011,12(9):55-57.
3史蒂夫.鲁贝尔,玄伟剑.2006年互联网趋势观察[J].互联网周刊,2006(1):62-63. 被引量：2
4博客[J].青年科学,2009(4):30-30.
5流言.老徐博客,还能“博”多久?[J].电脑爱好者,2006,0(13):112-112.
6盘俊春.一款实用的桌面端全文搜索工具:FileSearchy[J].中国信息技术教育,2014(23):74-75.
7封硕,赵捧未,施水才.基于RSS的分布式博客搜索引擎的研究[J].情报杂志,2007,26(8):96-97. 被引量：6
8王浩.新一代博客搜索引擎的开发[J].黑龙江科技信息,2008(11):51-51.
9张焕明.基于Lucene的博客搜索引擎设计与实现[J].现代计算机,2010,16(3):177-180.
10王娜.博客搜索引擎与传统搜索引擎的比较研究[J].图书情报工作,2006,50(7):54-57. 被引量：11

计算机工程与设计

2010年第8期

浏览历史

内容加载中请稍等...

中文博客搜索引擎研究被引量：3

参考文献8

二级参考文献58

共引文献61

同被引文献14

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

中文博客搜索引擎研究 被引量：3

参考文献8

二级参考文献58

共引文献61

同被引文献14

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

中文博客搜索引擎研究被引量：3