期刊文献+

基于知识库的网页自动标引和自动分类系统的设计 被引量:38

Design of Web Page Auto-indexing & Auto-classification System Based on the Knowledge Database
下载PDF
导出
摘要 针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。 Based on the data analysis of web pages, the authors present the indexing scheme of Chinese web pages and outline an experimental web page auto-indexing and classification system based on an expert knowledge database which consists the Chinese Library Classification and several thesaurus and keywords lists. The system adopts method of word frequency weighting and measure of word similarity to fulfill the indexing and classification of Chinese web pages. Finally the paper also discusses the technology of new words identification.
出处 《大学图书馆学报》 CSSCI 北大核心 2004年第1期50-55,64,共7页 Journal of Academic Libraries
基金 国家社科基金项目"基于知识库的中文信息自动分类和自动标引"(02BTQ012)的研究成果之一。
关键词 知识库 网页标引 自动标引 自动分类系统 概念语义网络 Web Pages, Internet Retrieval, Intelligent Search Engine, Knowledge Database, Auto-indexing, Auto-classification
  • 相关文献

参考文献10

二级参考文献23

共引文献93

同被引文献503

引证文献38

二级引证文献154

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部