摘要
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。
Based on the data analysis of web pages, the authors present the indexing scheme of Chinese web pages and outline an experimental web page auto-indexing and classification system based on an expert knowledge database which consists the Chinese Library Classification and several thesaurus and keywords lists. The system adopts method of word frequency weighting and measure of word similarity to fulfill the indexing and classification of Chinese web pages. Finally the paper also discusses the technology of new words identification.
出处
《大学图书馆学报》
CSSCI
北大核心
2004年第1期50-55,64,共7页
Journal of Academic Libraries
基金
国家社科基金项目"基于知识库的中文信息自动分类和自动标引"(02BTQ012)的研究成果之一。
关键词
知识库
网页标引
自动标引
自动分类系统
概念语义网络
Web Pages, Internet Retrieval, Intelligent Search Engine, Knowledge Database, Auto-indexing, Auto-classification