摘要
使用基于关键词匹配的方法,分析了HTML语言描述的Web文档,提取网页中有用的特征信息,得到两类标记中的内容:一类是网页的全局描述信息,如<TITLE></TITLE>和<META></META>;另一类起局部修饰作用,强调了网页的部分内容,如<Hn>。从而提出了基于层次概念的用户模型,并使用向量空间模型方法建立了以突发事件新闻为基础的用户兴趣模型。实验表明,这种方法有一定的可行性。
Web documents described by HTML language is analyzed by using the method about matches based on the key word, which the useful characteristic information of web documents. Thus two kinds marks contents is obtained: One is overall description information about web documents like 〈TITLE〉〈/TITLE〉and 〈META〉〈/META〉. Another played embellishment in web documents, emphasized partial contents more or less, like 〈Hn〉.thus proposed based on the hierarchy concept user model. Then, based web accidental news corpora, user interest model is established by vector space model. The experiment indicated that, the method has the certain feasibility.
出处
《计算机工程与设计》
CSCD
北大核心
2008年第1期181-183,共3页
Computer Engineering and Design
基金
国家自然科学基金项目(60475022)
山西省自然科学基金项目(20041041)
山西省回国留学人员基金项目(2002004)
关键词
层次分析
用户模型
个性化服务
Web突发事件新闻
中文信息处理
analytic hierarchy
user model
personalization service
web accidental news
Chinese information processing