-
题名一种适用于移动搜索的中文分词算法
被引量:2
- 1
-
-
作者
贺菲菲
贺炎
齐静娜
-
机构
中兴通讯股份有限公司西安研发中心
西安邮电大学计算机学院
-
出处
《西安邮电大学学报》
2015年第4期62-65,共4页
-
基金
国家自然科学基金资助项目(61373116)
西安邮电大学青年基金资助项目(ZL2014-27)
-
文摘
针对现有中文分词算法无法为移动搜索提供用户兴趣偏好信息的现状,提出一种改进的正向最大匹配中文分词算法。该算法基于逐字二分的分词词典机制,添加词分类信息,在词典中存储了每个词条的分类信息,分词时采用改进的次字区位码哈希非均匀分段机制进行正向最大匹配分词。实验结果表明,与逐字二分法相比,改进的分词算法其存储空间增加了13%,但时间效率提高了20%左右,且分词后可同时提取出词条的分类信息。
-
关键词
中文分词
词典机制
词分类信息
-
Keywords
chinese word segmentation, dictionary mechanism, words' classified information
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名移动搜索结果过滤技术的研究
- 2
-
-
作者
贺菲菲
贺炎
齐静娜
-
机构
中兴通讯有限公司
西安邮电大学计算机学院
-
出处
《物联网技术》
2015年第10期94-96,98,共4页
-
基金
国家自然科学基金项目(61373166)
陕西省教育厅产业化培育项目(2012JC22)
-
文摘
针对移动设备要求实时性强、准确性高的特点,移动搜索引擎需要从互联网上的海量信息中找出最贴近用户真实搜索意图的信息,往往对检索结果进行过滤,并将最精确的检索结果反馈给用户。文中分析比较了Page Rank算法和HITS算法的优缺点,提出了一种基于用户兴趣模型的移动搜索结果过滤方法。该方法首先对服务器端的用户点击记录进行数据挖掘并聚类,得到用户的兴趣模型,然后根据该兴趣模型对搜索引擎反馈的检索结果进行过滤,去掉与用户查询意图相关性不大的检索结果,将更精准的检索结果反馈给用户。文中将该方法与通用搜索引擎的搜索结果进行了对比实验,实验结果表明,文章所提出的方法得出的搜索结果更符合用户需求,查询满意度更高。
-
关键词
搜索引擎
PAGERANK
HITS
用户兴趣模型
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-