中文网页聚类系统的研究与设计

Design of Chinese Web Clustering System

下载PDF

导出

摘要设计中文网页聚类系统是为了便于从动态Web文本集中快速、有效地挖掘知识。该系统以经典聚类算法为基础,通过比较网页相似度,将相似度高的网页聚合,并提交用户界面显示。通过应用模糊数学中的不确定度,表达了样本类属不同的模糊性,从而更为真实地反映客观情况,改善了以往确定归属某一类的不完整信息收集,结果更具客观性。 Chinese web clustering system is raised for mining knowledge quickly and efficiently from flexible web documents. So the system is based on clustering algorithm. It can cluster similar webs automatically and submit the results to user interface finally by comparing their similaritis. Uncertainty degree belonging to each cluster by fuzzy clustering algorithm expresses uncertainty in kind belonging and can reflect real world more impersonally. Finally query results are improved.

作者于铁军耿玉良

机构地区江苏信息职业技术学院南京中医药大学

出处《江苏广播电视大学学报》 2007年第3期55-57,共3页 Journal of Jiangsu Radio & Television University

关键词文本挖掘聚类信息检索网页 web mining clustering information retrieval

分类号 TP311.52 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1付国宏,王晓龙.汉语词语边界自动划分的模型与算法[J].计算机研究与发展,1999,36(9):1144-1147. 被引量：14

二级参考文献3

1吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
2孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
3付国红王晓龙等.基于词形的汉语文本切分方法.第五届全国人机语音通讯学术会议论文集（NCMMSC－98）[M].哈尔滨,1998.328-332.

共引文献13

1张长利,赫枫龄,左万利.一种基于后缀数组的无词典分词方法[J].吉林大学学报（理学版）,2004,42(4):548-553. 被引量：14
2张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
3巨同升.机器学习在汉字智能拼音输入中的应用[J].山东理工大学学报（自然科学版）,2005,19(3):86-88. 被引量：1
4张会平,周宁,陈立孚.跨语言信息检索可视化研究[J].情报科学,2007,25(1):134-138. 被引量：10
5周宁,张会平,金大卫.文本信息可视化模型研究[J].情报学报,2007,26(1):155-160. 被引量：12
6闫蓉,张蕾.基于遗传算法的汉语未登录词识别[J].计算机应用与软件,2008,25(7):88-90. 被引量：3
7刘京城,刘锋.一种改进的基于后缀数组的无词典分词方法[J].计算机技术与发展,2011,21(11):49-52.
8陈清才,王晓龙.一种基于词矢量的汉语语义量化模型[J].计算机研究与发展,2001,38(2):207-212. 被引量：7
9黄德根,杨元生,王省,张艳丽,钟万勰.基于统计方法的中文姓名识别[J].中文信息学报,2001,15(2):31-37. 被引量：34
10曾碚凯,岳峰.应用VRML实现手语的网络应用[J].沈阳工业大学学报,2001,23(3):218-220.

1沈盈洪,丰翔龙,黄荣游.基于网页聚类的搜索结果优化算法研究[J].计算机应用,2010,30(A01):51-53. 被引量：3
2练杰,聂俊飞,李华贵,李刚.基于MSP430单片机的多功能蓝牙温度检测系统[J].仪表技术,2015(8):36-38. 被引量：3
3张敏.信息抽取技术在网页中的应用[J].中国城市经济,2011(20):150-151.
4徐铁,耿佳宁.网页信息抽取方法的研究[J].信息技术,2009,33(4):112-115. 被引量：4
5葛甲.自主搜索引擎的成功案例[J].网络传播,2011(4):88-89.
6贺秋芳,曾启杰,蔡延光.挖掘用户标签的增强型社区网页聚类算法[J].微电子学与计算机,2013,30(2):74-77. 被引量：4
7郭晨娟,李战怀.基于概念的网页相似度处理算法研究[J].计算机应用,2006,26(12):3030-3032. 被引量：8
8刘勘,范琴.链路结构的网页聚类研究[J].小型微型计算机系统,2016,37(7):1450-1454. 被引量：1
9赵跃华,胡向涛.网络钓鱼攻击的防御技术及防御框架设计[J].计算机应用研究,2013,30(6):1863-1866. 被引量：11
10潘志舟,赵靖.基于多中文搜索引擎的可扩展网络混合爬虫[J].安徽科技学院学报,2012,26(6):70-75. 被引量：1

江苏广播电视大学学报

2007年第3期

浏览历史

内容加载中请稍等...

中文网页聚类系统的研究与设计

参考文献1

二级参考文献3

共引文献13

相关作者

相关机构

相关主题

浏览历史