基于序列数据挖掘的中文网页特征选择方法被引量：2

Chinese Web page feature selection method based on sequential data mining

下载PDF

导出

摘要提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征.实验表明,该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等. A method is proposed to select feature candidates.from Chinese websites on the basis of sequential data mining, and it is used in the model of Chinese websites classification. This method uses improved PAT tree data structure to mine the frequent strings in the same class of Chinese websites, calculates the net frequency, mines frequent meaningful words, phrases, and English words from Chinese websites, and obtains text features with the help of the CHI algorithm. Experiments show that this algorithm not only mines most of the features selected by the traditional algorithm, but alse mines some new meaningful personnames, placenames, new words, phrases, and foreign words.

作者谷峰刘晨曦吴扬扬

机构地区华侨大学计算机科学系

出处《山东大学学报（理学版）》 CAS CSCD 北大核心 2006年第3期97-100,共4页 Journal of Shandong University(Natural Science)

基金福建省科技计划资助项目(2004I014)

关键词序列数据挖掘 PAT树净频率频繁字串中文网页分类 sequential data mining pat-tree net frequency frequent string chinese web page classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1Gaston H Gonnet, Ricardo A Baeza-yates, Tim Snider. Information retrieval data structures & algorithms[M]. Boston, US:Prentice Hall Press, 1992. 66 - 82.
2Lee-Feng Chien. PAT-tree-based keyword extraction for chinese information retrieval [A]. Proceedings of 1997 International ACM SIGIR Conference on Research and Development in Informarion Retrieval[C]. New York, US: ACM Press, 1997. 50- 58.
3Yih-Jeng Lin, Ming-Shing Yu. Extracting chinese frequent strings without a dictionary from a chinese corpus and its applications[J]. Journal of Inforamtion Science and Engineering,2001, 17(5) :805 - 824.
4冯是聪,单松巍,龚笔宏,张志刚,李晓明.“天网”目录导航服务研究[J].计算机研究与发展,2004,41(4):653-659. 被引量：8

二级参考文献10

1WebInfomallWebsitshttp://net.cs.pku.edu.cn/-webg/infomall/index.html . 2002
2TianwangsearchengineWebsits http://e.pku.edu.cn . 1997
3http://cn.yahoo.com . 2003
4YYang,XLiu.Are examinationoftextcategorizationmethods[].ACMSIGIRConfonResearchandDevelopmentinInformationRetrieval.1999
5FengShicong,ShanSongwei,ZhangZhigongetal.AdatasetofChineseWebpagesanditscategorization[].ProcoftheCross straitInformationTechnologyWorkshop.2002
6YYang,JanOPedersen.Acomparativestudyonfeatureselectionintextcategorization[].ThethInt’’lConfonMachineLearning.1997
7YYang.Astudyonthresholdingstrategiesfortextcategoriza tion[].ACMSIGIRConfonResearchandDevelopmentinInforma tionRetrieval.2001
8SChakrabarti.Dataminingforhypertext:Atutorialsurvey[].ACMSIGKDDExplorations.2000
9LeiMing,WangJianyong,ChenBaojueetal.Improvedrele vancerankinginwebgather[].JournalofComputerScienceandTechnology.2001
10WangJianyong,ShanSongwei,LeiMingetal.Websearchen gine:Characteristicsofuserbehaviorsandtheirimplication[].Sci enceinChinaSeriesF.2001

共引文献7

1刘华.超大规模分类语料库构建[J].现代图书情报技术,2006(1):71-73. 被引量：6
2刘华.网页信息抽取及建库系统C#实现[J].计算机工程,2006,32(16):49-51. 被引量：5
3魏丽霞,郑家恒.基于网页文本结构的网页去重[J].计算机应用,2007,27(11):2854-2856. 被引量：13
4郭淼霞,吴扬扬.一种利用相邻页面信息修正分类结果的方法[J].福建电脑,2008(4):78-79.
5郭淼霞,吴扬扬.基于Web超链接结构信息的网页分类技术研究[J].泉州师范学院学报,2008,26(4):25-29. 被引量：4
6张爱华,荆继武,向继.中文文本分类中的文本表示因素比较[J].中国科学院研究生院学报,2009,26(3):400-407. 被引量：5
7余一骄,刘芹.基于语义的中文网页检索[J].计算机科学,2012,39(8):79-87. 被引量：4

同被引文献51

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
3曾致远,张莉.基于向量空间模型的网页文本表示改进算法[J].计算机工程,2006,32(3):134-135. 被引量：10
4王晔,黄上腾.基于潜在链接分析的FTSVM网页分类[J].计算机工程,2006,32(10):12-14. 被引量：3
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
6陈胜荣,董守斌.基于优选链接的中文网页分类方法研究[J].郑州大学学报（理学版）,2007,39(2):78-82. 被引量：3
7刘晨曦,吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报（自然科学版）,2007,25(2):149-152. 被引量：8
8王小冷,王斌.一种抗噪音的中文网页分类方法[J].中文信息学报,2007,21(4):48-54. 被引量：1
9Lin Shian-Hua ,Ho Jan-Ming.Discovering Informative Content Blocks from Web Documents[A].Proceedings of theeighth ACM SIGKDD International Conference on Knowled geDiscovery & Data Mining[C].NewYork,US-A: [s.n.] ,2002.588-593.
10Yang Y, Slattery S, Ghani R. A study of approaches to hypertext categorization. Journal of Intelligent Infor- mation Systems,2002,18(2-3):219-241.

引证文献2

1郭淼霞.中文网页分类研究综述[J].赤峰学院学报（自然科学版）,2011,27(12):51-53.
2薛永大.网页分类技术研究综述[J].电脑知识与技术,2012,8(9):5958-5961. 被引量：2

二级引证文献2

1潘光强,周军,何洋.基于朴素贝叶斯分类模型的文本特征选择研究[J].电脑知识与技术,2014(1):133-137.
2张雁,刘才铭.一种网页访问目的分类方法[J].现代计算机（中旬刊）,2018(9):74-76. 被引量：1

1张长海.一种基于序列模式的RFID数据挖掘算法[J].电脑知识与技术,2015,0(5):259-260. 被引量：1
2张宇萌,刘传汉.一种基于逐层扫描的频繁字串快速提取算法[J].计算机科学,2008,35(5):127-130. 被引量：1
3苏圣超,张正道,朱大奇.基于时间序列数据挖掘的旋转机械故障预报[J].南京航空航天大学学报,2006,38(B07):120-123. 被引量：4
4何典,梁英.金融时间序列数据挖掘的研究与应用[J].世界科技研究与发展,2008,30(1):104-106. 被引量：2
5逍遥浪子.输入常用语三妙招[J].家庭电脑世界,2004(06S):43-43.
6孙浩峰.侠诺：用心的网络品牌[J].网管员世界,2006(12):136-137.
7杨恒宇.生物序列数据挖掘技术研究[J].合肥工业大学学报（自然科学版）,2012,35(9):1212-1216. 被引量：3
8牛秦洲,陈艳.基于MCL与KNN的混合聚类算法[J].桂林理工大学学报,2015,35(1):181-186. 被引量：5
9丰树谦,李体红.IDS的现状及发展方向研究[J].天中学刊,2009,24(2):25-27. 被引量：1
10董广军,张杰,徐铭杰,朱朝杰.基于Hopfield神经网络模型的遥感影像分类算法[J].测绘学院学报,2003,20(4):267-270. 被引量：5

山东大学学报（理学版）

2006年第3期

浏览历史

内容加载中请稍等...

基于序列数据挖掘的中文网页特征选择方法被引量：2

参考文献4

二级参考文献10

共引文献7

同被引文献51

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于序列数据挖掘的中文网页特征选择方法 被引量：2

参考文献4

二级参考文献10

共引文献7

同被引文献51

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于序列数据挖掘的中文网页特征选择方法被引量：2