期刊文献+

基于词同现频率的文本特征描述 被引量:8

Text feature description based on word co-occurrence
下载PDF
导出
摘要 文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种基于词同现频率的加权算法,使得文本的特征向量蕴涵了词与词的相关信息,最后用实验对该算法的效果进行了证明。 The description of text feature is one of the fundamental works of natural language. Some scholar often use the VSM in descriptionoftextfeatureatpresent, The model adopts term weighting algorithm based on statistical or experiential, It makes the computer can compare text similarity more easily, but the model don't think about the relation between word and word in the text. A term weighting algorithm on word co-occurrence is discussed to make the text feature contain some relative information between word and word, Finally, some experiment results are given to show the validity of algorithm and compare them with results obtained using other algorithm.
出处 《计算机工程与设计》 CSCD 北大核心 2005年第8期2180-2182,共3页 Computer Engineering and Design
关键词 向量空间模型 文本挖掘 词同现频率 权重计算 匹配 VSM (vector space model) text mining word co-occurrence term-weighing matching
  • 相关文献

参考文献5

二级参考文献16

  • 1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量:59
  • 2董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量:11
  • 3黄萱青 吴立德.独立于语种的文本分类方法[M].,2000.37-43.
  • 4鲁松 白硕 等.文本中词语权重计算方法的改进[M].,2000.31-36.
  • 5卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用:博士论文[M].,2000..
  • 6李涓子,清华大学学报,1999年,39卷,7期,229页
  • 7董振东,语言文字应用,1998年,27卷,3期,76页
  • 8董振东,http://wwwhownetcom
  • 9黄萱菁,2000 International Conference on Multilingual Information Processing,2000年,37页
  • 10鲁松,2000 International Conference on Multilingual Information Processing,2000年,31页

共引文献362

同被引文献86

引证文献8

二级引证文献40

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部