句法复杂网络作为语体分类的知识源研究被引量：6

Using syntactic network characteristics to do text clustering

下载PDF

导出

摘要基于6种语体的句法树库构建了6个依存句法网络,对这些网络的边数、节点数、节点平均度、聚类系数、平均最短路径长度、网络中心势、直径、节点度幂律分布的幂指数、度分布与幂律拟合的决定系数等整体特征进行了对比分析。以这些整体特征为变量,采用欧几里德的"最短距离"法,对这6种语体的句法网络进行了聚类分析。研究结果显示,通过一些网络的主要参数,即网络节点数、聚集系数、平均路径长度、中心势以及节点度幂律分布的幂指数,可以对所研究的文本进行分类。与传统的文本聚类方法相比,其结果更容易从语言学的角度进行合理的解释。 This paper builds six dependence syntactic networks based on six treebanks of different styles and gives a comparative analysis of overall characteristics of the networks, including the number of edges, the number of the nodes, the average degree, the clustering coefficient, the average path length, the centralization, the diameter, and the index of power-law, coefficient of determination. After that, the paper uses the Euclidean ＂the shortest distance＂ method, with characteristics as variables, to do clustering analysis of these networks. The results show that using some main parameters of networks, namely the number of the nodes, the clustering coefficient, the average path length, the centralization and the index of power-law, can do cluster analysis on texts. Compared with the traditional text clustering, the results are easier to explain in linguistic angle.

作者陈芯莹刘海涛

机构地区西安交通大学外国语学院浙江大学语言行为模式中心

出处《计算机工程与应用》 CSCD 2013年第8期32-36,共5页 Computer Engineering and Applications

基金国家社会科学基金重大项目(No.11&ZD188)

关键词语体文本分类网络特征语言网络 style text clustering network characteristics language networks

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献20

1谷晓娟,张迈曾.语体变异的社会语言学研究[J].外语与外语教学,2007(6):7-9. 被引量：18
2陈龙,范瑞霞,高琪.基于概念的文本表示模型[J].计算机工程与应用,2008,44(20):162-164. 被引量：16
3陈芯莹,李雯雯,王燕.计量特征在语言风格比较及作家判定中的应用——以韩寒《三重门》与郭敬明《梦里花落知多少》为例[J].计算机工程与应用,2012,48(3):137-139. 被引量：29
4刘健,张维明.基于互信息的文本特征选择方法研究与改进[J].计算机工程与应用,2008,44(10):135-137. 被引量：23
5黄伟,刘海涛.汉语语体的计量特征在文本聚类中的应用[J].计算机工程与应用,2009,45(29):25-27. 被引量：35
6Hudson R.Language networks : the new word grammar[M].Oxford:Oxford University Press,2007.
7刘海涛.语言复杂网络的聚类研究[J].科学通报,2010,55(27):2667-2674. 被引量：17
8Ferrer i Cancho R, Sole R V, Kohler R.Pattems in syntacticdependency networks [J].Physical Review E,2004,69.
9Liu H.The complexity of Chinese dependency syntactic net-works[J].Physica A,2008,387:3048-3058.
10Yu S, Liu H, Xu C.Statistical properties of Chinese phonemicnetworks[J].Physica A,2011,390: 1370-1380.

二级参考文献158

1张迈曾,郑荣萱.社会语言学变异研究的若干问题[J].外语与外语教学,1999(1):10-12. 被引量：5
2李兆麟.汉语计量研究初探——兼评《现代汉语频率词典》[J].辞书研究,1989(1):116-123. 被引量：6
3曹聪孙.言语风格统计学试说[J].天津师范大学学报（社会科学版）,1988,8(4):70-75. 被引量：7
4常宝儒.现代汉语词汇统计问题的初步研究[J].语言教学与研究,1985(1):117-124. 被引量：8
5吴礼权.庄重风格与幽默风格的计算统计研究[J].渤海大学学报（哲学社会科学版）,2004,26(5):99-103. 被引量：1
6徐建斌,施亚东.基于概念的文本自动分类研究的综述[J].福建电脑,2005,21(2):2-4. 被引量：3
7王笑旻.基于Bigram的特征词抽取及自动分类方法研究[J].计算机工程与应用,2005,41(22):177-179. 被引量：5
8韦洛霞,李勇,康世勇,罗诗裕.汉语词组网的组织结构与无标度特性[J].科学通报,2005,50(15):1575-1579. 被引量：18
9曾毅平,朱晓文.计算方法在汉语风格学研究中的应用[J].福建师范大学学报（哲学社会科学版）,2006(1):14-17. 被引量：21
10赵丰年,刘林,商建云.基于概念的文本过滤模型[J].计算机工程与应用,2006,42(4):186-188. 被引量：11

共引文献182

1蒋景阳,姜茜茜.中国英语学习者写作中的错误、依存距离与二语水平的关系研究[J].语言文字应用,2021(1):42-52. 被引量：4
2郝瑜鑫,王雪琳,刘海涛.基于句法标注语料库的汉语中介语动词配价发展计量研究[J].语言文字应用,2021(1):29-41. 被引量：7
3陈好修.基于语料库的作家作品词汇风格分析——以茅盾、巴金、老舍为例[J].语料库语言学,2019,6(2):50-63. 被引量：2
4王家琪,张莉.面向文本特征选择的去冗余相对判别准则[J].山西大学学报（自然科学版）,2021,44(4):688-694. 被引量：2
5刘俊杰,叶英豪,董立映.航空安全信息风险主题语义图谱构建[J].情报工程,2022,8(4):31-40.
6夏菁,孙未未.多向度计量语体特征下的对外汉语教材可读性自动评估研究[J].华中学术,2020(2):181-193. 被引量：3
7李湘云.ISODATA动态聚类算法在文本挖掘中的应用[J].长春工程学院学报（自然科学版）,2007(2):56-58.
8冯志伟.语言学正面临战略转移的重要时刻[J].南开语言学刊,2013(1):7-19. 被引量：3
9刘海涛.泰尼埃的结构句法理论[J].北华大学学报（社会科学版）,2007,8(5):68-77. 被引量：10
10李营,王儒敬,王大为,魏保子.基于用户兴趣的搜索结果动态聚类算法[J].计算机工程与应用,2008,44(4):187-189. 被引量：2

同被引文献60

1田胜参.对语体分类的探索[J].陕西师范大学学报（哲学社会科学版）,2008,37(S2):288-289. 被引量：8
2杨信彰.英语书面语体中的词汇密度特征[J].解放军外国语学院学报,1995,18(3):14-18. 被引量：23
3蔡晖.认知语言学视野中的功能语体分类问题[J].外语学刊,2004(6):37-41. 被引量：6
4陈炯,范卓华,张虎.汉语文本聚类及其算法设计[J].山西电子技术,2005(2):29-30. 被引量：3
5李熙宗.关于语体的定义问题[J].复旦学报（社会科学版）,2005,47(3):176-186. 被引量：58
6廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12
7康恺,林坤辉,周昌乐.基于主题词频数特征的文本主题划分[J].计算机应用,2006,26(8):1993-1995. 被引量：11
8唐璐,张永光,付雪.Structures of semantic networks: how do we learn semantic knowledge[J].Journal of Southeast University(English Edition),2006,22(3):413-417. 被引量：5
9谷晓娟,张迈曾.语体变异的社会语言学研究[J].外语与外语教学,2007(6):7-9. 被引量：18
10谭跃进吕欣吴俊等.复杂网络抗毁性研究若干问题的思考.系统工程理论与实践,2008,(0):116-120.

引证文献6

1陈芯莹,刘海涛.语义、句法网络作为语体分类知识源的对比研究[J].计算机工程与应用,2014,50(2):10-14. 被引量：2
2申艳光,王杰,生龙,吴迪.基于复杂网络的文本抗毁性分析[J].计算机应用研究,2015,32(3):679-682. 被引量：2
3李戈.基于语言复杂网络的口语测试评分研究[J].外语测试与教学,2015(4):35-40.
4刘益光.基于语料库的辩论和演讲语体的计量研究[J].齐齐哈尔大学学报（哲学社会科学版）,2017(10):142-146.
5胡宇涵.聚类分析在外国语言学研究中的应用探讨[J].中国校外教育（上旬）,2018,0(3):91-92.
6王雅琴,刘海涛.数据驱动语体研究的进展与前瞻[J].现代外语,2023,46(5):700-710.

二级引证文献4

1申艳光,王杰,生龙,吴迪.基于复杂网络的文本抗毁性分析[J].计算机应用研究,2015,32(3):679-682. 被引量：2
2宗敏,杨杰.协同式网络攻击下抗毁性优化建模仿真[J].计算机仿真,2017,34(11):320-323. 被引量：2
3生龙,广晓芸.进化计算与复杂网络结构关系的研究[J].新型工业化,2016,6(11):1-9. 被引量：1
4胡宇涵.聚类分析在外国语言学研究中的应用探讨[J].中国校外教育（上旬）,2018,0(3):91-92.

1陈芯莹,刘海涛.语义、句法网络作为语体分类知识源的对比研究[J].计算机工程与应用,2014,50(2):10-14. 被引量：2
2陈武胜.综合治理实现绿色数据中心[J].网管员世界,2010(3):28-30.
3James.数据中心2.0时代让我们赢在起跑线上[J].网络与信息,2009(3):9-11.
4坂东卫持.DeviceNet现场总线讲座第四讲 DeviceNet现场总线的现状及今后的发展[J].低压电器,2000(5):60-62. 被引量：1
5陈子平,钱松荣.一种适用于无线传感器网络的安全认证方案[J].计算机工程,2013,39(7):173-176. 被引量：3
6孙翱,温锋,何熙文,徐承深,陈星.网络协议的自动生成技术[J].系统工程与电子技术,1998,20(9):60-65. 被引量：1
7杨景.企业建立新型数据中心势在必行[J].信息方略,2008(21):58-60.
8张鸣华.一种聚类方法的分析[J].三明学院学报,2006,23(2):202-204. 被引量：1
9曹步清,刘建勋,王光荣.Mashup服务网络及其拓扑结构分析[J].湖南科技大学学报（自然科学版）,2012,27(2):72-76. 被引量：3
10何宇,赵洪利,姚曜,赵东杰,付芸.介数中心性和平均最短路径长度整合近似算法[J].复杂系统与复杂性科学,2011,8(3):44-53. 被引量：8

计算机工程与应用

2013年第8期

浏览历史

内容加载中请稍等...

句法复杂网络作为语体分类的知识源研究被引量：6

参考文献20

二级参考文献158

共引文献182

同被引文献60

引证文献6

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

句法复杂网络作为语体分类的知识源研究 被引量：6

参考文献20

二级参考文献158

共引文献182

同被引文献60

引证文献6

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

句法复杂网络作为语体分类的知识源研究被引量：6