摘要
软件源代码的理解是软件协同开发与维护的核心,而源代码中占半数以上的标识符的理解则在软件理解中起到重要作用,传统软件工程主要研究通过命名规范限制标识符的命名过程以构造更易理解和交流的标识符。该文在梳理分析常见编程语言命名规范的基础上,该文提出一种全新的标识符可理解性评价标准。具体而言,首先总结梳理了常见主流编程语言中的命名规范并类比自然语言语素概念,提出基于软件语素的标识符构成过程,即标识符的构成可被视为软件语素的生成、排列和连接过程;在此基础上,该文提出一种结合自然语料库的软件标识符规范性评价方法,用来衡量软件标识符是否易于理解;最后,通过源代码理解数据集和Github平台中开源项目对规范性指标进行了验证性实验,结果表明,该文所提出的规范性分数能够很好衡量软件项目的可理解性。
The software identifiers plays an important role in software understanding.In this paper,we propose a new criterion for evaluating the readability of software identifiers.Firstly,we compare the naming conventions in popular programming languages and propose a Software Morpheme-based identifier construction process,in which the identifiers are considered as an arrangement and concatenation of different software morphemes.Then,this paper proposes a new evaluation metric for software identifier readability.Experiments on the source code comprehension tasks and open source projects on the Github platform show that the proposed method can measure the readability of software projects.
作者
汶东震
张帆
张晓堃
杨亮
林原
徐博
林鸿飞
WEN Dongzhen;ZHANG Fan;ZHANG Xiaokun;YANG Liang;LIN Yuan;XU Bo;LIN Hongfei(School of Computer Science and Technology,Dalian University of Technology,Dalian,Liaoning 116024,China)
出处
《中文信息学报》
CSCD
北大核心
2024年第10期144-154,共11页
Journal of Chinese Information Processing
基金
国家自然科学基金(62076051,62076046)。
关键词
软件标识符
源代码理解
软件维护
自然语言模型
software identifiers
source code understanding
software maintenance
natural language models