-
题名基于特征提取的开源社区Fork摘要自动生成方法
- 1
-
-
作者
张超
毛新军
卢遥
-
机构
国防科技大学计算机学院
复杂系统软件工程重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2020年第3期25-33,共9页
-
基金
国家重点研发计划项目(2018YFB1004202)
NSFC(61532004)~~
-
文摘
当前,基于P/R的分布式协同开发已经成为开源社区中的主导软件开发方式。开发者通过Fork复制软件项目的版本库,创建自身分支,并在新建分支中进行独立开发。由于P/R协同开发模型具有开放性、透明性和并行化等特征,开发人员在Fork项目时难以掌握项目的Fork概况,不知道其他开发人员是否已通过Fork开展相同或类似的开发工作,从而容易产生重复性的贡献和冗余性开发。针对这个问题,提出一种Fork摘要的自动生成方法以帮助项目管理者加强项目管控,避免冗余贡献,增强合作交流。该方法首先爬取开源社区中具有Feature和Bug标签信息的Issue数据,采用随机森林方法训练一个分类器模型,以对Fork特征进行分类;随后收集Fork分支的软件开发活动数据,采用TextRank算法生成Fork详细信息以解释Fork的主要目的;最后设计了一组组合规则及相应的算法来整合Fork的类别、特征和其他信息,以形成完整的Fork摘要。为了检验所提方法在指导分布式协同开发方面的有效性,在Github上进行了30组人工测试和60组实际案例测试。结果表明,所提方法生成的Fork摘要的准确率达到67.2%,实验中76%的项目管理者认为Fork摘要有助于更好地管理项目,加强沟通与合作。
-
关键词
开源软件
开源社区
fork摘要
分布式开发
-
Keywords
Opens source
Open source community
fork summary
Distributed cooperative development
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-