摘要
本研究采用了三种数据挖掘方法,对大学英语六级(以下简称“六级”)、雅思、托福阅读文本进行对比。运用Coh-Metrix对所收集的340篇三项考试的阅读文本进行特征提取,共获取106个文本特征,其中有43个被选为预测变量。然后分别训练决策树、逻辑回归、朴素贝叶斯模型对三项考试阅读文本进行分类。根据分类精确率、召回率、F1和ROC面积等指标对模型进行评估。结果表明,所选的43个文本特征能有效区分三项考试的阅读文本,分类准确率达到90.29%。在三种模型中,决策树的分类效果最好。研究发现,六级、雅思、托福考试的阅读文本在词汇、短语、句子和语篇层面存在诸多差异。研究结果有望在分数解释、测试材料选择、文本改编、计算机自适应测试和考试对接等方面对三项考试,甚至更广泛的语言测试领域产生实质性影响。
作者
王萍
辜向东
Wang Ping;Gu Xiangdong
出处
《外语与翻译》
2020年第4期11-16,共6页
Foreign Languages and Translation