-
题名基于监督学习的HSK阅读文本自动分级模型研究
- 1
-
-
作者
任梦
王方伟
-
机构
河北师范大学文学院
河北师范大学计算机与网络空间安全学院
-
出处
《河北科技大学学报》
CAS
北大核心
2024年第2期150-158,共9页
-
基金
国家自然科学基金(61572170)
河北师范大学2023年度人文社会科学校内科研基金(S23AI001)。
-
文摘
针对HSK(汉语水平考试)各类阅读材料难度判定与等级对应中缺乏有效参照标准和分析工具的问题,以历年HSK真题阅读文本为研究对象,提取文本可读性特征,采用支持向量机、随机森林、极端梯度增强等9种监督学习算法,建立可将自选文本自动归类于相应HSK等级的模型,采用准确率、AUC等多项指标评价各模型的分级效果,并选择最佳模型制成在线工具。结果表明,监督学习在HSK阅读材料文本分析及分级方面具有较高性能,9种模型中极端梯度增强的分级效果最好,准确率为0.913,AUC为0.994。建立的分级模型和在线工具能够以较高的准确率对HSK自选文本进行分级,帮助用户有针对性地遴选文本,提高学习效率。
-
关键词
自然语言处理
监督学习
hsk阅读文本
可读性特征
分级模型
-
Keywords
natural language processing
supervised learning
hsk reading text
readability feature
grading model
-
分类号
TP391.77
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语水平考试(HSK)阅读文本可读性自动评估研究
被引量:3
- 2
-
-
作者
杜月明
王亚敏
王蕾
-
机构
北京大学对外汉语教育学院
北京语言大学汉语速成学院
-
出处
《语言文字应用》
CSSCI
北大核心
2022年第3期73-86,共14页
-
基金
国家社会科学基金重大项目“面向全球孔子学院的中国概况教学创新研究及其数字课程建设”(18ZDA339)的资助。
-
文摘
本文基于汉语二语文本可读性的特征集合,通过对比六种机器学习模型的效果,引入特征选择算法,实现了汉语水平考试(HSK)阅读文本可读性的自动评估。实验结果表明,支持向量机模型在HSK阅读文本可读性评估中的表现最好;基于汉字、词汇、句法和篇章的全特征模型的预测准确率达0.876;不同层面的特征预测能力存在差异,其中词汇层面表现最好;剔除冗余特征后,词汇和汉字两个层面的18个特征进入最优模型,句法和篇章特征未能进入该模型。本研究对HSK阅读文本的选择和改编及其他类型的文本可读性评估具有一定的参考意义。
-
关键词
文本可读性
hsk阅读文本
语言特征
机器学习
支持向量机
-
Keywords
text readability
hsk reading text
linguistic features
machine learning
Support vector machine
-
分类号
H087
[语言文字—语言学]
-