大规模多任务中文理解能力测试

下载PDF

导出

摘要中文大模型发展迅速,然而缺乏相应的能力测试。本研究提出了一种评估大模型在中文多任务中准确度的方法,涵盖医疗、法律、心理学和教育等4个领域。通过zero-shot和few-shot两种测试模式,发现即使是参数量最大的模型,其在特定领域任务上的准确率也未达到专家水平,尤其是在法律领域。此外,模型在子任务上的表现不均衡,凸显了其在理解和解决不同领域问题的能力上仍有改进空间。研究结果表明,模型的参数量、训练方式和数据质量对其性能有重要影响,未来研究应致力于提高模型在垂直领域任务的准确性。

作者曾辉

机构地区甲骨易(北京)语言科技股份有限公司 LanguageX语言智能实验室

出处《电脑知识与技术》 2024年第15期17-20,共4页 Computer Knowledge and Technology

关键词中文大模型多任务评测 zero-shot few-shot 垂直领域任务

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

1张帆.看看AI有多智能[J].支点,2023(5):38-41.
2李鹏,郭清.县级中医院中医药服务能力评价体系的构建[J].浙江医学,2023,45(23):2572-2576. 被引量：1
3孙扬.大模型对金融行业的深刻影响[J].科技与金融,2024(4):47-48.
4米栏.2023 AI大语言模型TOP10[J].企业家信息,2023(11):128-128.
5裴先波,张旭,周芙玲.高仿真模拟教学联合护理整合课程教学模式对护理本科生临床实践能力的影响[J].中国医学教育技术,2024,38(1):112-117.
6邓可卉,刘晔.《天问略》中的天文知识在明清之际的传播及影响[J].广西民族大学学报（自然科学版）,2023,29(2):52-58.
7徐梓航,胡媛媛,温莹,毕宏生.预测模型在儿童青少年近视防控中的应用进展[J].国际眼科杂志,2024,24(5):727-730.
8李丹.“群模时代”,国产AI大模型的进击[J].产城,2024(5):22-25.
9沈光辉,叶彤,孙小坚,范涌峰.贝叶斯修正的AHP—熵值法在教育测评中的应用[J].心理学探新,2023,43(3):269-277. 被引量：1
10令倩,肖轶尘,邵毅.人工智能在儿童眼科疾病诊断中的应用[J].眼科新进展,2024,44(6):487-493. 被引量：1

电脑知识与技术

2024年第15期

浏览历史

内容加载中请稍等...

大规模多任务中文理解能力测试

相关作者

相关机构

相关主题

浏览历史