期刊文献+

大规模多任务中文理解能力测试

下载PDF
导出
摘要 中文大模型发展迅速,然而缺乏相应的能力测试。本研究提出了一种评估大模型在中文多任务中准确度的方法,涵盖医疗、法律、心理学和教育等4个领域。通过zero-shot和few-shot两种测试模式,发现即使是参数量最大的模型,其在特定领域任务上的准确率也未达到专家水平,尤其是在法律领域。此外,模型在子任务上的表现不均衡,凸显了其在理解和解决不同领域问题的能力上仍有改进空间。研究结果表明,模型的参数量、训练方式和数据质量对其性能有重要影响,未来研究应致力于提高模型在垂直领域任务的准确性。
作者 曾辉
出处 《电脑知识与技术》 2024年第15期17-20,共4页 Computer Knowledge and Technology
  • 相关文献

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部