摘要
中文大模型发展迅速,然而缺乏相应的能力测试。本研究提出了一种评估大模型在中文多任务中准确度的方法,涵盖医疗、法律、心理学和教育等4个领域。通过zero-shot和few-shot两种测试模式,发现即使是参数量最大的模型,其在特定领域任务上的准确率也未达到专家水平,尤其是在法律领域。此外,模型在子任务上的表现不均衡,凸显了其在理解和解决不同领域问题的能力上仍有改进空间。研究结果表明,模型的参数量、训练方式和数据质量对其性能有重要影响,未来研究应致力于提高模型在垂直领域任务的准确性。
出处
《电脑知识与技术》
2024年第15期17-20,共4页
Computer Knowledge and Technology