近年来,以ChatGPT为代表的能够适应复杂场景、并能满足人类的各种应用需求为目标的文本生成算法模型成为学术界与产业界共同关注的焦点.然而,ChatGPT等大规模语言模型(Large Language Model,LLM)高度忠实于用户意图的优势隐含了部分的...近年来,以ChatGPT为代表的能够适应复杂场景、并能满足人类的各种应用需求为目标的文本生成算法模型成为学术界与产业界共同关注的焦点.然而,ChatGPT等大规模语言模型(Large Language Model,LLM)高度忠实于用户意图的优势隐含了部分的事实性错误,而且也需要依靠提示内容来控制细致的生成质量和领域适应性,因此,研究以内在质量约束为核心的文本生成方法仍具有重要意义.本文在近年来关键的内容生成模型和技术对比研究的基础上,定义了基于内在质量约束的文本生成的基本形式,以及基于“信、达、雅”的6种质量特征;针对这6种质量特征,分析并总结了生成器模型的设计和相关算法;同时,围绕不同的内在质量特征总结了多种自动评价和人工评价指标与方法.最后,本文对文本内在质量约束技术的未来研究方向进行了展望.展开更多
对雷达装备故障文本进行智能化分类,有助于提高雷达装备保障效率。针对雷达故障文本专业性强,样本量小且不平衡的问题,通过非核心词EDA进行类内数据增强,以实现在增加文本量的同时保持关键信息不变。针对非核心词EDA方法产生的新样本多...对雷达装备故障文本进行智能化分类,有助于提高雷达装备保障效率。针对雷达故障文本专业性强,样本量小且不平衡的问题,通过非核心词EDA进行类内数据增强,以实现在增加文本量的同时保持关键信息不变。针对非核心词EDA方法产生的新样本多样性不够的问题,增加SSMix(saliency-based span mixup for text classification),进行类间数据增强,通过对输入文本非线性的交叉融合来提升文本的多样性。实验证明,与现有的经典基线分类方法和典型数据增强分类方法相比,该方法在准确率上有较大幅度的提升。展开更多
文摘近年来,以ChatGPT为代表的能够适应复杂场景、并能满足人类的各种应用需求为目标的文本生成算法模型成为学术界与产业界共同关注的焦点.然而,ChatGPT等大规模语言模型(Large Language Model,LLM)高度忠实于用户意图的优势隐含了部分的事实性错误,而且也需要依靠提示内容来控制细致的生成质量和领域适应性,因此,研究以内在质量约束为核心的文本生成方法仍具有重要意义.本文在近年来关键的内容生成模型和技术对比研究的基础上,定义了基于内在质量约束的文本生成的基本形式,以及基于“信、达、雅”的6种质量特征;针对这6种质量特征,分析并总结了生成器模型的设计和相关算法;同时,围绕不同的内在质量特征总结了多种自动评价和人工评价指标与方法.最后,本文对文本内在质量约束技术的未来研究方向进行了展望.
文摘对雷达装备故障文本进行智能化分类,有助于提高雷达装备保障效率。针对雷达故障文本专业性强,样本量小且不平衡的问题,通过非核心词EDA进行类内数据增强,以实现在增加文本量的同时保持关键信息不变。针对非核心词EDA方法产生的新样本多样性不够的问题,增加SSMix(saliency-based span mixup for text classification),进行类间数据增强,通过对输入文本非线性的交叉融合来提升文本的多样性。实验证明,与现有的经典基线分类方法和典型数据增强分类方法相比,该方法在准确率上有较大幅度的提升。