期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于多源数据集增强的NL2SQL模型研究与应用
1
作者 郭利荣 童坤坤 李金漳 《软件》 2025年第1期100-104,共5页
NL2SQL作为NLP领域的关键任务,在现实生活中具有广泛的使用基础,最近几年大规模语言模型(LLMs)在NLP领域的出现,为许多下游任务提供了足够大的语言表征模型。通过对一个大小适合的大模型进行微调,其可以在一些下游任务中表现出与大规模... NL2SQL作为NLP领域的关键任务,在现实生活中具有广泛的使用基础,最近几年大规模语言模型(LLMs)在NLP领域的出现,为许多下游任务提供了足够大的语言表征模型。通过对一个大小适合的大模型进行微调,其可以在一些下游任务中表现出与大规模模型相当的能力。通过整合不同数据源的数据并进行数据增强和清洗,同时辅助运行时的RAG增强,并不断调整可学习参数矩阵,改进后的模型在Cspider-dev上的DDL查询平均比基线模型提升了8%。本研究开源了180k的中文数据集、150k的英文数据集和微调后的NL2SQL大模型。 展开更多
关键词 NL2SQL NLP 微调 开源
下载PDF
数据湖研究综述 被引量:4
2
作者 郭利荣 童坤坤 《软件工程》 2023年第12期6-11,共6页
数据湖作为一种新兴的数据处理和分析技术,在处理大规模数据集方面表现出了显著的性能优势。国内外相关文献对数据湖的架构、关键技术和应用进行了全面而深入的研究,为相关研究人员提供了有价值的参考。文章首先对数据湖与数据仓库的概... 数据湖作为一种新兴的数据处理和分析技术,在处理大规模数据集方面表现出了显著的性能优势。国内外相关文献对数据湖的架构、关键技术和应用进行了全面而深入的研究,为相关研究人员提供了有价值的参考。文章首先对数据湖与数据仓库的概念进行了辨析,明确了两者的区别;其次概述了当前流行的数据湖框架和架构,并详细阐述了数据湖的核心功能,包括多源数据的集成、高效的数据存储和计算能力,以及有效的数据治理等;最后探讨了数据湖研究未来的发展方向,如存算分离技术和云原生应用等。 展开更多
关键词 数据湖 数据存储 数据仓库 数据分析
下载PDF
基于排序融合的大模型检索技术研究
3
作者 郭利荣 李金漳 倪若昕 《信息技术与信息化》 2025年第1期163-166,共4页
近年来,大规模文本检索技术发展迅猛,然而在专业领域的检索准确率仍有待提高。检索结果过多或存在错误,都会导致最终回答质量不佳。为了解决上述问题,文章提出了一种结合聚类和向量化的大规模检索方法,通过大量数据进行大召回精排序的方... 近年来,大规模文本检索技术发展迅猛,然而在专业领域的检索准确率仍有待提高。检索结果过多或存在错误,都会导致最终回答质量不佳。为了解决上述问题,文章提出了一种结合聚类和向量化的大规模检索方法,通过大量数据进行大召回精排序的方式,采用重排序后的排序融合进行二次筛选(post retrieval)。同时,设计了一种自检测的方式被用于生成测试集并对其方法进行测试,在3个数据组上进行方法对比,传统的最优方法在Recall上提高了6.23%,NDCG提高了6.33%,与此同时,通过设计的一组消融实验,证明了有效性提升源于提出的排序融合方法。 展开更多
关键词 大规模检索 重排 召回 大模型 问答
下载PDF
基于Agent-Chain的统计摘要生成研究
4
作者 郭利荣 梁玉琪 廖文亦 《信息技术与信息化》 2024年第2期204-207,共4页
在过去很长一段时间内,文本生成式模型给世界带来了巨大的影响,在传统的自然语言处理领域(NLP)根据一段文本生成摘要一直是一个火热的问题,但是生成的摘要缺乏分析思维和数据展现。因此文本摘要生成存在着很大的缺陷,为了解决这一问题... 在过去很长一段时间内,文本生成式模型给世界带来了巨大的影响,在传统的自然语言处理领域(NLP)根据一段文本生成摘要一直是一个火热的问题,但是生成的摘要缺乏分析思维和数据展现。因此文本摘要生成存在着很大的缺陷,为了解决这一问题涌现了许多基于表格和文本联合的多模态工作,但是训练是昂贵的。基于LLM(large language model)应用的Langchain框架中的Agent能力是值得尝试的工具,基于Agent实现LLM的自动调用统计,实现数据统计摘要生成,最后使用科大讯飞的星火spark作为评测模型,在本地构建的数据集中汇报自评7.54分,讯飞星火Spark评价7.52分(满分为10分)。 展开更多
关键词 LLM AGENT 数据统计 摘要生成
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部