期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
大模型微调的多领域机器翻译方法综述
1
作者 陈子建 王斯日古楞 斯琴图 《计算机科学与探索》 北大核心 2025年第4期916-928,共13页
随着机器翻译技术的快速发展,基于预训练大模型的机器翻译方法已在自然语言处理领域占据重要地位。然而,由于不同领域之间语言特征、词汇风格和表达方式的显著差异,单一预训练模型在多领域翻译任务中难以实现高效且稳定的性能。为此,聚... 随着机器翻译技术的快速发展,基于预训练大模型的机器翻译方法已在自然语言处理领域占据重要地位。然而,由于不同领域之间语言特征、词汇风格和表达方式的显著差异,单一预训练模型在多领域翻译任务中难以实现高效且稳定的性能。为此,聚焦于多领域机器翻译任务中大模型微调技术的关键问题,系统性地综述了微调技术的核心原理、主要方法及应用效果,重点分析了全参数微调、参数高效微调和提示微调三类策略的性能表现与适用场景。深入探讨了不同微调方法的优势与局限性,重点分析了在资源受限条件下如何通过高效微调策略平衡领域泛化能力与任务特异性,展示了参数高效微调与提示微调在资源利用效率和领域适应性方面的显著优势。通过对比分析与实验验证,进一步评估了不同微调策略在领域迁移和资源利用方面的实际效果,并通过案例分析验证了其有效性。未来的研究方向应重点关注资源的高效利用、模型的领域自适应能力,以及翻译质量和鲁棒性的提升,从而推动多领域机器翻译系统在性能与适应性方面的持续发展。 展开更多
关键词 大模型微调 多领域机器翻译 全参数微调 参数高效微调 提示微调
下载PDF
融合大模型微调与图神经网络的知识图谱问答 被引量:1
2
作者 陈俊臻 王淑营 罗浩然 《计算机工程与应用》 CSCD 北大核心 2024年第24期166-176,共11页
传统知识图谱问答系统在处理自然语言问句时,常因语义解析不精确而导致错误。为解决这一问题,提出一种融合大模型微调和图神经网络的知识图谱问答方法。收集问题并定义问题的逻辑形式;利用大型预训练语言模型的强大语义解析能力,通过对... 传统知识图谱问答系统在处理自然语言问句时,常因语义解析不精确而导致错误。为解决这一问题,提出一种融合大模型微调和图神经网络的知识图谱问答方法。收集问题并定义问题的逻辑形式;利用大型预训练语言模型的强大语义解析能力,通过对问题及其对应逻辑形式构成的问答对进行微调,提升问题解析的精度;采用模糊集方法增强微调后的逻辑形式,提高其检索精度;利用图神经网络对这些逻辑形式进行关系投影和逻辑运算获取最终答案。在通用领域标准数据集WebQSP和ComplexWebQuestions上的实验验证表明,该方法在F1、Hit@1和ACC这三个指标上均优于基准模型。同时,方法也在垂直领域风电装备数据集、高速列车数据集上进行了应用和验证。 展开更多
关键词 知识图谱问答 大模型微调 逻辑形式 图神经网络检索
下载PDF
面向视听文化产业的大模型微调技术研究 被引量:1
3
作者 王兵 白钰麒 +1 位作者 陈志业 程皓楠 《现代电影技术》 2024年第10期29-36,共8页
为探讨大模型微调技术为视听文化产业创新提供的新动能,本文结合大模型微调技术与视听文化产业的发展历程,深入分析视听文化产业与大模型微调技术的协同智能化发展方向。本文首先讨论了大模型微调技术的起源、发展与微调方法,并对该研... 为探讨大模型微调技术为视听文化产业创新提供的新动能,本文结合大模型微调技术与视听文化产业的发展历程,深入分析视听文化产业与大模型微调技术的协同智能化发展方向。本文首先讨论了大模型微调技术的起源、发展与微调方法,并对该研究领域进行了全面概述。之后,从视听文化产业智能化发展的三个阶段讨论了深度学习技术与大模型微调技术如何与视听文化产业融合创新。再次,依据文化视听产业的主要媒介,即音频、视频、图像等,探讨了深度学习与大模型微调技术在视听文化产业中的应用。最后,本文总结了视听文化产业与大模型微调技术在协同过程中可能面临的问题并对未来的发展进行了展望。 展开更多
关键词 视听文化产业 大模型微调 深度学习 自然语言处理
下载PDF
浅谈人工智能中大模型微调技术和应用
4
作者 董子冰 王海虹 徐加祥 《电信快报》 2024年第11期35-38,共4页
AI(人工智能)大规模预训练模型(如Qwen2、GLM-4等)已取得显著突破,为NLP(自然语言处理)及其他领域带来深刻变革。文章聚焦于大模型微调技术,从大模型微调的基本概念入手,分析微调过程中的关键步骤。大模型微调应用在医疗文本分析、法律... AI(人工智能)大规模预训练模型(如Qwen2、GLM-4等)已取得显著突破,为NLP(自然语言处理)及其他领域带来深刻变革。文章聚焦于大模型微调技术,从大模型微调的基本概念入手,分析微调过程中的关键步骤。大模型微调应用在医疗文本分析、法律文书处理、金融分析、移动通信等场景。最后讨论大模型微调面临的挑战,展望未来发展方向。 展开更多
关键词 大模型微调 AI(人工智能) 预训练模型 本地化应用
下载PDF
Llama2-70b模型的微调技术及其在材料领域的应用研究
5
作者 唐雷 陈子逸 +8 位作者 梁锶翰 李凯 万萌 张博尧 刘淼 孟胜 王彦棡 周纯葆 王宗国 《数据与计算发展前沿(中英文)》 2025年第1期163-174,共12页
【目的】为降低大语言模型的使用门槛,促进大语言模型在学科领域的应用。本文系统介绍了Llama2-70b模型的微调过程及其在材料领域应用的流程。【方法】本研究利用DeepSpeed框架和无机材料合成路径的指令式数据集,采用LoRA微调技术对开... 【目的】为降低大语言模型的使用门槛,促进大语言模型在学科领域的应用。本文系统介绍了Llama2-70b模型的微调过程及其在材料领域应用的流程。【方法】本研究利用DeepSpeed框架和无机材料合成路径的指令式数据集,采用LoRA微调技术对开源大模型Llama2-70b进行微调,并对模型的超参数进行了调优,从模型训练中的损失值和模型稳定性两个方面对调优效果进行了评估,最终确定了一组适合模型的超参数组合。【结果】通过对模型的训练和优化,最终获得了一个在稳定性和性能方面表现优异的材料合成大语言模型。【结论】该研究为大语言模型在学科领域的应用提供了宝贵的经验和方法,所训练的材料大语言模型为材料合成设计提供了有意义的参考和支持。 展开更多
关键词 Llama2-70b模型 LoRA 大模型微调 材料合成
下载PDF
改进多模型融合的文本生成人脸方法
6
作者 黄万鑫 芦天亮 +2 位作者 袁梦娇 耿浩琦 陈咏豪 《中国人民公安大学学报(自然科学版)》 2025年第1期69-81,共13页
文本生成人脸是根据文本描述创造特定人脸图像的技术,在刑事侦查、虚拟现实等领域有巨大应用前景。当前文本生成人脸主流方法存在人脸图文匹配度低、人脸图片风格多样难控制、研发成本高等问题。针对上述挑战,对扩散模型融合生成对抗网... 文本生成人脸是根据文本描述创造特定人脸图像的技术,在刑事侦查、虚拟现实等领域有巨大应用前景。当前文本生成人脸主流方法存在人脸图文匹配度低、人脸图片风格多样难控制、研发成本高等问题。针对上述挑战,对扩散模型融合生成对抗网络进行探究,融合多模型改进文本生成人脸。首先采用多种方法微调扩散模型,提升通用大模型领域定制能力与图文理解能力;然后提出VA E-InverseGAN解码器,将扩散模型输出隐变量映射到StyleGAN2丰富人脸先验空间来生成高质量人脸。经系列定性和定量分析,此方法在M M-Celeb A-HQ数据集上实现风格可控性提升,人脸图文特征理解比基线模型提升12.0%,人脸图文匹配指标CLI P-Score提升33.8%,人脸图像质量指标NIQE优化4.0%。 展开更多
关键词 文本生成人脸 扩散模型 大模型微调 模型融合 多模态
下载PDF
垂直领域大模型的定制化:理论基础与关键技术 被引量:8
7
作者 陈浩泷 陈罕之 +3 位作者 韩凯峰 朱光旭 赵奕晨 杜滢 《数据采集与处理》 CSCD 北大核心 2024年第3期524-546,共23页
随着ChatGPT等基于大模型的产品展现出强大的通用性能,学术界和工业界正积极探索如何将这些模型适配到特定行业和应用场景中,即进行垂直领域大模型的定制化。然而,现有的通用大模型可能无法完全适配特定领域数据的格式,或不足以捕捉该... 随着ChatGPT等基于大模型的产品展现出强大的通用性能,学术界和工业界正积极探索如何将这些模型适配到特定行业和应用场景中,即进行垂直领域大模型的定制化。然而,现有的通用大模型可能无法完全适配特定领域数据的格式,或不足以捕捉该领域的独特需求。因此,本文旨在探讨垂直领域大模型定制化的方法论,包括大模型的定义和类别、通用架构的描述、大模型有效性背后的理论基础,以及几种可行的垂直领域大模型构建方法,期望通过这些内容为相关领域的研究者和从业者在垂直领域大模型定制化方面提供指导和参考。 展开更多
关键词 人工智能 垂直领域大模型 多模态大模型 预训练大模型 大模型微调
下载PDF
铁路自然语言大模型关键技术研究及应用展望 被引量:4
8
作者 史天运 李新琴 +3 位作者 代明睿 史维峰 李国华 杜文然 《中国铁路》 北大核心 2024年第7期7-14,共8页
人工智能自然语言大模型的涌现为行业深度赋能带来了新的曙光,研究铁路自然语言大模型关键技术及应用,对促进和统筹铁路人工智能发展具有重要意义。根据铁路人工智能应用需求,提出铁路自然语言大模型应用场景;依托铁路人工智能平台,设... 人工智能自然语言大模型的涌现为行业深度赋能带来了新的曙光,研究铁路自然语言大模型关键技术及应用,对促进和统筹铁路人工智能发展具有重要意义。根据铁路人工智能应用需求,提出铁路自然语言大模型应用场景;依托铁路人工智能平台,设计铁路自然语言大模型的总体架构,研究自然语言大模型关键技术,构建面向智能问答的铁路行业大模型,并以实际数据进行模型验证;最后从铁路运输组织、铁路运营安全、旅客服务方面对铁路自然语言大模型的发展和应用进行展望。 展开更多
关键词 智能高铁 人工智能 铁路自然语言大模型 应用场景 大模型架构 大模型微调 检索增强生成 铁路知识问答
下载PDF
大语言模型技术在区域地质勘探报告中生成式应用的实践探索
9
作者 刘书铭 庞大崴 +1 位作者 唐嘉 范志宏 《中国石油和化工》 2024年第9期77-79,共3页
石油和天然气行业的快速发展对地质数据的处理和分析提出了更高的要求。本研究聚焦于这些大模型在地质勘探领域,探索大语言模型在垂直领域的生成式应用。本文总结了当前大模型在地质勘探应用的概况,揭示出其在技术融合,尤其是与传统测... 石油和天然气行业的快速发展对地质数据的处理和分析提出了更高的要求。本研究聚焦于这些大模型在地质勘探领域,探索大语言模型在垂直领域的生成式应用。本文总结了当前大模型在地质勘探应用的概况,揭示出其在技术融合,尤其是与传统测井数据分析整合方面的局限性。此外,为了达到预期的训练目标,本研究在数据集的设定过程中,注重了回答的维度和提问方式等因素,确保数据集能满足大模型在地质勘探领域的特殊需求。在此基础上,采用微调LORA算法,针对Baichuan、Qwen和ChatGLM3等前沿模型实施了微调。实验环节的结果凸显了LORA微调策略的成效,验证了微调策略的有效性与针对性。最后,本文对大模型在地质勘探领域的应用前景进行了展望,并提出通过引入增强检索技术进一步提升模型性能的可能性。 展开更多
关键词 地质调查 AI大模型 生成式应用 大模型微调 LORA
下载PDF
TCMLCM:an intelligent question-answering model for traditional Chinese medicine lung cancer based on the KG2TRAG method
10
作者 Chunfang ZHOU Qingyue GONG +2 位作者 Wendong ZHAN Jinyang ZHU Huidan LUAN 《Digital Chinese Medicine》 2025年第1期36-45,共10页
Objective To improve the accuracy and professionalism of question-answering(QA)model in traditional Chinese medicine(TCM)lung cancer by integrating large language models with structured knowledge graphs using the know... Objective To improve the accuracy and professionalism of question-answering(QA)model in traditional Chinese medicine(TCM)lung cancer by integrating large language models with structured knowledge graphs using the knowledge graph(KG)to text-enhanced retrievalaugmented generation(KG2TRAG)method.Methods The TCM lung cancer model(TCMLCM)was constructed by fine-tuning Chat-GLM2-6B on the specialized datasets Tianchi TCM,HuangDi,and ShenNong-TCM-Dataset,as well as a TCM lung cancer KG.The KG2TRAG method was applied to enhance the knowledge retrieval,which can convert KG triples into natural language text via ChatGPT-aided linearization,leveraging large language models(LLMs)for context-aware reasoning.For a comprehensive comparison,MedicalGPT,HuatuoGPT,and BenTsao were selected as the baseline models.Performance was evaluated using bilingual evaluation understudy(BLEU),recall-oriented understudy for gisting evaluation(ROUGE),accuracy,and the domain-specific TCM-LCEval metrics,with validation from TCM oncology experts assessing answer accuracy,professionalism,and usability.Results The TCMLCM model achieved the optimal performance across all metrics,including a BLEU score of 32.15%,ROUGE-L of 59.08%,and an accuracy rate of 79.68%.Notably,in the TCM-LCEval assessment specific to the field of TCM,its performance was 3%−12%higher than that of the baseline model.Expert evaluations highlighted superior performance in accuracy and professionalism.Conclusion TCMLCM can provide an innovative solution for TCM lung cancer QA,demonstrating the feasibility of integrating structured KGs with LLMs.This work advances intelligent TCM healthcare tools and lays a foundation for future AI-driven applications in traditional medicine. 展开更多
关键词 Traditional Chinese medicine(TCM) Lung cancer Question-answering Large language model Fine-tuning Knowledge graph KG2TRAG method
下载PDF
生成式人工智能的工业应用技术与前景
11
作者 张朋 张洁 《自动化仪表》 CAS 2024年第8期1-10,共10页
随着在工业应用中的不断深化,人工智能(AI)逐渐面临场景定制化、数据要求高、动态环境适应性差等问题。以生成式人工智能(AIGC)为代表的通用AI为突破传统AI的瓶颈提供了新思路。为推动AIGC与工业领域的融合创新、抢占下一轮科技革命的... 随着在工业应用中的不断深化,人工智能(AI)逐渐面临场景定制化、数据要求高、动态环境适应性差等问题。以生成式人工智能(AIGC)为代表的通用AI为突破传统AI的瓶颈提供了新思路。为推动AIGC与工业领域的融合创新、抢占下一轮科技革命的技术高地,对AIGC技术及其工业应用展开综述。首先,梳理了国内外AIGC技术的发展现状,总结了当前AIGC工业应用面临的问题和挑战。然后,提出了AIGC在工业领域应用的技术架构,以及通用大模型集成、通用大模型微调与知识库外挂、预训练工业大模型这三种应用模式。最后,从研发设计、生产制造、经营管理以及运维服务等四个方面的十二个场景作应用展望,以激发AIGC工业应用的新技术、新方向的进一步发展,赋能工业领域形成新质生产力。 展开更多
关键词 生成式人工智能 工业应用 通用大模型 人工智能 大模型集成 大模型微调 预训练大模型
下载PDF
TCMLLM-PR:evaluation of large language models for prescription recommendation in traditional Chinese medicine
12
作者 TIAN Haoyu YANG Kuo +9 位作者 DONG Xin ZHAO Chenxi YE Mingwei WANG Hongyan LIU Yiming HU Minjie ZHU Qiang YU Jian ZHANG Lei ZHOU Xuezhong 《Digital Chinese Medicine》 CSCD 2024年第4期343-355,共13页
Objective To develop and evaluate a fine-tuned large language model(LLM)for traditional Chinese medicine(TCM)prescription recommendation named TCMLLM-PR.Methods First,we constructed an instruction-tuning dataset conta... Objective To develop and evaluate a fine-tuned large language model(LLM)for traditional Chinese medicine(TCM)prescription recommendation named TCMLLM-PR.Methods First,we constructed an instruction-tuning dataset containing 68654 samples(ap-proximately 10 million tokens)by integrating data from eight sources,including four TCM textbooks,Pharmacopoeia of the People’s Republic of China 2020(CHP),Chinese Medicine Clinical Cases(CMCC),and hospital clinical records covering lung disease,liver disease,stroke,diabetes,and splenic-stomach disease.Then,we trained TCMLLM-PR using Chat-GLM-6B with P-Tuning v2 technology.The evaluation consisted of three aspects:(i)compari-son with traditional prescription recommendation models(PTM,TCMPR,and PresRecST);(ii)comparison with TCM-specific LLMs(ShenNong,Huatuo,and HuatuoGPT)and general-domain ChatGPT;(iii)assessment of model migration capability across different disease datasets.We employed precision,recall,and F1 score as evaluation metrics.Results The experiments showed that TCMLLM-PR significantly outperformed baseline models on TCM textbooks and CHP datasets,with F1@10 improvements of 31.80%and 59.48%,respectively.In cross-dataset validation,the model performed best when migrating from TCM textbooks to liver disease dataset,achieving an F1@10 of 0.1551.Analysis of real-world cases demonstrated that TCMLLM-PR's prescription recommendations most closely matched actual doctors’prescriptions.Conclusion This study integrated LLMs into TCM prescription recommendations,leverag-ing a tailored instruction-tuning dataset and developing TCMLLM-PR.This study will pub-licly release the best model parameters of TCMLLM-PR to promote the development of the decision-making process in TCM practices(https://github.com/2020MEAI/TCMLLM). 展开更多
关键词 Large language models Instruction-tuning Prescription recommendation Traditional Chinese medicine(TCM) Assisted decision-making
下载PDF
基于交替语言数据重构方法的跨语言文本相似度模型
13
作者 王轶 王坤宁 刘铭 《吉林大学学报(理学版)》 2025年第2期551-558,共8页
针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重... 针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重构的预训练文本对,并利用上述文本对对多语言大模型mBERT(BERT-based-multilingual)进行基于数据重构的针对性预训练和微调处理.为验证该模型的可行性,在联合国平行语料数据集上进行实验,实验结果表明,该模型的相似度查准率优于mBERT和其他两种基线模型,其不仅可以进一步提高跨语言信息检索的准确性,并且可以降低多语言自然语言处理任务的研究成本. 展开更多
关键词 mBERT模型 文本相似度 多语言预训练模型 大模型微调
下载PDF
基于大模型知识蒸馏的专利技术功效词自动抽取方法研究:以车联网V2X领域为例 被引量:2
14
作者 王奎芳 吕璐成 +2 位作者 孙文君 王翼虎 赵亚娟 《数据分析与知识发现》 EI CSSCI CSCD 北大核心 2024年第8期144-156,共13页
【目的】提高专利技术功效词自动化抽取的准确度。【方法】采用ChatGPT作为教师模型,ChatGLM3作为学生模型,通过知识蒸馏,将ChatGPT生成的训练数据用于微调ChatGLM3,得到多个技术词抽取模型和功效词抽取模型。采用多个技术词抽取模型分... 【目的】提高专利技术功效词自动化抽取的准确度。【方法】采用ChatGPT作为教师模型,ChatGLM3作为学生模型,通过知识蒸馏,将ChatGPT生成的训练数据用于微调ChatGLM3,得到多个技术词抽取模型和功效词抽取模型。采用多个技术词抽取模型分别从专利的摘要、第一权利要求和技术功效语段中抽取技术词,采用功效词抽取模型从技术功效语段中抽取功效词。【结果】相较于ChatGPT,微调后的多个技术词抽取模型和功效词抽取模型呈现出准确率高、召回率低的特点。基于第一权利要求的ChatGLM3微调模型的准确率和F1值最高,分别为0.734和0.724;功效词抽取模型的准确率为0.649,大于商业工具标注功效词的准确率0.530。【局限】本研究的技术领域和专利语言单一,验证数据量偏小,数据清洗规则不够全面。【结论】本研究方案通过知识蒸馏操作,提升了大语言模型自动抽取技术功效词的准确性。同时,本研究能够支持从专利文本中挖掘前沿创新技术、热点技术,支撑更高质量的智能化专利分析。 展开更多
关键词 技术功效词抽取 知识蒸馏 微调大模型 语义相似矩阵
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部