期刊文献+
共找到152篇文章
< 1 2 8 >
每页显示 20 50 100
基于多模态大语言模型的低延迟端到端自动驾驶模型
1
作者 金彦亮 顾晨杰 高塬 《工业控制计算机》 2025年第3期32-34,共3页
自动驾驶技术当前是科技领域的研究热点之一。针对当前自动驾驶领域中,端到端模型在可解释性和实时性之间无法权衡的问题,提出了一种基于多模态语言模型的低延迟端到端自动驾驶模型,利用多模态大语言模型对自动驾驶数据集进行决策原因... 自动驾驶技术当前是科技领域的研究热点之一。针对当前自动驾驶领域中,端到端模型在可解释性和实时性之间无法权衡的问题,提出了一种基于多模态语言模型的低延迟端到端自动驾驶模型,利用多模态大语言模型对自动驾驶数据集进行决策原因和关键物体的标注,并通过多任务学习来预测决策原因和关键目标,为决策过程提供直观解释的同时,避免了实时推理阶段直接使用大模型推理带来的推理延迟,从而在保证实时性的情况下增加了可解释性。通过仿真实验证明了该模型在提高驾驶完成率、减少模型违规行为与增强可解释性方面的有效性,为端到端自动驾驶领域的决策算法提供了新的思路。 展开更多
关键词 自动驾驶 多模态大语言模型 模仿学习 多任务学习
下载PDF
结合G312线清傅项目的多模态大语言模型在交通应急领域的研究与应用
2
作者 郑应玮 《科技与创新》 2025年第6期19-23,共5页
在交通应急领域,对交通事件的识别理解和快速响应占主要位置,但由于交通事件本身所具有的突发性、多样性、不确定性和紧迫性,导致识别和理解工作极具挑战,而多模态大语言模型(Multi-modal Large Language Models,MLLMs)的发展为这一难... 在交通应急领域,对交通事件的识别理解和快速响应占主要位置,但由于交通事件本身所具有的突发性、多样性、不确定性和紧迫性,导致识别和理解工作极具挑战,而多模态大语言模型(Multi-modal Large Language Models,MLLMs)的发展为这一难点提供了新的解决思路。文中选择了具有代表性的Mini-Gemini和Qwen-VL模型,从3个方面逐步探索多模态大语言模型在交通应急领域应用的可能性,深入研究多模态大语言模型对复杂交通事件的认知和推理能力,并结合正在建设中的G312线清水驿至傅家窑公路“5G+智慧公路”项目,为其提供技术落地应用思路。 展开更多
关键词 多模态大语言模型 交通应急 Mini-Gemini Qwen-VL
下载PDF
多模态大语言模型驱动的争论式智能对话学习系统设计与开发
3
作者 黎盈盈 詹昌昊 《数字技术与应用》 2025年第1期25-27,共3页
在人工智能飞速发展的背景下,生成式大模型(GLM)已成为教育界广泛推崇的智能化教学辅助工具。多模态大语言模型(MLLM)在提高教学效率、支持个性化学习以及实现实时互动等方面展现出显著的优势,但在教育实践中的潜在缺陷亦不容忽视。究... 在人工智能飞速发展的背景下,生成式大模型(GLM)已成为教育界广泛推崇的智能化教学辅助工具。多模态大语言模型(MLLM)在提高教学效率、支持个性化学习以及实现实时互动等方面展现出显著的优势,但在教育实践中的潜在缺陷亦不容忽视。究其根本,是MLLM未能在教与学中主动引导学生进行深入探究。 展开更多
关键词 教学辅助工具 个性化学习 多模态 潜在缺陷 人工智能 语言模型 系统设计与开发 模型驱动
下载PDF
基于多模态融合大模型架构Agri-QA Net的作物知识问答系统
4
作者 吴华瑞 赵春江 李静晨 《智慧农业(中英文)》 2025年第1期1-10,共10页
[目的/意义]随着农业信息化和智能化的快速发展,多模态人机交互技术在农业领域的重要性日益凸显。本研究提出了一种基于多模态融合的大模型架构Agri-QA Net,旨在针对甘蓝作物的农业知识,设计多模态专业问答系统。[方法]该模型通过整合... [目的/意义]随着农业信息化和智能化的快速发展,多模态人机交互技术在农业领域的重要性日益凸显。本研究提出了一种基于多模态融合的大模型架构Agri-QA Net,旨在针对甘蓝作物的农业知识,设计多模态专业问答系统。[方法]该模型通过整合文本、音频和图片数据,利用预训练的BERT(Bidirectional Encoder Representations from Transformers)模型提取文本特征,声学模型提取音频特征,以及卷积神经网络提取图像特征,并采用基于Transformer的融合层来整合这些特征。此外,引入跨模态注意力机制和领域自适应技术,增强了模型对农业领域专业知识的理解和应用能力。本研究通过收集和预处理甘蓝种植相关的多模态数据,训练并优化了AgriQA Net模型。[结果和讨论]实验评估表明,该模型在甘蓝农业知识问答任务上表现出色,相较于传统的单模态或简单多模态模型,具有更高的准确率和更好的泛化能力。在多模态输入的支持下,其准确率达到了89.5%,精确率为87.9%,召回率为91.3%,F_(1)值为89.6%,均显著高于单一模态模型。[结论]案例研究展示了Agri-QA Net在实际农业场景中的应用效果,证明了其在帮助农民解决实际问题中的有效性。未来的工作将探索模型在更多农业场景中的应用,并进一步优化模型性能。 展开更多
关键词 多模态融合 人机交互 农业知识问答 甘蓝作物 大语言模型
下载PDF
基于预训练语言模型的知识图谱研究综述
5
作者 曾泽凡 胡星辰 +2 位作者 成清 司悦航 刘忠 《计算机科学》 北大核心 2025年第1期1-33,共33页
大语言模型时代,知识图谱作为一种结构化的知识表示方式,在提升人工智能的可靠性、安全性和可解释性方面发挥着不可替代的作用,具有重要的研究价值和实际应用前景。近年来,凭借在语义理解和上下文学习方面的优越性能,预训练语言模型已... 大语言模型时代,知识图谱作为一种结构化的知识表示方式,在提升人工智能的可靠性、安全性和可解释性方面发挥着不可替代的作用,具有重要的研究价值和实际应用前景。近年来,凭借在语义理解和上下文学习方面的优越性能,预训练语言模型已经成为了知识图谱研究的主要手段。系统梳理了基于预训练语言模型的知识图谱研究的相关工作,包括知识图谱构建、表示学习、推理、问答等,介绍了相关模型和方法的核心思路,并依据技术路径建立了分类体系,对不同类型方法的优缺点进行了对比分析。此外,对预训练语言模型在事件知识图谱和多模态知识图谱这两种新型知识图谱中的应用现状进行了综述。最后,总结了当前基于预训练语言模型的知识图谱研究面临的挑战,展望了未来的研究方向。 展开更多
关键词 知识图谱 预训练语言模型 大语言模型 多模态 事件知识图谱
下载PDF
面向工程图纸理解的大语言模型提示生成方法
6
作者 孙晨伟 侯俊利 +1 位作者 刘祥根 吕建成 《计算机应用》 北大核心 2025年第3期801-807,共7页
近年来,大语言模型(LLM)在自然语言处理、计算机视觉等领域都展示出卓越的语言理解和对话能力。然而,它们常常会在专业领域中产生与正确答案不相符的推理结果。这为LLM在精确和准确的决策任务中的应用带来了重大挑战。为了解决这个问题... 近年来,大语言模型(LLM)在自然语言处理、计算机视觉等领域都展示出卓越的语言理解和对话能力。然而,它们常常会在专业领域中产生与正确答案不相符的推理结果。这为LLM在精确和准确的决策任务中的应用带来了重大挑战。为了解决这个问题,提出一种规则指导的后提示词大模型(PP-LLM)生成方法。该方法通过生成后提示词可以将原问题转化为2个更容易解决的子问题,从而引入专家知识、降低任务学习难度。具体来说,使用知识指导的特定规则将监督数据集的输出部分转化为后提示词与输出部分的组合。PP-LLM方法不改变模型的训练和推理过程,并且不增加计算量。实验结果表明,PP-LLM方法显著提高了推理结果的准确性,缩小了模型预测与实际答案之间的差距,与不使用所提方法的结果相比,F1值、ROUGE(Recall-Oriented Understudy for Gisting Evaluation)等都有显著提高。可见,以上工作提高了LLM在专业应用上的可靠性,并为LLM生成技术提供了新的思路。 展开更多
关键词 工程图纸 大语言模型 数据增强 多模态 提示词
下载PDF
基于大语言模型与视觉语言模型的多模态事实核查
7
作者 张芃芃 彭勃 +1 位作者 董晶 程皓楠 《中国传媒大学学报(自然科学版)》 2024年第4期30-37,54,共9页
多模态事实核查旨在联合多种模态的媒体内容以抽取有效信息来检测社交媒体背景下的虚假信息。针对已有研究对事实核查领域专用数据集过于依赖以及在图像理解和语义相似度计算方面可解释性弱的问题,提出了一种全新的基于预训练大模型的... 多模态事实核查旨在联合多种模态的媒体内容以抽取有效信息来检测社交媒体背景下的虚假信息。针对已有研究对事实核查领域专用数据集过于依赖以及在图像理解和语义相似度计算方面可解释性弱的问题,提出了一种全新的基于预训练大模型的多模态事实核查自动化方法,并在公开数据集COSMOS上进行了实验。结果表明该方法达到了0.859的正确率,且在每次核查时都能提供清晰的理由,相较于传统的基线方法具有更高的准确性和更强的可解释性。此外,还深入分析了不同的方法变体,以及数据集中各种虚假信息的判别场景,验证了本方法凭借在多模态信息语义理解方面的强大能力,可以灵活应对不同情境下的脱离上下文检测。本文方法为社交网络中多模态媒体内容的事实核查工作提供有力的技术支持和新的思考方向。 展开更多
关键词 深度学习 大语言模型 视觉语言模型 多模态 事实核查
下载PDF
《计算机科学与探索》“多模态大模型:理论、技术与应用”专题征文通知
8
《计算机工程与应用》 北大核心 2025年第6期I0001-I0001,共1页
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多... 近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(Multimodal Large Language Models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。 展开更多
关键词 计算机科学 人工智能技术 模态 数字媒体 视觉内容 多模态 语言模型 专题征文
下载PDF
《计算机科学与探索》“多模态大模型:理论、技术与应用”专题征文通知
9
《计算机工程与应用》 北大核心 2025年第7期I0001-I0001,共1页
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多... 近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(Multimodal Large Language Models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。 展开更多
关键词 计算机科学 人工智能技术 模态 数字媒体 视觉内容 多模态 语言模型 专题征文
下载PDF
“多模态大模型:理论、技术与应用”专题征文通知
10
《计算机科学与探索》 北大核心 2025年第3期I0002-I0002,共1页
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeekJanus-Pro在内的一系列多模态大模型先后出现,多... 近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeekJanus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(multimodal large language models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。然而,多模态大模型的构建与应用仍面临诸多挑战:如何有效融合异构模态数据,实现跨模态语义对齐与知识迁移?如何提升模型对复杂场景的泛化能力与可解释性?如何降低多模态大模型的训练与推理成本,并保障其安全性与伦理合规性?如何在不同垂直领域适配优化多模态大模型,以解决领域特定应用问题?这些问题亟需学术界与工业界共同探索创新解决方案。为深入探讨多模态大模型的前沿理论与技术突破,推动其在各领域的创新应用,《计算机科学与探索》特设“多模态大模型:理论、技术与应用”专题。本专题旨在汇聚多模态学习、大模型架构设计、跨模态知识融合等领域的优秀研究成果,为构建高效、可靠、可扩展的多模态大模型提供理论支持与实践指导,助力人工智能向更通用、更智能的方向发展。欢迎学术界与工业界同仁踊跃投稿,共同推动多模态大模型的理论、技术创新与产业应用落地! 展开更多
关键词 人工智能 计算机科学 知识融合 可解释性 模型架构 特定应用 多模态 语言模型
下载PDF
基于多模态大语言模型的攻击性模因解释生成方法 被引量:1
11
作者 林萌 戴程威 郭涛 《计算机研究与发展》 EI CSCD 北大核心 2024年第5期1206-1217,共12页
随着5G的发展,攻击性言论逐渐以多模态的方式在社交网络上广泛传播.因此,攻击性模因的检测与解释生成对于提高内容审核效果、维护和谐健康的舆论场环境有着重要的作用.现有的攻击性模因解释生成研究只关注于攻击对象和攻击内容,忽略了... 随着5G的发展,攻击性言论逐渐以多模态的方式在社交网络上广泛传播.因此,攻击性模因的检测与解释生成对于提高内容审核效果、维护和谐健康的舆论场环境有着重要的作用.现有的攻击性模因解释生成研究只关注于攻击对象和攻击内容,忽略了模因包含的社会背景知识和隐喻表达手法,无法全面、准确地解释攻击性模因的含义,大大限制了解释的应用范围.为了应对这一挑战,提出一种基于多模态大模型的攻击性模因解释生成方法,通过增强攻击目标、攻击内容和隐喻识别等多种指令数据,利用其微调多模态大模型,以提升大模型对攻击性模因的解释生成能力.实验结果证实,该方法生成的解释具有3点优势:一是相比基线模型在BERTScore评估指标上提高了19%;二是解释中包含了攻击性隐喻表达的相关背景知识;三是在处理未见的模因数据时也表现出良好的泛化性能. 展开更多
关键词 攻击性模因 解释生成 多模态大语言模型 数据增强 指令微调
下载PDF
基于视觉语言模型的跨模态多级融合情感分析方法 被引量:1
12
作者 谢润锋 张博超 杜永萍 《模式识别与人工智能》 EI CSCD 北大核心 2024年第5期459-468,共10页
图文多模态情感分析旨在通过融合视觉模态和文本模态预测情感极性,获取高质量的视觉模态表征和文本模态表征并进行高效融合,这是解决图文多模态情感分析任务的关键环节之一.因此,文中提出基于视觉语言模型的跨模态多级融合情感分析方法... 图文多模态情感分析旨在通过融合视觉模态和文本模态预测情感极性,获取高质量的视觉模态表征和文本模态表征并进行高效融合,这是解决图文多模态情感分析任务的关键环节之一.因此,文中提出基于视觉语言模型的跨模态多级融合情感分析方法.首先,基于预训练的视觉语言模型,通过冻结参数,采用低阶自适应方法微调语言模型的方式,生成高质量的模态表征和模态桥梁表征.然后,设计跨模态多头互注意力融合模块,分别对视觉模态表征和文本模态表征进行交互加权融合.最后,设计混合专家网络融合模块,将视觉、文本的模态表征和模态桥梁表征结合后进行深度融合,实现多模态情感分析.实验表明,文中方法在公开评测数据集MVSA-Single和HFM上达到SOTA. 展开更多
关键词 视觉语言模型 多模态融合 多头注意力 混合专家网络 情感分析
下载PDF
开源多模态大语言模型初探
13
作者 刘一闻 李彤 +2 位作者 王宇琦 李泽魁 郜婕 《中国传媒科技》 2024年第8期82-85,共4页
【目的】本文旨在总结开源多模态大语言模型(Multimodal Large Language Model,MLLM)的最新进展,探索其在新闻领域的落地实践。【方法】首先,笔者介绍了MLLM的研究背景,对典型的开源和闭源模型在不同测试基准上的表现进行了对比,然后解... 【目的】本文旨在总结开源多模态大语言模型(Multimodal Large Language Model,MLLM)的最新进展,探索其在新闻领域的落地实践。【方法】首先,笔者介绍了MLLM的研究背景,对典型的开源和闭源模型在不同测试基准上的表现进行了对比,然后解析了模型架构,包括其组成部分和工作原理,接着探讨了训练策略以及所需要的数据,最后展望了应用场景和研究方向。【结果/结论】通过本文的分析,可以了解到开源MLLM在赶超闭源商业模型上的潜力和发展方向,以及在新闻领域广阔的应用前景,同时为采编业务全流程提供强大的语言理解和生成能力,未来可以结合实际场景开展相关技术的落地实践。 展开更多
关键词 多模态大语言模型 预训练 视觉语言模型 大语言模型
下载PDF
基于多模态大语言模型的数字厨师与智能烹饪系统
14
作者 李鑫源 李柏 +4 位作者 孙跃硕 张坦探 田永林 殷烛炎 王飞跃 《智能科学与技术学报》 CSCD 2024年第4期429-444,共16页
面向高质量和精准烹饪的需求,提出一种基于多模态大语言模型的数字厨师与智能烹饪方法。离线阶段利用视觉、声音、温度等多源传感器记录专业厨师的连续操作,将图像与多轮问答文本融合,建立烹饪专家知识库,并采用低秩适配方法对预训练多... 面向高质量和精准烹饪的需求,提出一种基于多模态大语言模型的数字厨师与智能烹饪方法。离线阶段利用视觉、声音、温度等多源传感器记录专业厨师的连续操作,将图像与多轮问答文本融合,建立烹饪专家知识库,并采用低秩适配方法对预训练多模态大语言模型进行微调,以构建能够理解烹饪意图的多模态大语言模型。在线阶段将实时感知的数据转换为图文输入微调后的大语言模型,经模型分析后生成烹饪指令,引导用户完成相应的烹饪动作。以煎牛排任务为例,搭建了智能烹饪软硬件系统并进行实验验证。实验结果表明,经过微调后的智能烹饪系统能有效控制牛排的熟度与品质,相较于微调前的模型,显著提升了烹饪指令的合理性和针对性。 展开更多
关键词 多模态大语言模型 数字厨师 智能烹饪 烹饪机器人 专家系统 人工智能
原文传递
基于大语言模型的缺失数据交通流预测
15
作者 高畅 《交通技术》 2025年第2期269-280,共12页
交通流预测在智能交通系统中具有重要意义。近年来,交通预测模型多基于复杂的深度学习架构,然而,这些模型往往缺乏对输入到输出过程及其结果的直观解释。由于交通数据本身的复杂性、模型不透明性以及数据收集过程中常见的缺失问题,缺失... 交通流预测在智能交通系统中具有重要意义。近年来,交通预测模型多基于复杂的深度学习架构,然而,这些模型往往缺乏对输入到输出过程及其结果的直观解释。由于交通数据本身的复杂性、模型不透明性以及数据收集过程中常见的缺失问题,缺失数据的处理和预测结果的可解释性仍然面临重大挑战。针对这一问题,我们提出了一种基于大语言模型(LLM-MTFP)的可解释性缺失数据交通预测模型。具体而言,该模型通过将多模式交通数据转换为自然语言描述,利用大语言模型捕捉复杂的时空特征和外部因素,并基于语言指令进行微调。我们在加利福尼亚州多模态数据集上进行了实验验证。结果表明,本文提出的方法在预测准确性方面优于基线模型,并且能够提供可靠的解释,验证了大语言模型在交通流预测中的应用潜力。Traffic flow prediction holds significant importance in intelligent transportation systems. In recent years, traffic prediction models have largely been based on complex deep learning architectures. However, these models often lack intuitive explanations of the input-output processes and their results. Due to the inherent complexity of traffic data, model opacity, and common data missing issues during the data collection process, handling missing data and ensuring the interpretability of prediction results remain major challenges. To address this problem, we propose an explainable missing data traffic prediction model based on large language models (LLM-MTFP). Specifically, the model converts multimodal traffic data into natural language descriptions, leverages large language models to capture complex spatiotemporal features and external factors, and fine-tunes the model based on linguistic instructions. We conducted experimental validations on the California multimodal dataset. The results demonstrate that the proposed method outperforms baseline models in prediction accuracy and can provide reliable explanations, verifying the application potential of large language models in traffic flow prediction. 展开更多
关键词 交通流预测 大语言模型 缺失数据 多模态数据
下载PDF
多模态大语言模型对开源声像信息研究的影响
16
作者 吴叔義 郭秀峰 侯丽 《国防科技》 2024年第3期73-80,92,共9页
开源声像信息研究作为国防科技信息研究的组成部分,在自媒体与短视频爆发的现阶段重要性愈发凸显。大模型浪潮爆发后,深入探析多模态大语言模型对开源声像信息研究工作的影响具有重要意义。通过研究梳理多种多模态大语言模型技术特点和... 开源声像信息研究作为国防科技信息研究的组成部分,在自媒体与短视频爆发的现阶段重要性愈发凸显。大模型浪潮爆发后,深入探析多模态大语言模型对开源声像信息研究工作的影响具有重要意义。通过研究梳理多种多模态大语言模型技术特点和应用场景特点,提出在开源声像信息研究中的潜在应用方向,为开源声像信息研究工作提供参考。现阶段多模态大语言模型距离直接落地应用还有差距,但其将是重塑重构声像信息研究工作的重要推手,其生成特性也为开源声像信息研究带来极大挑战,开源声像信息研究进入转型升维的战略机遇期。 展开更多
关键词 多模态大语言模型 开源声像信息 人工智能
下载PDF
多模态大语言模型应用于工业数据分类分级的初步研究与思考
17
作者 阮子禅 包宏宇 王文君 《工业信息安全》 2024年第6期43-52,共10页
在万物互联互通的时代,工业领域数据安全有其独特风险:数据平台化汇聚、工业设备平台产品漏洞未修、工业数据暴露面增加、新兴技术带来新威胁。数据分类分级作为我国数字化进程的关键一环,是帮助企业在数据安全中排列风险优先级,在策略... 在万物互联互通的时代,工业领域数据安全有其独特风险:数据平台化汇聚、工业设备平台产品漏洞未修、工业数据暴露面增加、新兴技术带来新威胁。数据分类分级作为我国数字化进程的关键一环,是帮助企业在数据安全中排列风险优先级,在策略战略制定中提供重要依据,是从存储和检索角度提高运营效率、降低成本的重要前置任务。数据分类分级方法通常涉及大量人工干预和静态分类规则。这类方法不仅耗时、人工成本高,且难以有效处理庞大多样且异构的数据集。本文提出了结合多模态大语言模型的混合模型框架,是对新兴技术应用于工业数据分类分级的初步研究与思考,旨在推动工业数据分类分级领域方法创新。 展开更多
关键词 工业领域 数据分类分级 多模态大语言模型 模型
下载PDF
多模态大语言模型应用研究
18
作者 赵康康 《电脑与电信》 2024年第12期1-5,共5页
多模态大语言模型具备强大的信息理解与处理能力,能够实现信息的跨模态交互和推理。从模型架构、训练流程、技术进展和应用领域等方面分析其优势、不足与挑战,为今后模型优化及应用提供参考借鉴。尽管多模态大语言模型因其强大性能发展... 多模态大语言模型具备强大的信息理解与处理能力,能够实现信息的跨模态交互和推理。从模型架构、训练流程、技术进展和应用领域等方面分析其优势、不足与挑战,为今后模型优化及应用提供参考借鉴。尽管多模态大语言模型因其强大性能发展迅猛,但面临着难题,未来应不断优化模型,提高模型性能,拓宽应用领域。 展开更多
关键词 多模态大语言模型 模型架构 训练流程 技术进展 应用领域
下载PDF
基于视觉-语言预训练模型的零样本迁移学习方法综述
19
作者 孙仁科 许靖昊 +2 位作者 皇甫志宇 李仲年 许新征 《计算机工程》 CAS CSCD 北大核心 2024年第10期1-15,共15页
近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模... 近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。 展开更多
关键词 零样本学习 视觉-语言预训练模型 零样本迁移 多模态 计算机视觉
下载PDF
大语言模型及其个性化推荐研究
20
作者 吴国栋 秦辉 +2 位作者 胡全兴 王雪妮 吴贞畅 《智能系统学报》 CSCD 北大核心 2024年第6期1351-1365,共15页
大语言模型因其强大的自然语言处理能力在人工智能领域产生了巨大影响,使得大语言模型个性化推荐成为当前推荐系统研究的新兴领域。本文在深入分析已有大语言模型及其个性化推荐相关研究基础上,探讨大语言模型推荐的过程,并从直接推荐... 大语言模型因其强大的自然语言处理能力在人工智能领域产生了巨大影响,使得大语言模型个性化推荐成为当前推荐系统研究的新兴领域。本文在深入分析已有大语言模型及其个性化推荐相关研究基础上,探讨大语言模型推荐的过程,并从直接推荐、基于表示学习推荐、基于生成性学习推荐和提示学习推荐四方面详细分析了大语言模型推荐主要的研究进展。指出现有大语言模型推荐研究中存在的推荐偏差、提示脆弱性、有限上下文、高延迟、公平性和评估等问题,展望未来大语言模型推荐研究的主要方向,包括大语言模型推荐的安全性、面向领域的大语言模型推荐、跨模态大语言模型推荐、融合检索任务的大语言模型推荐以及大语言模型推荐的可解释性等。 展开更多
关键词 大语言模型 推荐 深度学习 监督微调 对齐 提示学习 生成性 多模态
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部