在交通应急领域,对交通事件的识别理解和快速响应占主要位置,但由于交通事件本身所具有的突发性、多样性、不确定性和紧迫性,导致识别和理解工作极具挑战,而多模态大语言模型(Multi-modal Large Language Models,MLLMs)的发展为这一难...在交通应急领域,对交通事件的识别理解和快速响应占主要位置,但由于交通事件本身所具有的突发性、多样性、不确定性和紧迫性,导致识别和理解工作极具挑战,而多模态大语言模型(Multi-modal Large Language Models,MLLMs)的发展为这一难点提供了新的解决思路。文中选择了具有代表性的Mini-Gemini和Qwen-VL模型,从3个方面逐步探索多模态大语言模型在交通应急领域应用的可能性,深入研究多模态大语言模型对复杂交通事件的认知和推理能力,并结合正在建设中的G312线清水驿至傅家窑公路“5G+智慧公路”项目,为其提供技术落地应用思路。展开更多
近年来,大语言模型(LLM)在自然语言处理、计算机视觉等领域都展示出卓越的语言理解和对话能力。然而,它们常常会在专业领域中产生与正确答案不相符的推理结果。这为LLM在精确和准确的决策任务中的应用带来了重大挑战。为了解决这个问题...近年来,大语言模型(LLM)在自然语言处理、计算机视觉等领域都展示出卓越的语言理解和对话能力。然而,它们常常会在专业领域中产生与正确答案不相符的推理结果。这为LLM在精确和准确的决策任务中的应用带来了重大挑战。为了解决这个问题,提出一种规则指导的后提示词大模型(PP-LLM)生成方法。该方法通过生成后提示词可以将原问题转化为2个更容易解决的子问题,从而引入专家知识、降低任务学习难度。具体来说,使用知识指导的特定规则将监督数据集的输出部分转化为后提示词与输出部分的组合。PP-LLM方法不改变模型的训练和推理过程,并且不增加计算量。实验结果表明,PP-LLM方法显著提高了推理结果的准确性,缩小了模型预测与实际答案之间的差距,与不使用所提方法的结果相比,F1值、ROUGE(Recall-Oriented Understudy for Gisting Evaluation)等都有显著提高。可见,以上工作提高了LLM在专业应用上的可靠性,并为LLM生成技术提供了新的思路。展开更多
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多...近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(Multimodal Large Language Models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。展开更多
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多...近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(Multimodal Large Language Models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。展开更多
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeekJanus-Pro在内的一系列多模态大模型先后出现,多...近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeekJanus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(multimodal large language models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。然而,多模态大模型的构建与应用仍面临诸多挑战:如何有效融合异构模态数据,实现跨模态语义对齐与知识迁移?如何提升模型对复杂场景的泛化能力与可解释性?如何降低多模态大模型的训练与推理成本,并保障其安全性与伦理合规性?如何在不同垂直领域适配优化多模态大模型,以解决领域特定应用问题?这些问题亟需学术界与工业界共同探索创新解决方案。为深入探讨多模态大模型的前沿理论与技术突破,推动其在各领域的创新应用,《计算机科学与探索》特设“多模态大模型:理论、技术与应用”专题。本专题旨在汇聚多模态学习、大模型架构设计、跨模态知识融合等领域的优秀研究成果,为构建高效、可靠、可扩展的多模态大模型提供理论支持与实践指导,助力人工智能向更通用、更智能的方向发展。欢迎学术界与工业界同仁踊跃投稿,共同推动多模态大模型的理论、技术创新与产业应用落地!展开更多
【目的】本文旨在总结开源多模态大语言模型(Multimodal Large Language Model,MLLM)的最新进展,探索其在新闻领域的落地实践。【方法】首先,笔者介绍了MLLM的研究背景,对典型的开源和闭源模型在不同测试基准上的表现进行了对比,然后解...【目的】本文旨在总结开源多模态大语言模型(Multimodal Large Language Model,MLLM)的最新进展,探索其在新闻领域的落地实践。【方法】首先,笔者介绍了MLLM的研究背景,对典型的开源和闭源模型在不同测试基准上的表现进行了对比,然后解析了模型架构,包括其组成部分和工作原理,接着探讨了训练策略以及所需要的数据,最后展望了应用场景和研究方向。【结果/结论】通过本文的分析,可以了解到开源MLLM在赶超闭源商业模型上的潜力和发展方向,以及在新闻领域广阔的应用前景,同时为采编业务全流程提供强大的语言理解和生成能力,未来可以结合实际场景开展相关技术的落地实践。展开更多
交通流预测在智能交通系统中具有重要意义。近年来,交通预测模型多基于复杂的深度学习架构,然而,这些模型往往缺乏对输入到输出过程及其结果的直观解释。由于交通数据本身的复杂性、模型不透明性以及数据收集过程中常见的缺失问题,缺失...交通流预测在智能交通系统中具有重要意义。近年来,交通预测模型多基于复杂的深度学习架构,然而,这些模型往往缺乏对输入到输出过程及其结果的直观解释。由于交通数据本身的复杂性、模型不透明性以及数据收集过程中常见的缺失问题,缺失数据的处理和预测结果的可解释性仍然面临重大挑战。针对这一问题,我们提出了一种基于大语言模型(LLM-MTFP)的可解释性缺失数据交通预测模型。具体而言,该模型通过将多模式交通数据转换为自然语言描述,利用大语言模型捕捉复杂的时空特征和外部因素,并基于语言指令进行微调。我们在加利福尼亚州多模态数据集上进行了实验验证。结果表明,本文提出的方法在预测准确性方面优于基线模型,并且能够提供可靠的解释,验证了大语言模型在交通流预测中的应用潜力。Traffic flow prediction holds significant importance in intelligent transportation systems. In recent years, traffic prediction models have largely been based on complex deep learning architectures. However, these models often lack intuitive explanations of the input-output processes and their results. Due to the inherent complexity of traffic data, model opacity, and common data missing issues during the data collection process, handling missing data and ensuring the interpretability of prediction results remain major challenges. To address this problem, we propose an explainable missing data traffic prediction model based on large language models (LLM-MTFP). Specifically, the model converts multimodal traffic data into natural language descriptions, leverages large language models to capture complex spatiotemporal features and external factors, and fine-tunes the model based on linguistic instructions. We conducted experimental validations on the California multimodal dataset. The results demonstrate that the proposed method outperforms baseline models in prediction accuracy and can provide reliable explanations, verifying the application potential of large language models in traffic flow prediction.展开更多
文摘在交通应急领域,对交通事件的识别理解和快速响应占主要位置,但由于交通事件本身所具有的突发性、多样性、不确定性和紧迫性,导致识别和理解工作极具挑战,而多模态大语言模型(Multi-modal Large Language Models,MLLMs)的发展为这一难点提供了新的解决思路。文中选择了具有代表性的Mini-Gemini和Qwen-VL模型,从3个方面逐步探索多模态大语言模型在交通应急领域应用的可能性,深入研究多模态大语言模型对复杂交通事件的认知和推理能力,并结合正在建设中的G312线清水驿至傅家窑公路“5G+智慧公路”项目,为其提供技术落地应用思路。
文摘近年来,大语言模型(LLM)在自然语言处理、计算机视觉等领域都展示出卓越的语言理解和对话能力。然而,它们常常会在专业领域中产生与正确答案不相符的推理结果。这为LLM在精确和准确的决策任务中的应用带来了重大挑战。为了解决这个问题,提出一种规则指导的后提示词大模型(PP-LLM)生成方法。该方法通过生成后提示词可以将原问题转化为2个更容易解决的子问题,从而引入专家知识、降低任务学习难度。具体来说,使用知识指导的特定规则将监督数据集的输出部分转化为后提示词与输出部分的组合。PP-LLM方法不改变模型的训练和推理过程,并且不增加计算量。实验结果表明,PP-LLM方法显著提高了推理结果的准确性,缩小了模型预测与实际答案之间的差距,与不使用所提方法的结果相比,F1值、ROUGE(Recall-Oriented Understudy for Gisting Evaluation)等都有显著提高。可见,以上工作提高了LLM在专业应用上的可靠性,并为LLM生成技术提供了新的思路。
文摘近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(Multimodal Large Language Models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。
文摘近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(Multimodal Large Language Models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。
文摘近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeekJanus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(multimodal large language models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。然而,多模态大模型的构建与应用仍面临诸多挑战:如何有效融合异构模态数据,实现跨模态语义对齐与知识迁移?如何提升模型对复杂场景的泛化能力与可解释性?如何降低多模态大模型的训练与推理成本,并保障其安全性与伦理合规性?如何在不同垂直领域适配优化多模态大模型,以解决领域特定应用问题?这些问题亟需学术界与工业界共同探索创新解决方案。为深入探讨多模态大模型的前沿理论与技术突破,推动其在各领域的创新应用,《计算机科学与探索》特设“多模态大模型:理论、技术与应用”专题。本专题旨在汇聚多模态学习、大模型架构设计、跨模态知识融合等领域的优秀研究成果,为构建高效、可靠、可扩展的多模态大模型提供理论支持与实践指导,助力人工智能向更通用、更智能的方向发展。欢迎学术界与工业界同仁踊跃投稿,共同推动多模态大模型的理论、技术创新与产业应用落地!
文摘【目的】本文旨在总结开源多模态大语言模型(Multimodal Large Language Model,MLLM)的最新进展,探索其在新闻领域的落地实践。【方法】首先,笔者介绍了MLLM的研究背景,对典型的开源和闭源模型在不同测试基准上的表现进行了对比,然后解析了模型架构,包括其组成部分和工作原理,接着探讨了训练策略以及所需要的数据,最后展望了应用场景和研究方向。【结果/结论】通过本文的分析,可以了解到开源MLLM在赶超闭源商业模型上的潜力和发展方向,以及在新闻领域广阔的应用前景,同时为采编业务全流程提供强大的语言理解和生成能力,未来可以结合实际场景开展相关技术的落地实践。
文摘交通流预测在智能交通系统中具有重要意义。近年来,交通预测模型多基于复杂的深度学习架构,然而,这些模型往往缺乏对输入到输出过程及其结果的直观解释。由于交通数据本身的复杂性、模型不透明性以及数据收集过程中常见的缺失问题,缺失数据的处理和预测结果的可解释性仍然面临重大挑战。针对这一问题,我们提出了一种基于大语言模型(LLM-MTFP)的可解释性缺失数据交通预测模型。具体而言,该模型通过将多模式交通数据转换为自然语言描述,利用大语言模型捕捉复杂的时空特征和外部因素,并基于语言指令进行微调。我们在加利福尼亚州多模态数据集上进行了实验验证。结果表明,本文提出的方法在预测准确性方面优于基线模型,并且能够提供可靠的解释,验证了大语言模型在交通流预测中的应用潜力。Traffic flow prediction holds significant importance in intelligent transportation systems. In recent years, traffic prediction models have largely been based on complex deep learning architectures. However, these models often lack intuitive explanations of the input-output processes and their results. Due to the inherent complexity of traffic data, model opacity, and common data missing issues during the data collection process, handling missing data and ensuring the interpretability of prediction results remain major challenges. To address this problem, we propose an explainable missing data traffic prediction model based on large language models (LLM-MTFP). Specifically, the model converts multimodal traffic data into natural language descriptions, leverages large language models to capture complex spatiotemporal features and external factors, and fine-tunes the model based on linguistic instructions. We conducted experimental validations on the California multimodal dataset. The results demonstrate that the proposed method outperforms baseline models in prediction accuracy and can provide reliable explanations, verifying the application potential of large language models in traffic flow prediction.