在交通应急领域,对交通事件的识别理解和快速响应占主要位置,但由于交通事件本身所具有的突发性、多样性、不确定性和紧迫性,导致识别和理解工作极具挑战,而多模态大语言模型(Multi-modal Large Language Models,MLLMs)的发展为这一难...在交通应急领域,对交通事件的识别理解和快速响应占主要位置,但由于交通事件本身所具有的突发性、多样性、不确定性和紧迫性,导致识别和理解工作极具挑战,而多模态大语言模型(Multi-modal Large Language Models,MLLMs)的发展为这一难点提供了新的解决思路。文中选择了具有代表性的Mini-Gemini和Qwen-VL模型,从3个方面逐步探索多模态大语言模型在交通应急领域应用的可能性,深入研究多模态大语言模型对复杂交通事件的认知和推理能力,并结合正在建设中的G312线清水驿至傅家窑公路“5G+智慧公路”项目,为其提供技术落地应用思路。展开更多
【目的】本文旨在总结开源多模态大语言模型(Multimodal Large Language Model,MLLM)的最新进展,探索其在新闻领域的落地实践。【方法】首先,笔者介绍了MLLM的研究背景,对典型的开源和闭源模型在不同测试基准上的表现进行了对比,然后解...【目的】本文旨在总结开源多模态大语言模型(Multimodal Large Language Model,MLLM)的最新进展,探索其在新闻领域的落地实践。【方法】首先,笔者介绍了MLLM的研究背景,对典型的开源和闭源模型在不同测试基准上的表现进行了对比,然后解析了模型架构,包括其组成部分和工作原理,接着探讨了训练策略以及所需要的数据,最后展望了应用场景和研究方向。【结果/结论】通过本文的分析,可以了解到开源MLLM在赶超闭源商业模型上的潜力和发展方向,以及在新闻领域广阔的应用前景,同时为采编业务全流程提供强大的语言理解和生成能力,未来可以结合实际场景开展相关技术的落地实践。展开更多
舌诊通过观察舌体特征评估健康状态,而舌体分割作为智能舌诊的关键步骤,需要准确分离舌体与背景,为后续特征提取和健康分析奠定基础。然而,舌体分割目前面临着两大挑战:一是数据的稀缺性,二是现有的分割大模型(如SAM模型)对人工提示的...舌诊通过观察舌体特征评估健康状态,而舌体分割作为智能舌诊的关键步骤,需要准确分离舌体与背景,为后续特征提取和健康分析奠定基础。然而,舌体分割目前面临着两大挑战:一是数据的稀缺性,二是现有的分割大模型(如SAM模型)对人工提示的依赖性。为了解决以上问题,本文提出了一种零样本多模态的分割方法。该方法结合SAM模型和多模态提示技术,通过两阶段框架实现:1) 初步分割和相似度聚类,利用SAM模型生成初步分割结果,并通过相似度聚类解码器筛选潜在有效分割;2) 精细化分割,利用多模态大语言模型分析舌体特征,生成精确点提示,再次输入到SAM模型中以实现高精度分割。该方法在无需特定任务训练或标注数据的情况下,实现了SAM模型在舌诊领域的智能分割应用。实验结果显示,相比于原始的SAM模型,该方法在三个舌诊数据集上的mIoU指标分别提升了27.3%,18.2%,29.7%。Tongue diagnosis assesses health status by observing tongue characteristics, and tongue segmentation, as a key step in intelligent tongue diagnosis, requires accurately separating the tongue body from the background to lay a foundation for subsequent feature extraction and health analysis. However, tongue segmentation currently faces two main challenges: data scarcity and the dependency of existing large segmentation models (such as the segment anything model) on manual prompts. To address these issues, this paper proposes a zero-shot multimodal segmentation method. This method combines the SAM model with multimodal prompt techniques and implemented in a two-stage framework: 1) initial segmentation and similarity clustering, where the SAM model generates initial segmentation results, followed by a similarity clustering decoder to filter out potentially effective segmentations;2) refined segmentation, where a multimodal large language model analyzes tongue characteristics to generate precise point prompts, which are re-entered into the SAM model to achieve high-precision segmentation. This method enables intelligent segmentation with the SAM model in tongue diagnosis without the need for task-specific training or annotated data. Experimental results show that, compared to the original SAM model, this method improves the mIoU metric on three tongue diagnosis datasets by 27.3%, 18.2%, and 29.7%, respectively.展开更多
生成式人工智能(AI-Generated Content,AIGC)关键技术突破推动多模态大语言模型(Multimodal Large Language Models,MLLMs)军事垂直领域应用过程中存在评估体系评估指标不够健全的问题,为解决此问题,采用自顶向下正向设计与自底向上聚...生成式人工智能(AI-Generated Content,AIGC)关键技术突破推动多模态大语言模型(Multimodal Large Language Models,MLLMs)军事垂直领域应用过程中存在评估体系评估指标不够健全的问题,为解决此问题,采用自顶向下正向设计与自底向上聚合评估相结合的方法,构建包含智能化军事需求—智能化场景任务—系统性能评估—体系效能评估的“四域”,与基础支撑服务—算法指标体系—综合安全防护的“三维”军事大模型评估体系框架,提出评估大模型的主要维度、关键指标和基本流程,并定性定量相结合给出相应评估指标体系,为军事大模型赋能装备体系和作战效能提供评估支撑。展开更多
文摘在交通应急领域,对交通事件的识别理解和快速响应占主要位置,但由于交通事件本身所具有的突发性、多样性、不确定性和紧迫性,导致识别和理解工作极具挑战,而多模态大语言模型(Multi-modal Large Language Models,MLLMs)的发展为这一难点提供了新的解决思路。文中选择了具有代表性的Mini-Gemini和Qwen-VL模型,从3个方面逐步探索多模态大语言模型在交通应急领域应用的可能性,深入研究多模态大语言模型对复杂交通事件的认知和推理能力,并结合正在建设中的G312线清水驿至傅家窑公路“5G+智慧公路”项目,为其提供技术落地应用思路。
文摘【目的】本文旨在总结开源多模态大语言模型(Multimodal Large Language Model,MLLM)的最新进展,探索其在新闻领域的落地实践。【方法】首先,笔者介绍了MLLM的研究背景,对典型的开源和闭源模型在不同测试基准上的表现进行了对比,然后解析了模型架构,包括其组成部分和工作原理,接着探讨了训练策略以及所需要的数据,最后展望了应用场景和研究方向。【结果/结论】通过本文的分析,可以了解到开源MLLM在赶超闭源商业模型上的潜力和发展方向,以及在新闻领域广阔的应用前景,同时为采编业务全流程提供强大的语言理解和生成能力,未来可以结合实际场景开展相关技术的落地实践。
文摘舌诊通过观察舌体特征评估健康状态,而舌体分割作为智能舌诊的关键步骤,需要准确分离舌体与背景,为后续特征提取和健康分析奠定基础。然而,舌体分割目前面临着两大挑战:一是数据的稀缺性,二是现有的分割大模型(如SAM模型)对人工提示的依赖性。为了解决以上问题,本文提出了一种零样本多模态的分割方法。该方法结合SAM模型和多模态提示技术,通过两阶段框架实现:1) 初步分割和相似度聚类,利用SAM模型生成初步分割结果,并通过相似度聚类解码器筛选潜在有效分割;2) 精细化分割,利用多模态大语言模型分析舌体特征,生成精确点提示,再次输入到SAM模型中以实现高精度分割。该方法在无需特定任务训练或标注数据的情况下,实现了SAM模型在舌诊领域的智能分割应用。实验结果显示,相比于原始的SAM模型,该方法在三个舌诊数据集上的mIoU指标分别提升了27.3%,18.2%,29.7%。Tongue diagnosis assesses health status by observing tongue characteristics, and tongue segmentation, as a key step in intelligent tongue diagnosis, requires accurately separating the tongue body from the background to lay a foundation for subsequent feature extraction and health analysis. However, tongue segmentation currently faces two main challenges: data scarcity and the dependency of existing large segmentation models (such as the segment anything model) on manual prompts. To address these issues, this paper proposes a zero-shot multimodal segmentation method. This method combines the SAM model with multimodal prompt techniques and implemented in a two-stage framework: 1) initial segmentation and similarity clustering, where the SAM model generates initial segmentation results, followed by a similarity clustering decoder to filter out potentially effective segmentations;2) refined segmentation, where a multimodal large language model analyzes tongue characteristics to generate precise point prompts, which are re-entered into the SAM model to achieve high-precision segmentation. This method enables intelligent segmentation with the SAM model in tongue diagnosis without the need for task-specific training or annotated data. Experimental results show that, compared to the original SAM model, this method improves the mIoU metric on three tongue diagnosis datasets by 27.3%, 18.2%, and 29.7%, respectively.
文摘生成式人工智能(AI-Generated Content,AIGC)关键技术突破推动多模态大语言模型(Multimodal Large Language Models,MLLMs)军事垂直领域应用过程中存在评估体系评估指标不够健全的问题,为解决此问题,采用自顶向下正向设计与自底向上聚合评估相结合的方法,构建包含智能化军事需求—智能化场景任务—系统性能评估—体系效能评估的“四域”,与基础支撑服务—算法指标体系—综合安全防护的“三维”军事大模型评估体系框架,提出评估大模型的主要维度、关键指标和基本流程,并定性定量相结合给出相应评估指标体系,为军事大模型赋能装备体系和作战效能提供评估支撑。