期刊文献+
共找到98篇文章
< 1 2 5 >
每页显示 20 50 100
计算机类专业的课程思政:核心元素、基本原则与实施策略 被引量:90
1
作者 陈志勇 叶桦畅 张笑钦 《中国大学教学》 CSSCI 北大核心 2021年第4期34-38,65,共6页
计算机类专业既需要把握课程思政的一般性规律,也需要立足于课程特色和人才培养目标充分挖掘核心元素,确定基本原则并付诸实施。深刻理解课程思政的时代内涵,阐释计算机类专业课程思政不可或缺的核心元素,根据课程思政目标,有效提升教... 计算机类专业既需要把握课程思政的一般性规律,也需要立足于课程特色和人才培养目标充分挖掘核心元素,确定基本原则并付诸实施。深刻理解课程思政的时代内涵,阐释计算机类专业课程思政不可或缺的核心元素,根据课程思政目标,有效提升教学质量,推动三全育人,实现立德树人。 展开更多
关键词 计算机类专业 课程思政 核心元素 基本原则 实施策略
下载PDF
一种面向银行票据文字自动化识别的高效人工智能方法 被引量:3
2
作者 张振宇 姜贺云 樊明宇 《温州大学学报(自然科学版)》 2020年第3期47-56,共10页
基于深度学习和数字图像处理算法,设计并实现了一套准确的票据文字自动识别系统.首先,对采集到的票据图像进行倾斜校正.然后,提出基于Faster R-CNN的单字检测方法,针对中文文字排列特点优化了RPN,设置合理的字符建议区域.使用RoIAlign替... 基于深度学习和数字图像处理算法,设计并实现了一套准确的票据文字自动识别系统.首先,对采集到的票据图像进行倾斜校正.然后,提出基于Faster R-CNN的单字检测方法,针对中文文字排列特点优化了RPN,设置合理的字符建议区域.使用RoIAlign替换RoIPool避免两次量化操作,保留了更准确的文字空间位置信息.对定位出的单字,按一定的规则合并为字符串字段.最后,应用本文提出的CNN+BiSRU+CTC网络对定位到的字符串图像进行行识别.相较于流行的CNN+BiLSTM+CTC模型,本文模型在不损失精度的同时能提升推理速度.实验表明,本文模型在特定业务票据场景下的文字检测和识别方面都有着上佳的表现. 展开更多
关键词 文字检测 快速区域卷积神经网络 文字识别 卷积循环神经网络 简单循环单元
下载PDF
基于计算机模拟的两嵌段高分子运动研究
3
作者 章斌双 《计算机应用文摘》 2023年第17期93-95,共3页
以往计算机模拟高分子的模型相对简单,其准确度存在较大偏差,研究结果相对单一,影响实际材料的应用,故提出基于随机吸附表面的两嵌段高分子链模型。该模型选用自回避无规行走链模型和Monte Carlo方法,研究高分子链在随机表面上的运动行... 以往计算机模拟高分子的模型相对简单,其准确度存在较大偏差,研究结果相对单一,影响实际材料的应用,故提出基于随机吸附表面的两嵌段高分子链模型。该模型选用自回避无规行走链模型和Monte Carlo方法,研究高分子链在随机表面上的运动行为,并通过数值分析和构象观察,发现表面吸附基块的临界比例与链段吸附力存在关联,且两嵌段高分子链存在双螺旋和环状两种新构象。实验结果表明,该模型具有良好的现实模拟效果。 展开更多
关键词 随机吸附表面 Monte Carlo 两嵌段高分子链 临界比例
下载PDF
基于管理熵模型的生态文明监测评价研究——以温州市为例
4
作者 时勘 张中奇 +2 位作者 赵雨梦 宋旭东 陈翼 《可持续发展》 2024年第7期1670-1681,共12页
近年来,生态文明和环境保护引起广泛的社会关注,成为生态学、环境心理学等多个交叉学科的热点议题之一。为实现生态文明的可持续发展,探究外部环境和人类行为的交互作用,本研究从环境监测与评价入手,采用定性和定量评估相结合的方法,建... 近年来,生态文明和环境保护引起广泛的社会关注,成为生态学、环境心理学等多个交叉学科的热点议题之一。为实现生态文明的可持续发展,探究外部环境和人类行为的交互作用,本研究从环境监测与评价入手,采用定性和定量评估相结合的方法,建构出生态文明监测评价体系。通过管理熵方法构建了生态文明监测指标的管理熵耗散结构模型,并在浙江省温州市实施了本评价体系,在试点评价工作中取得了初步成效。结果表明,该地区监测指标总熵流值为−0.4831 (负熵),即该地区生态发展与运行效果向健康状态演进。但在土地资源利用效率(0.0286)、友好环境产业发展(0.0278)两项指标熵流值为正,需进一步改善。本研究有利于提升温州市在生态文明评价的监管效能,为解决气候变化、自然灾害等潜在危机事件提供客观综合信息,助力生态文明建设。 展开更多
关键词 生态文明 环境监测 监测指标 管理熵方法 耗散结构模型
下载PDF
基于知识图谱的水稻病虫害智能诊断系统 被引量:27
5
作者 于合龙 沈金梦 +2 位作者 毕春光 梁婕 陈慧灵 《华南农业大学学报》 CAS CSCD 北大核心 2021年第5期105-116,共12页
【目的】利用知识图谱对水稻病虫害领域复杂的异构数据信息进行结构化存储,建立病虫害间语义关系,为水稻病虫害关联检索及智能诊断提供理论依据。【方法】首先提出一种面向水稻病虫害的知识图谱构建方法和基于图的水稻病虫害检索算法,... 【目的】利用知识图谱对水稻病虫害领域复杂的异构数据信息进行结构化存储,建立病虫害间语义关系,为水稻病虫害关联检索及智能诊断提供理论依据。【方法】首先提出一种面向水稻病虫害的知识图谱构建方法和基于图的水稻病虫害检索算法,通过引入节气实体实现水稻病虫害的预警。其次提出基于确定性因子(Certainty factor,CF)模型和知识图谱相结合的知识推理方法,利用CF与水稻病株症状的结合实现水稻病虫害的诊断。【结果】利用命名实体识别模型,得出病、虫害名称及危害症状实体的准确率分别为0.92、0.90及0.87,进一步构建包括1972个实体及5226个实体关系的垂直领域知识图谱。通过自主开发的智能诊断系统进行案例分析,试验表明,诊断算法正确率达到86.25%。【结论】该系统有效地解决了水稻病虫害领域数据检索、预警与诊断中知识的复杂性及不确定性的问题,有较强的实用价值和推广前景。 展开更多
关键词 知识图谱 确定性因子模型 水稻病虫害 智能诊断
下载PDF
基于图增强和注意力机制的时间序列不确定性预测
6
作者 门超杰 赵静 张楠 《华东师范大学学报(自然科学版)》 北大核心 2025年第1期82-96,共15页
为提升对未来事件的预判能力并有效应对不确定性,提出了一种基于图增强和注意力机制的网络架构,用于多元时间序列的不确定性预测.通过引入隐含式图结构并结合图神经网络技术,捕捉各序列间相互依赖关系,从而建模时间序列之间的相互影响;... 为提升对未来事件的预判能力并有效应对不确定性,提出了一种基于图增强和注意力机制的网络架构,用于多元时间序列的不确定性预测.通过引入隐含式图结构并结合图神经网络技术,捕捉各序列间相互依赖关系,从而建模时间序列之间的相互影响;运用注意力机制捕捉同一序列内的时序变化模式,以建模时间序列的动态演变规律;采用蒙特卡洛随机失活(Monte Carlo dropout)方法近似模型参数,并将预测序列建模为随机分布,以实现精确的时间序列不确定性预测.实验证明,该方法在保持较高预测精度的同时,还能进行可靠的不确定性估计,可以为决策任务提供置信度信息. 展开更多
关键词 不确定性 图增强 时间序列 注意力机制
下载PDF
基于轨迹图像特征匹配的渔船轨迹相似度计算和轨迹分类 被引量:2
7
作者 徐文进 解钦 黄海广 《计算机系统应用》 2021年第8期232-236,共5页
AIS(Automatic Identification System)是一种船舶的自动识别系统,可以提供船舶的时间戳、经纬度、航向角度、速度等数据信息.本文针对船舶航行轨迹多维度的特点以及对船舶轨迹预测的精确度和实时性的需求,提出了一种基于图像检测和匹... AIS(Automatic Identification System)是一种船舶的自动识别系统,可以提供船舶的时间戳、经纬度、航向角度、速度等数据信息.本文针对船舶航行轨迹多维度的特点以及对船舶轨迹预测的精确度和实时性的需求,提出了一种基于图像检测和匹配的计算轨迹相似度的方法.该方法首先将所有渔船轨迹数据进行可视化,再通过ORB(Oriented FAST and Rotated BRIEF)算法和BF(Brute-Force)匹配来计算轨迹图片相似度用于划分渔船轨迹类型.实验结果显示,通过该计算相似度的方法具有精度高、易实现的特点,与传统计算方法相比,其在处理轨迹数据的效率和速度更具有优越性. 展开更多
关键词 AIS数据 ORB BF 轨迹图片相似度
下载PDF
基于机器学习的早期年龄相关性黄斑变性诊断
8
作者 李浩宇 《计算机科学与应用》 2025年第2期94-101,共8页
本研究聚焦于利用机器学习区分早期年龄相关性黄斑变性(AMD)与正常对照组。鉴于AMD致盲率高且患病率随老龄化上升,早期检测至关重要。采用包含数千张图像的公开数据集,筛选出早期AMD患者和正常对照组的视网膜OCT图像,经基于U-net网络分... 本研究聚焦于利用机器学习区分早期年龄相关性黄斑变性(AMD)与正常对照组。鉴于AMD致盲率高且患病率随老龄化上升,早期检测至关重要。采用包含数千张图像的公开数据集,筛选出早期AMD患者和正常对照组的视网膜OCT图像,经基于U-net网络分割为9层后,利用Python的Mathotas包计算各层前13个Haralick纹理特征值,并通过Kolmogorov-Smirnov检验及相应t检验或Mann-WhitneyU检验筛选特征。统计分析显示ONL、MEZ、RPE层纹理特征在两组间差异显著,OS层差异较小。模型分类中,LightGBM和XGBoost性能优于逻辑回归和SVM,前两者在MEZ、ONL层AUC值高,后两者在OS层表现差。研究为早期AMD诊断提供参考,但OS层问题有待进一步研究改进。This study focuses on using machine learning to distinguish early age-related macular degeneration (AMD) from normal control groups. Given the high rate of blindness caused by AMD and its increasing prevalence with aging, early detection is crucial. Using a public dataset containing thousands of images, retinal OCT images of early AMD patients and normal controls were selected. These images were segmented into 9 layers using a U-net based network. The first 13 Haralick texture features of each layer were calculated using Python’s Mahotas package, and features were selected through Kolmogorov-Smirnov tests and corresponding t-tests or Mann-Whitney U tests. Statistical analysis showed significant differences in texture features of the ONL, MEZ, and RPE layers between the two groups, with smaller differences in the OS layer. In model classification, LightGBM and XGBoost outperformed logistic regression and SVM, with the former two showing high AUC values in the MEZ and ONL layers, while the latter two performed poorly in the OS layer. The study provides a reference for early AMD diagnosis, but issues with the OS layer require further research and improvement. 展开更多
关键词 年龄相关黄斑变性(AMD) Haralick纹理特征 机器学习 外核层(ONL) 视网膜色素上皮细胞层(RPE)
下载PDF
新时代高校辅导员队伍建设的现状与对策研究
9
作者 叶洁琼 陈志勇 《产业与科技论坛》 2025年第4期277-279,共3页
新时代高校辅导员队伍建设是应对时代发展的必答题,是应对发展变化的现实需要,为新时代学生发展和高校建设提供必要的支持。工作边界的模糊性与高标准高要求之间的矛盾、专业素养的欠缺性与专业化职业化之间的矛盾、发展道路的局限性与... 新时代高校辅导员队伍建设是应对时代发展的必答题,是应对发展变化的现实需要,为新时代学生发展和高校建设提供必要的支持。工作边界的模糊性与高标准高要求之间的矛盾、专业素养的欠缺性与专业化职业化之间的矛盾、发展道路的局限性与内生动力的持续性之间的矛盾形成了三组突出的现实矛盾。因此,应从加强思想政治建设,构建制度保障体系,提升内生动力,提升职业素养等方面积极探索辅导员队伍高质量建设的可行路径。 展开更多
关键词 高等学校 辅导员 队伍建设 思想政治建设
下载PDF
语言驱动的语义边缘检测
10
作者 余斌 张笑钦 邓若曦 《计算机科学与应用》 2025年第2期169-178,共10页
语义边缘检测致力于精确描绘对象边界并为各个像素分配类别标签,这对实现准确定位和分类提出了双重挑战。本研究介绍了语言驱动语义边缘检测,这是一个简单的框架,可增强语义轮廓检测模型。语言驱动语义边缘检测旨在利用嵌入在文本表示... 语义边缘检测致力于精确描绘对象边界并为各个像素分配类别标签,这对实现准确定位和分类提出了双重挑战。本研究介绍了语言驱动语义边缘检测,这是一个简单的框架,可增强语义轮廓检测模型。语言驱动语义边缘检测旨在利用嵌入在文本表示中的语义信息来重新校准边缘检测器的注意力,从而增强高级图像特征的判别能力。为了实现这一点,我们引入了文本特征信息,使用跨模态融合方式增强了边缘检测器的定位和分类。在SBD和CityScapes数据集上的实验结果表明,模型性能得到显著提升。例如,在CASENet中加入文本特征信息可将SBD数据集上的平均ODS得分从70.4提高到72.6。最终,语言驱动语义边缘检测实现了领先的平均ODS 77.0,超越了竞争对手。我们将展示更多额外的结合方法、主干网络的效果。Semantic edge detection strives to accurately delineate object boundaries and assign category labels to individual pixels, which poses a dual challenge to achieve accurate localization and classification. This study introduces language-driven semantic edge detection, a simple framework that enhances semantic contour detection models. Language-driven semantic edge detection aims to leverage the semantic information embedded in text representations to recalibrate the attention of edge detectors, thereby enhancing the discriminative ability of high-level image features. To achieve this, we introduce text feature information and use cross-modal fusion to enhance the localization and classification of edge detectors. Experimental results on SBD and CityScapes datasets show that model performance is significantly improved. For example, adding text feature information to CASENet improves the average ODS score on the SBD dataset from 70.4 to 72.6. Ultimately, language-driven semantic edge detection achieves a leading average ODS of 77.0, surpassing the competition. We will show the effects of more additional combining methods and backbone networks. 展开更多
关键词 语义边缘检测 跨模态融合 卷积神经网络 CLIP
下载PDF
集成AI大语言模型的在线编程实验平台设计与实现 被引量:1
11
作者 厉旭杰 顾雨辰 姚持恩 《实验技术与管理》 CAS 北大核心 2024年第8期215-221,共7页
传统在线编程实验平台受限于反馈信息的局限性、忽视代码风格及规范性、代码的可读性、代码的效率等多种因素,不利于学生的学习和发展。该文设计并实现了一个集成AI大语言模型的在线编程实验平台方案,该方案在传统平台基础上,引入了大... 传统在线编程实验平台受限于反馈信息的局限性、忽视代码风格及规范性、代码的可读性、代码的效率等多种因素,不利于学生的学习和发展。该文设计并实现了一个集成AI大语言模型的在线编程实验平台方案,该方案在传统平台基础上,引入了大语言模型的实时代码建议、程序安全扫描和判题结果分析优化功能。通过AI大语言模型的实时分析、诊断和优化建议,大大提高了教学效果,增强了学生与系统的互动,能够使学生更好的理解编程概念并提升解决问题的能力。该研究证实了AI模型在编程教育中的价值,并为人工智能在高等教育技术的应用提供了新的视角和策略。 展开更多
关键词 大语言模型 编程实验平台 程序设计 人工智能
下载PDF
面向核心能力培养的地方高校人工智能专业课程建设 被引量:12
12
作者 全力 张笑钦 吴承文 《高等工程教育研究》 CSSCI 北大核心 2022年第3期102-106,共5页
新一代人工智能技术的发展已成为一项国家战略,其核心始终围绕着人工智能人才的存量与质量进行。目前,全国共有345所普通高校建有人工智能本科专业,其人才培养体系如何构建,尤为需要探索不同层次、不同类型又符合办学特色的典型性人才... 新一代人工智能技术的发展已成为一项国家战略,其核心始终围绕着人工智能人才的存量与质量进行。目前,全国共有345所普通高校建有人工智能本科专业,其人才培养体系如何构建,尤为需要探索不同层次、不同类型又符合办学特色的典型性人才培养方案,核心要义是到底需要什么样的人工智能课程体系,培养具有什么能力的人才。因此,应解析国内人工智能行业企业的岗位需求,明确满足何种层次的人工智能产业链的人才需求,探索出一条新型的特色发展、错位发展、差异发展的人工智能人才培养之路。 展开更多
关键词 核心能力 人工智能专业 课程建设
原文传递
基于DirtNet与惯性测量单元的人体姿态估计
13
作者 罗胜 张元正 +2 位作者 叶润泽 朱锦乐 张博文 《计算机科学与应用》 2024年第3期96-107,共12页
仅使用少量的惯性测量单元(IMU, Inertial Measurement Unit)进行人体姿态估计是一种非侵入性且经济的人体姿态估计方法,该方法主要面临的挑战是从带有噪声的IMU信号中精确估计人体姿态。为此,对人体姿态估计问题提出了一种仅使用6个IM... 仅使用少量的惯性测量单元(IMU, Inertial Measurement Unit)进行人体姿态估计是一种非侵入性且经济的人体姿态估计方法,该方法主要面临的挑战是从带有噪声的IMU信号中精确估计人体姿态。为此,对人体姿态估计问题提出了一种仅使用6个IMU精确估计人体姿态的方法。1) 提出了一种双重信息保留注意力Transformer网络(DirtNet, Dual information retention transformer Network),它能够有效保留历史信息并通过注意整个序列的信息来获得更好的结果。2) 通过对加速度进行积分了获得了近似变化速度,并将其作为额外的输入通道以提高了人体姿态估计的精确度。3) 使用均匀滤波过滤和白噪声模拟的方法对合成的加速度进行了数据增强,以此来拟合真实的IMU数据并得到更好的训练结果。与之前的研究相比,改进后的方法有效提高了姿态估计的精确度。 展开更多
关键词 人体姿态估计 惯性测量单元 SMPL 骨架模型 实时 DirtNet
下载PDF
基于24 GHz连续波多普勒雷达能量密度分布的非接触式睡眠动作检测
14
作者 李佳程 徐玉 +1 位作者 翁知翔 唐震洲 《传感技术学报》 CAS CSCD 北大核心 2024年第4期723-730,共8页
睡眠动作是反映睡眠质量的重要生理指标。现有基于雷达的睡眠动作检测方法主要根据雷达信号原始能量的变化检测睡眠动作。由于不同目标动作幅度的不同会导致能量变化的差异,这些方法在检测不同目标的睡眠动作时准确率受限。为提高睡眠... 睡眠动作是反映睡眠质量的重要生理指标。现有基于雷达的睡眠动作检测方法主要根据雷达信号原始能量的变化检测睡眠动作。由于不同目标动作幅度的不同会导致能量变化的差异,这些方法在检测不同目标的睡眠动作时准确率受限。为提高睡眠动作检测的准确率,提出了一种基于雷达能量密度分布的睡眠动作检测方法。首先,提出基于连续波多普勒雷达能量密度分布的检验统计量特征和显著性水平特征;随后基于上述特征引入XGBoost模型实现睡眠动作检测;最后,通过多种环境下的真实实验验证算法的有效性与鲁棒性。实验结果表明,所提出的检验统计量特征和显著性水平特征可以在降低训练样本需求的同时有效提高准确率,在多种环境下均能达到95%以上的检测准确率。 展开更多
关键词 连续波多普勒雷达 睡眠动作检测 密度分布 机器学习
下载PDF
一种基于无监督学习的两阶段解耦图像去雾算法研究
15
作者 林盛 黎敏 +1 位作者 胡杰 赵丽 《计算机科学与应用》 2024年第4期163-176,共14页
利用卷积神经网络进行监督学习是解决图像去雾问题的一种常用的解决方法。然而,现有的方法大多主要使用成对的合成雾霾数据集,这可能不能准确地代表真实雾霾天气的场景。针对这一问题,本文提出了一种基于无监督学习的两阶段解耦去雾网... 利用卷积神经网络进行监督学习是解决图像去雾问题的一种常用的解决方法。然而,现有的方法大多主要使用成对的合成雾霾数据集,这可能不能准确地代表真实雾霾天气的场景。针对这一问题,本文提出了一种基于无监督学习的两阶段解耦去雾网络。该网络由三个子网络组成,它们分别将观测到的雾霾图像分解为无雾霾图像层、透射图层和大气光层。同时,该网络分为恢复无雾图像和透射图两个阶段。在第一阶段,利用嵌入的暗通道先验来获得无雾霾像和透射图的粗略估计。在第二阶段,通过两个子网络对第一阶段的结果进行细化,以产生更精确的无雾霾图像和透射图,而大气光则由另一个子网络直接估计。此外,本文还设计了一种新的多尺度注意力模块,作为细化无雾图像的子网。多尺度注意力模块在自注意力中执行多尺度的标记聚合,以捕获不同尺度的特征。实验结果表明,本文提出的网络获得了有效的雾性能和令人满意的视觉效果,且在PSNR、SSIM和主观视觉效果方面均优于现有的无监督去雾方法。 展开更多
关键词 图像去雾 注意力机制 TRANSFORMER 无监督学习
下载PDF
用于单张图像去雾的混合注意力网络
16
作者 周杰 赵丽 +1 位作者 徐航 胡杰 《机电工程技术》 2024年第12期41-49,54,共10页
图像去雾是高级计算机视觉领域的关键任务之一。近年来,卷积神经网络和Vision Transformer(ViT)作为图像去雾的主流选择,都表现出了优异的性能,但仍无法在保留全局信息的同时还原图像的精细细节,同时也忽略了雾霾分布的多样性。为了解... 图像去雾是高级计算机视觉领域的关键任务之一。近年来,卷积神经网络和Vision Transformer(ViT)作为图像去雾的主流选择,都表现出了优异的性能,但仍无法在保留全局信息的同时还原图像的精细细节,同时也忽略了雾霾分布的多样性。为了解决上述问题,提出了一种混合注意力网络(HA-Net)的新型去雾网络,能够有效结合来自CNN和Transformer的多尺度特征,并融入多层次的注意力机制,实现了网络去雾性能的提升。所提出的HA-Net由混合注意力模块和增强特征融合模块构成。其中,混合注意力模块由改进后的Transformer模块和并行卷积层组成,通过结合二者所提取的特征从而实现优势互补。同时,增强特征融合模块利用聚合不同层次的注意力来增强模型表达不同雾霾分布的能力。定性和定量实验结果表明,所提出的混合注意力网络(HA-Net)在多个图像去雾数据集中均获得较高的评价指标和良好的视觉效果。在公开的RESIDE数据集中,HA-Net取得了室内集的最高PSNR(40.08 dB)和SSIM(0.995)。此外,消融实验也证明HA-Net中所提出的各个模块的有效性。 展开更多
关键词 图像去雾 注意力机制 混合注意力 Vision Transformer 深度学习
下载PDF
基于PCISPH的流体粒子飞溅改进方法
17
作者 钮倩倩 林绿开 李毅 《计算机技术与发展》 2024年第2期60-64,共5页
流体飞溅是自然界中最常见的流体现象。流体模拟是计算机图形学的一个重要研究分支。流体模拟已经广泛应用于电影、游戏和其他工业数值领域。由于飞溅场景中流体的密度和压力的速率变化非常大,因此模拟对离散化解的精度要求很高。对于... 流体飞溅是自然界中最常见的流体现象。流体模拟是计算机图形学的一个重要研究分支。流体模拟已经广泛应用于电影、游戏和其他工业数值领域。由于飞溅场景中流体的密度和压力的速率变化非常大,因此模拟对离散化解的精度要求很高。对于流体粒子飞溅模拟数值不稳定,且缺乏真实效果,针对经典的预测校正不可压缩SPH(PCISPH),该文提出了基于粒子表面流体飞溅改进的泊松压力解的方法,通过替换压力源项提高了模拟精度。实验结果表明,该方法中流体的压力分布较之经典方法更接近现实的流体粒子飞溅模拟效果,并且改进后的方法经过剧烈运动后帧率仍符合实时性仿真效果的要求,保证了良好的压力稳定性和真实感。该文通过Anaconda3集成Python3和Taichi环境实现流体仿真实验。 展开更多
关键词 光滑粒子流体动力学 流体模拟 粒子飞溅改进 预测校正不可压缩SPH 泊松方程 太极编程
下载PDF
HBF Talk:语音驱动的3D面部动画合成研究
18
作者 王文祥 王少波 +1 位作者 智宇 陈昂 《计算机科学与应用》 2024年第8期168-178,共11页
近年来,语音驱动的3D面部动画得到了广泛的研究,虽然先前的工作可以从语音数据中生成连贯的3D面部动画,但是由于视听数据的稀缺性,生成的3D面部动画缺乏真实感和生动性,嘴唇运动的准确性不高。为了提高嘴唇运动的准确性和生动性,本文提... 近年来,语音驱动的3D面部动画得到了广泛的研究,虽然先前的工作可以从语音数据中生成连贯的3D面部动画,但是由于视听数据的稀缺性,生成的3D面部动画缺乏真实感和生动性,嘴唇运动的准确性不高。为了提高嘴唇运动的准确性和生动性,本文提出了一种新的模型HBF Talk (端到端的神经网络模型),通过使用Hu BERT (Hidden-Unit BERT)预训练模型对语音数据进行特征提取和编码,引入Flash模块对提取到的语音特征表示进行进一步的编码,获得更为丰富的语音特征上下文表示,最后使用带偏置的跨模态Transformer解码器进行解码。本文进行了定量和定性实验,并与现有的基线模型进行比较,显示本文HBF Talk模型具有更好的性能,提高了语音驱动的嘴唇运动的准确性和生动性。In recent years, speech-driven 3D facial animation has been widely studied. Previous work on the generation of coherent 3D facial animations was reported from speech data. However, the generated 3D facial animations lacks realism and vividness due to the scarcity of audio-visual data, and the accuracy of lip movements is not sufficient. This work is performed in order to improve the accuracy and vividness of lip movement and an end-to-end neural network model, HBF Talk, is proposed. It utilizes the Hu BERT (Hidden-Unit BERT) pre-trained model for feature extraction and encoding of speech data. The Flash module is introduced to further encode the extracted speech feature representations, resulting in more enriched contextual representations of speech features. Finally, a biased cross-modal Transformer decoder is used for decoding. This paper conducts both quantitative and qualitative experiments and compares the results with existing baseline models, demonstrating the proposed HBF Talk model outperforms previous models by improving the accuracy and liveliness of speech-driven lip movements. 展开更多
关键词 Hu BERT FLASH TRANSFORMER 3D面部动画 嘴唇运动
下载PDF
Self-Diffuser:语音驱动人脸表情的技术研究
19
作者 臧梦利 王少波 +1 位作者 智宇 陈昂 《计算机科学与应用》 2024年第8期236-249,共14页
先前的语音驱动面部表情的动画研究从音频信号中产生了较为逼真和精确的嘴唇运动和面部表情。传统的方法主要集中在学习从语音到动画的确定性映射,最近的研究开始探讨语音驱动的3D人脸动画的多样性,即通过利用扩散模型的多样性能力来捕... 先前的语音驱动面部表情的动画研究从音频信号中产生了较为逼真和精确的嘴唇运动和面部表情。传统的方法主要集中在学习从语音到动画的确定性映射,最近的研究开始探讨语音驱动的3D人脸动画的多样性,即通过利用扩散模型的多样性能力来捕捉音频和面部运动之间复杂的多对多关系来完成任务。本文的Self-Diffuser方法使用预训练的大语言模型wav2vec 2.0对音频输入进行编码,通过引入基于扩散的技术,将其与Transformer相结合来完成生成任务。本研究不仅克服了传统回归模型在生成具有唇读可理解性的真实准确唇运动方面的局限性,还探讨了精确的嘴唇同步和创造与语音无关的面部表情之间的权衡。通过对比、分析当前最先进的方法,本文的Self-Diffuser方法,使得语音驱动的面部动画产生了更精确的唇运动;在与说话松散相关的上半部表情方面也产生了更贴近于真实说话表情的面部运动;同时本文模型引入的扩散机制使得生成3D人脸动画序列的多样性能力也大大提高。Previous research on speech-driven facial expression animation has achieved realistic and accurate lip movements and facial expressions from audio signals. Traditional methods primarily focused on learning deterministic mappings from speech to animation. Recent studies have started exploring the diversity of speech-driven 3D facial animation, aiming to capture the complex many-to-many relationships between audio and facial motion by leveraging the diversity capabilities of diffusion models. In this study, the Self-Diffuser method is proposed by utilizing the pre-trained large-scale language model wav2vec 2.0 to encode audio inputs. By introducing diffusion-based techniques and combining them with Transformers, the generation task is accomplished. This research not only overcomes the limitations of traditional regression models in generating lip movements that are both realistic and lip-reading comprehensible, but also explores the trade-off between precise lip synchronization and creating facial expressions independent of speech. Through comparisons and analysis with the current state-of-the-art methods, the Self-Diffuser method in this paper achieves more accurate lip movements in speech-driven facial animation. It also produces facial motions that closely resemble real speaking expressions in the upper face region correlated with speech looseness. Additionally, the introduced diffusion mechanism significantly enhances the diversity capabilities in generating 3D facial animation sequences. 展开更多
关键词 wav2vec 2.0 TRANSFORMER 扩散机制 语音驱动 面部动画
下载PDF
基于道路特征信息的车道结构化解析 被引量:6
20
作者 罗胜 赵丽 王慕抽 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2020年第9期1643-1649,共7页
高速道路动态执法要求车道检测算法能够结构化解析道路,但是基于传统手工设计特征的车道检测算法准确率和召回率不足,而基于深度学习的算法又对计算资源要求太高,因此提出基于道路特征信息的车道结构化解析算法。利用边缘点的梯度统计... 高速道路动态执法要求车道检测算法能够结构化解析道路,但是基于传统手工设计特征的车道检测算法准确率和召回率不足,而基于深度学习的算法又对计算资源要求太高,因此提出基于道路特征信息的车道结构化解析算法。利用边缘点的梯度统计信息筛选Hough空间的候选点,用动态规划的方法在剩余的Hough空间候选点中寻找最合理的车道线组合,能够在较少计算资源的平台上准确地检测到道路上的全部车道。在自有数据的检测实验中,所提算法能够准确定位结构化和非结构化道路;在对比实验中,所提算法在准确率、召回率和计算速度上均比同类算法有所提高。 展开更多
关键词 车道检测 道路解析 动态执法 HOUGH变换 动态规划
原文传递
上一页 1 2 5 下一页 到第
使用帮助 返回顶部