-
题名基于音视频特征的多模态英语发音纠错模型研究
被引量:1
- 1
-
-
作者
彭晓风
徐宏亮
-
机构
阜阳幼儿师范高等专科学校健康和管理学院
阜阳师范大学外国语学院
-
出处
《皖西学院学报》
2023年第3期123-129,共7页
-
基金
安徽省职业与成人教育学会教育教学研究规划课题一般项目(Azcj2021180)
安徽省高等学校省级质量工程应用英语专业教学团队(2020jxtd193)
安徽省社科规划项目(AHSKY2022d222)。
-
文摘
由于缺少英语环境的熏陶以及过度强调英语的读写能力,非母语的英语学习者的口语能力仍处于较低水平。其中典型表现之一就是发音不准确。为了帮助学习者认识自己的英语发音情况,提出了一种基于特征级融合以及决策级融合的BiLSTM-CTC深度学习模型。实验结果显示,研究采用的多模态特征融合模型抗噪性能更强,基于关键点特征融合以及基于角度特征融合方式的音素识别准确率较之于单模态BiLSTM-CTC模型准确率更高。引入决策级融合后的混合融合模型则具有更高的检错准确率,且该模型比改进GNN、ResNet和随机森林等算法更为准确。此结果表明研究所提出的模型在英语发音纠错上更有优势。
-
关键词
bilstm-ctc
特征级融合
决策级融合
识别率
发音
-
Keywords
bilstm-ctc
feature-level fusion
decision-level fusion
recognition rate
pronunciation
-
分类号
H319.9
[语言文字—英语]
-
-
题名基于CRNN改进的中文手写体文本行识别
被引量:1
- 2
-
-
作者
舒珊珊
郑晓旭
文成玉
-
机构
成都信息工程大学通信工程学院
-
出处
《成都信息工程大学学报》
2023年第4期422-428,共7页
-
文摘
中文手写体文本行识别可以将纸质书写内容转换为可编辑的电子内容。对于手写体书写随意性大、中文字符种类多,且基于字符分割的方法识别准确率不高这些问题,提出基于卷积循环神经网络改进的端到端的中文手写体识别方法。首先将图片传入基于改进的Inception结构的特征提取网络,该网络首先改进GoogLeNet模型,然后在此基础上又改进添加卷积模块的注意力机制模块和Inception组合结构,改进后的模型能更好地提取图片的有效特征;之后将提取到的图片特征传入循环层,即两层双向长短时记忆网络进行预测;最后将预测序列传入转录层,经过连接时序分类进行转录输出。在CASIA-HWDB2数据集的实验结果表明,该方法能获得95.12%的识别准确率,证明方法的可行性。
-
关键词
手写体识别
卷积循环神经网络
卷积模块的注意力机制模块
双向长短时记忆网络
连接时序分类
-
Keywords
handwritten chinese text recognition
CRNN
CBAM
BiLSTM
CTC
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-
-
题名基于深度学习的动态手势识别方法
被引量:8
- 3
-
-
作者
钟惠英
-
机构
河海大学计算机与信息学院
-
出处
《电子测量技术》
2020年第2期128-132,共5页
-
文摘
为了提高动态手势的识别准确率,并避免动态手势的数据预分割和后输出处理过程,设计了一种融合卷积神经网络(CNN)和双向长短时记忆(BiLSTM),引入连接主义时间分类(CTC)作为损失函数的串联型网络模型。使用CTC训练网络来判断输入流中的类标签,以完成动态手势的识别工作。在公开视频手势数据集Jester和通过Kinect自建的包含9个动态手势的数据集上进行了实验验证,结果表明提出的串联型融合网络模型在Jester上能得到较高的识别率,并且引入CTC算法用于手势识别领域是可行的,该方法高效且具有很高的识别率,对9个动态手势最好识别正确率可达98.11%。
-
关键词
KINECT
手势识别
CTC(连接主义时间分类)
BiLSTM(双向长短时记忆)
深度学习
-
Keywords
kinect
gesture recognition
CTC(connectionist temporal classification)
BiLSTM(Bi-directional LSTM)
deep learning
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名英语对话机器人发音标准性检测方法
被引量:2
- 4
-
-
作者
段文婷
-
机构
商洛学院
-
出处
《自动化与仪器仪表》
2022年第11期210-215,共6页
-
基金
陕西省社科界2021年度重大理论与现实问题研究项目(2021ND0104)。
-
文摘
针对传统英语对话机器人的发音检测模型发音错误检测准确性低,导致发音标准性检测效果不佳的问题,提出基于唇部角度融合的多模态端到端模型BiLSTM-CTC。获取英语对话机器人原始对话数据后,分别对音频数据和视频数据进行预处理,获取音视频特征后对其进行归一化和增强,之后利用BiLSTM网络进行特征学习,由Softmax输出序列概率;最后通过CTC算法作为输出层生成预测输出序列。实验结果表明,在无噪音和SNR=10 dB的试验环境下,基于角度特征融合的多模态语音识别方法分别在86次和125次时实现收敛,语音识别率为98.73%和91.15%,在圆展唇音和总体发音标准性检测方面,本方法的检错准确率分别为95.66%、94.86%和92.34%、91.38%,均优于另外两种模型。由此可知,本模型的收敛速度更快,对于音频信号的发音识别率和错误检测率更高,可实现英语对话机器人的发音标准性检测。
-
关键词
发音检错
bilstm-ctc
多模态
特征融合
语音识别
-
Keywords
Ererror
bilstm-ctc
multimodal
feature fusion
speech recognition
-
分类号
TP392
[自动化与计算机技术—计算机应用技术]
-