基于深度学习的端到端乐谱音符识别被引量：10

End-to-End Music Note Recognition Based on Deep Learning

下载PDF

导出

摘要光学乐谱识别是音乐信息检索中一项重要技术,音符识别是乐谱识别及其关键的部分.针对目前乐谱图像音符识别精度低、步骤冗杂等问题,设计了基于深度学习的端到端音符识别模型.该模型利用深度卷积神经网络,以整张乐谱图像为输入,直接输出音符的时值和音高.在数据预处理上,通过解析Music XML文件获得模型训练所需的乐谱图像和对应的标签数据,标签数据是由音符音高、音符时值和音符坐标组成的向量,因此模型通过训练来学习标签向量将音符识别任务转化为检测、分类任务.之后添加噪声、随机裁剪等数据增强方法来增加数据的多样性,使得训练出的模型更加鲁棒;在模型设计上,基于darknet53基础网络和特征融合技术,设计端到端的目标检测模型来识别音符.用深度神经网络darknet53提取乐谱图像特征图,让该特征图上的音符有足够大的感受野,之后将神经网络上层特征图和该特征图进行拼接,完成特征融合使得音符有更明显的特征纹理,从而让模型能够检测到音符这类小物体.该模型采用多任务学习,同时学习音高、时值的分类任务和音符坐标的回归任务,提高了模型的泛化能力.最后在Muse Score生成的测试集上对该模型进行测试,音符识别精度高,可以达到0.96的时值准确率和0.98的音高准确率. Optical music recognition(OMR)is an important technology in music information retrieval.Note recognition is the key part of music score recognition.In view of the low accuracy of notes recognition and the cumbersome steps of the recognition of music score image,an end-to-end note recognition model based on deep learning is designed.The model uses the deep convolutional neural network to input the whole score image as the input,and directly outputs the duration and pitch of the note.In data preprocessing,the music image and the corresponding tag data required for model training were obtained by parsing the MusicXML file,the label data was a vector composed of note pitch,note duration and note coordinates,therefore,the model learned the label vector through training to transform the note recognition task into detection and classification tasks.Data enhancement methods such as noise and random cropping were added to increase the diversity of data,which made the trained model more robust.In the model design,based on the darknet53 basic network and feature fusion technology,an end-to-end target detection model was designed to recognize the notes.The deep neural network darknet53 was used to extract the feature image of the music image,so that the notes on the feature map had a large enough receptive field,and then the upper layer feature map of the neural network and the feature map were spliced,and the feature fusion is completed to make the note have more obvious feature and texture,allowing the model to detect small objects such as notes.The model adopted multi-task learning,and learned the pitch and duration classification task and note coordinates task,which improved the generalization ability of the model.Finally,the model was tested on the test set generated by MuseScore.The note recognition accuracy is high,and the duration accuracy of 0.96 and the pitch accuracy of 0.98 can be achieved.

作者黄志清贾翔郭一帆张菁 Huang Zhiqing;Jia Xiang;Guo Yifan;Zhang Jing(Faculty of Information Science,Beijing University of Technology,Beijing 100022,China)

机构地区北京工业大学信息学部

出处《天津大学学报（自然科学与工程技术版）》 EI CSCD 北大核心 2020年第6期653-660,共8页 Journal of Tianjin University：Science and Technology

基金北京市自然科学基金-市教委联合资助项目(KZ201910005007)。

关键词光学乐谱识别音符识别深度学习端到端目标检测 optical music recognition note recognition deep learning end-to-end object detection

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1刘晓翔.乐谱图像中的音符识别方法[J].计算机工程,2010,36(9):163-167. 被引量：2

二级参考文献6

1刘晓翔张树生.乐谱图像中谱线的检测与删除方法研究.中国图象图形学报：A辑,2003,8:657-661.
2George S E.Visual Perception of Music Notation:On-line and Off-line Recognition[M].[S.l.]:IRM Press,2004.
3Bainbridge D,Bell T C.A Music Notation Construction Engine for Optical Music Recognition[J].Software-Practice & Experience,2003,33(2):173-200.
4Fahmy H.A Graph-rewriting Papadigm for Discrete Relaxation:Application to Sheet-music Recognition[J].International Journal of Pattern Recognition and Artificial Intelligence,1999,12(6):763-799.
5Rossant F,Bloch I.Robust and Adaptive OMR System Including Fuzzy Modeling,Fusion of Musical Rules,and Possible Error Detection[J].EURASIP Journal on Applied Signal Processing,2007,(1):815-841.
6刘晓翔,张树生,王静,汪鹏.乐谱图像倾角快速检测方法[J].计算机工程,2004,30(2):33-35. 被引量：3

共引文献1

1吴瑞敏,张文俊,陈根方,江岩.一种基于像素跟踪的琵琶工尺谱谱字提取方法[J].计算机工程,2011,37(3):186-188. 被引量：1

同被引文献71

1邓建国,张素兰,张继福,荀亚玲,刘爱琴.监督学习中的损失函数及应用研究[J].大数据,2020,6(1):60-80. 被引量：39
2彼岸吉他.常用吉他谱软件[J].演艺设备与科技,2008(S1):43-44. 被引量：1
3哈勤和,张畅,王泽兵,陈增武.图象的快速一维投影模板匹配[J].计算机工程与应用,1998,34(1):36-37. 被引量：4
4Clunsdy.吉他的起源与发展[J].乐器,2010(4):80-81. 被引量：4
5李锵,李秋颖,关欣.基于听觉图像的音乐流派自动分类[J].天津大学学报,2013,46(1):67-72. 被引量：3
6张宝印,于俊清,唐九飞,何云峰,王赠凯.面向情感的电影背景音乐分类方法[J].计算机科学,2013,40(12):37-40. 被引量：6
7向毅,陈振宇,彭雨明,卢旭文,高静,钟学军.人工蜂群算法优化支持向量机及其在音乐流派自动分类中的应用[J].数学的实践与认识,2013,43(23):44-49. 被引量：5
8吴淦洲.基于特征提取与神经网络的音乐分类方法[J].数学的实践与认识,2014,44(5):94-100. 被引量：7
9周嵌,古鑫,刘博.成年人工耳蜗使用者的音质感受和音乐感知[J].临床耳鼻咽喉头颈外科杂志,2019,33(1):47-51. 被引量：5
10庄严,于凤芹.基于节奏和韵律调制谱特征的音乐流派分类[J].计算机工程,2015,41(1):186-189. 被引量：5

引证文献10

1赵婕.改进神经网络的电子音乐辨识研究[J].微型电脑应用,2021,37(6):129-131. 被引量：1
2陈超艺,陈新度,吴磊.基于深度学习的吉他谱识别[J].软件导刊,2022,21(1):141-145. 被引量：3
3侯清睿,安冬.基于人工神经网络的音符识别研究[J].自动化与仪器仪表,2022(1):53-58. 被引量：1
4张涛,王泽宇,胡梦雪,赵鑫,刘赣俊,耿彦章.基于抛物面焦点麦克风预处理和迁移学习的语音增强方法[J].天津大学学报（自然科学与工程技术版）,2022,55(10):1053-1060. 被引量：2
5李锵,赵启蒙,关欣.基于动态卷积的胸部X光片疾病分类算法[J].天津大学学报（自然科学与工程技术版）,2022,55(9):953-964. 被引量：2
6刘彦.基于稀疏分解的音频信号智能识别[J].信息记录材料,2022,23(7):216-218.
7黄志清,张煜森,张严心,任柯燕.基于改进型Yolov4的室内安全帽佩戴状态检测算法[J].天津大学学报（自然科学与工程技术版）,2023,56(1):64-72. 被引量：1
8王家宁.基于频率特征的共享钢琴自动调音系统设计[J].自动化与仪器仪表,2023(1):172-177. 被引量：1
9牛育谦,杨艺媛.基于MIDI控制器的软音源插件自动控制系统研究[J].自动化与仪器仪表,2023(5):129-133. 被引量：1
10张为,程光琮.基于多任务网络的单图像光源干扰去除方法[J].天津大学学报（自然科学与工程技术版）,2024,57(5):501-510.

二级引证文献11

1张国峰,丁波.语音识别在语音增强中的应用[J].科技创新与应用,2022,12(36):178-180. 被引量：2
2刘健强.论吉他谱在学前教育钢琴伴奏教学中的实践运用[J].四川工商学院学术新视野,2022,7(4):16-18.
3韩镇洋,王先兰.一种改进YOLOv5的小目标检测算法[J].电子设计工程,2023,31(19):64-67. 被引量：3
4窦立谦,任梦圆,张秀云,宗群.基于全局时空特征的非合作飞行器轨迹预测[J].空天技术,2023(6):14-22.
5陈薄茹.基于多基频估计的多声部音乐和声自动编配算法[J].赤峰学院学报（自然科学版）,2024,40(3):10-14.
6宫霄霖,程琦,李锵.用于胸片分类的自校正特征融合金字塔网络[J].天津大学学报（自然科学与工程技术版）,2024,57(5):511-520.
7王勤湧.基于MIDI协议的导播控制系统分析[J].电子技术（上海）,2024,53(2):312-313.
8林少华.钢琴结构和调音技术与音准稳定性的关系[J].戏剧之家,2024(16):92-94.
9俞恺,洪涛,厉勋.基于改进YOLOv5s的建筑护栏目标检测[J].现代电子技术,2024,47(14):135-141.
10陆武慧.基于改进BP神经网络的学生职业素质能力评价模型[J].自动化技术与应用,2024,43(9):21-24.

1吴天龙,李锵,关欣.基于多维局部二值模式和XGBoost的轻量谱线删除法[J].激光与光电子学进展,2019,56(6):136-143. 被引量：1
2张林钰.立足英语教材渗透中国文化[J].江西教育,2020(6):85-85.
3杨媛.数字音乐学研究综述[J].北方音乐,2020,40(2):4-5. 被引量：1
4姚颖.当代混合式教学模式下教师的角色和任务转化[J].天津商务职业学院学报,2019,7(6):77-80. 被引量：4
5牛小红.中职语文教学生活化策略的几点思考[J].现代职业教育,2020,0(3):118-119.
6孙学东.数学教学任务向深度学习问题的转化[J].基础教育课程,2019,0(24):43-47. 被引量：2
7李雪.职业导向下企业工作任务转化成网络学习任务的研究[J].新丝路（下旬）,2019,0(24):214-215.
8陈燕文,李坤,韩焱,王燕平.基于MFCC和常数Q变换的乐器音符识别[J].计算机科学,2020,47(3):149-155. 被引量：11
9张健.对VR球幕的三维重建的研究[J].现代计算机,2019,25(36):54-58.
10本刊讯.李强在纪念上海市人大设立常委会40周年座谈会上讲话在新的历史起点上推进人大工作与时俱进应勇出席殷一璀讲话董云虎出席蒋卓庆主持[J].上海人大月刊,2019,0(12):4-5.

天津大学学报（自然科学与工程技术版）

2020年第6期

浏览历史

内容加载中请稍等...

基于深度学习的端到端乐谱音符识别被引量：10

参考文献1

二级参考文献6

共引文献1

同被引文献71

引证文献10

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于深度学习的端到端乐谱音符识别 被引量：10

参考文献1

二级参考文献6

共引文献1

同被引文献71

引证文献10

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于深度学习的端到端乐谱音符识别被引量：10