语音转录后文本的中文拼写纠错模型

Chinese spelling error correction model for transcribed text

导出

摘要针对目前语音转录文本错误率较高的问题,本文提出一种基于MacBERT的文本先检错后纠错模型,对语音转录后文本进行校正。检错阶段使用MacBERT-BiLSTM-CRF模型检查文本是否有错及出错位置。纠错阶段从置信度和字音相似度两个维度出发,划定“置信度-字音相似度”曲线判断候选字是否进行纠错。候选字的置信度使用MacBERT语言模型计算,并提出一种基于拼音码的字音相似度计算方法。在语音公开数据集Thchs-30上通过调用百度语音识别API进行实验,相比现有方法,在检错阶段和纠错阶段的精确率、召回率、F1值都得到了提高,其中纠错阶段精确率达到83.32%,提高了转录文本的正确性。 Aiming at the high error rate of speech transcription text,proposes a text error detection and correction model based on MacBERT to correct the text after speech transcription.In the error detection stage,the MacBERTBiLSTM-CRF model is used to check whether the text is wrong and where it is.In the error correction stage,starting from the two dimensions of confidence and phonetic similarity,a curve of"confidence-phonetic similarity"is delineated to determine whether candidate words are to be corrected for errors.The confidence of the candidate words is calculated using the MacBERT language model,and a phonetic similarity calculation method based on pinyin code is proposed.Experiments were conducted on the public speech dataset Thchs-30 by calling Baidu speech recognition API.Compared with the existing methods,the precision rate,recall rate and F1 value in the error detection stage and error correction stage have been improved.Among them,the error correction stage The accuracy rate reaches 83.32%,which improves the accuracy of the transcribed text.

作者邢月晗郑岩 Xing Yuehan;Zheng Yan(Beijing University of Posts and Telecommunications,School of Artificial Intelligence,Beijing 100876,China)

机构地区北京邮电大学人工智能学院

出处《电子测量技术》北大核心 2023年第6期57-61,共5页 Electronic Measurement Technology

基金教育部-中国移动科研基金(MCM20190701)项目资助

关键词语音文本纠错 MacBERT 拼音码 Thchs-30 speech text error correction MacBERT pinyin code Thchs-30

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献8

1关健,王敏.基于深度神经网络和多元损失的说话人识别[J].电子测量技术,2019,42(5):39-43. 被引量：6
2尹陈,吴敏.N-gram模型综述[J].计算机系统应用,2018,27(10):33-38. 被引量：21
3刘峻松,唐明靖,薛岗,杨成荣.基于Word2Vec的编程领域词语拼写错误检测算法[J].计算机应用与软件,2022,39(3):277-284. 被引量：4
4黄春梅,王松磊.基于词袋模型和TF-IDF的短文本分类研究[J].软件工程,2020,23(3):1-3. 被引量：25
5田新宇,李军辉.语音识别错误对翻译性能的影响分析[J].厦门大学学报（自然科学版）,2022,61(4):682-688. 被引量：4
6刘建伟,黎海恩,罗雄麟.概率图模型表示理论[J].计算机科学,2014,41(9):1-17. 被引量：13
7崔铁军,李莎莎.系统多功能状态表达式构建及其置信度研究[J].智能系统学报,2023,18(1):124-130. 被引量：8
8汪苏琪,王明文,曾雪强.面向规范性文件的基于BERT的文本纠错模型[J].山西大学学报（自然科学版）,2022,45(2):257-263. 被引量：3

二级参考文献155

1王思辰,余佳,吴斌平,关涛,任炳昱.基于改进证据理论的重力坝进度不确定性分析[J].水力发电学报,2020(9):99-110. 被引量：3
2马振宇,吴纬,张威,王建平.基于非参数的软件可靠性验证测试方法[J].华中科技大学学报（自然科学版）,2020,48(2):103-108. 被引量：5
3钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
4汪培庄.因素空间与因素库[J].辽宁工程技术大学学报（自然科学版）,2013,32(10):1297-1304. 被引量：60
5赵晓瑞.不规范语言翻译策略的理论透析:语域的视角[J].石家庄学院学报,2006,8(1):106-109. 被引量：2
6马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93-97. 被引量：18
7易蓉湘,何克抗.计算机汉语文稿校对系统[J].计算机研究与发展,1997,34(5):346-350. 被引量：12
8Langseth H, Portinale L. Bayesian networks in reliability [J]. Reliability Engineering and System Safety, 2007,92 (1) : 92-108.
9Santana R, Shakya S. Probabilistic Graphical Models and Mar- kov Networks[J]. Markov Networks in Evolutionary Computa- tion,2012,14(1) :3 19.
10Shakya S, Santana R. A Review of Estimation of Distribution Algorithms and Markov Networks[J]. Markov Networks in Evo- lutionary Computation, 2012,14 (1) : 21-37.

共引文献75

1张宗毅.农机“卡脖子”技术识别:综述与展望[J].农业农村部管理干部学院学报,2022(2):34-40.
2肖诗伯,李朝葵,兰鹰,杨玉梅.一种基于二分图模型的图书个性化推荐研究[J].图书馆学刊,2015,37(5):96-97. 被引量：1
3刘建伟,任正平,刘泽宇,黎海恩,罗雄麟.两两关系马尔科夫网的自适应组稀疏化学习[J].自动化学报,2015,41(8):1419-1437.
4王永坚,戴乐阳,宋佳声.基于贝叶斯网络集成的船用中高速发动机磨损故障诊断模型[J].中国航海,2018,41(2):15-20. 被引量：1
5王永坚,陈丹,戴乐阳.信息融合与贝叶斯集成的船用中高速发动机磨损故障诊断[J].集美大学学报（自然科学版）,2018,23(3):205-211. 被引量：2
6冷喜武,陈国平,蒋宇,张家琪,肖飞.智能电网监控运行大数据应用模型构建方法[J].电力系统自动化,2018,42(20):115-122. 被引量：48
7肖诗伯,兰鹰,杨玉梅,胡邈凡.基于用户行为的学术文献个性化推荐研究[J].电脑知识与技术（过刊）,2015,21(1X):8-10. 被引量：1
8张冠玉,许成,韩凯文.基于链图模型的变量消除算法[J].青岛大学学报（自然科学版）,2019,32(1):24-27.
9刘丽丹.基于概率图模型的天气预测研究[J].计算机技术与发展,2019,29(7):103-107. 被引量：4
10陈太波,张翠芳.多特征和SVM改进的语音关键词识别系统[J].小型微型计算机系统,2019,40(11):2291-2296. 被引量：7

1何媛媛,胡淼,彭祖权,邓贤君,刘生昊.语音识别对抗攻击方法综述[J].华中科技大学学报（自然科学版）,2023,51(2):10-18. 被引量：1
2何玉琳,靳建军,李栋,杨公社,于太永.MicroRNA调控猪骨骼肌发育的研究进展[J].生物工程学报,2023,39(4):1514-1524. 被引量：4
3简开宇,史涯晴,黄松,许山山,杨忠举.业务流程模型相似度研究综述[J].计算机科学,2023,50(6):338-350.
4李占峰(综述),肖楠(综述),姚毅文(综述),姚志峰(审校).长链非编码RNA在前列腺癌中的作用及机制的研究进展[J].中华男科学杂志,2022,28(12):1129-1135.
5汪亚东.一种基于字符对比的文本相似度计算方法[J].计算机时代,2023(6):87-91. 被引量：1
6涂中强,师伟凯.商业综合体项目BIM机电管线综合应用实践[J].江苏建筑职业技术学院学报,2023,23(1):30-33.
7杜晔,张怡清,张晶,刘莉,马学淼,杨颖.益心定悸方对缺血性心律失常大鼠微RNA-1及其调控蛋白缝隙连接蛋白43的影响[J].中国医药导报,2023,20(15):35-39.
8陈志奎,李丽方,林聃.基于样本加权模糊聚类的土壤重金属污染溯源[J].工业安全与环保,2023,49(6):95-99.
9高铭遥,李翔宇,陈欢,王新胜,侯宏卫,胡清源.基于香精香料指纹图谱的相似度评价进展[J].质量安全与检验检测,2023,33(2):32-41. 被引量：4

电子测量技术

2023年第6期

浏览历史

内容加载中请稍等...

语音转录后文本的中文拼写纠错模型

参考文献8

二级参考文献155

共引文献75

相关作者

相关机构

相关主题

浏览历史