基于协同集成学习的医疗实体标准化方法被引量：2

Medical Entity Standardization Method Based on Collaborative Ensemble Learning

下载PDF

导出

摘要医疗实体标准化旨在将电子病历、患者主诉等文本数据中非标准化术语映射为统一且规范的医疗实体。针对医学文本普遍存在的标注语料规模小、规范化程度低等领域特点,该文提出了一种基于多模型协同的集成学习框架,用以解决医疗实体标准化问题。该框架通过建立多模型之间的“合作与竞争”模式,能够兼具字符级、语义级等不同标准化方法的优势。具体而言,运用知识蒸馏技术进行协同学习,从各模型中汲取有效特征;利用竞争意识综合各模型的实体标准化结果,保证候选集的多样性。在CHIP-CDN 2021医疗实体标准化评测任务中,该文提出的方法在盲测数据集上达到了73.985%的F_(1)值,在包括百度BDKG、蚂蚁金融Antins、思必驰AIspeech在内的255支队伍中,取得了第二名的成绩。后续实验结果进一步表明,该方法可有效对医疗文本中的术语进行标准化处理。 Medical entity standardization aims to map non-standardized terms in texts(e.g.electronic medical records and patient complaints)into unified and standardized medical entities.In view of the small scale and hardly standardized of annotated corpora in medical texts,this paper proposes a multi-model collaborative ensemble learning framework to solve the standardization of medical entities.By establishing a"cooperation and competition"mechanism among multiple models,we can combine the advantages of different standardization methods in character level and semantic level.Specifically,the collaborative learning implemented by knowledge distillation technology can extract effective features from each model.The diversity of candidate sets can be guaranteed by integrating entity standardization results of each model with competition-aware.In the CHIP-CDN 2021task of medical entity standardization,the method proposed achieved a F1value of 73.985%in the blind test data set,ranking second among 255teams including Baidu BDKG,Ant-Financial Antins and AISpeech.Experimental results also show that this method can effectively standardize terms in medical texts.

作者姜京池侯俊屹李雪关毅关昌赫 JIANG Jingchi;HOU Junyi;LI Xue;GUAN Yi;GUAN Changhe(AIoT Research Center,Harbin Institute of Technology,Harbin,Heilongjiang 150001,China;Language Technology Research Center,Harbin Institute of Technology,Harbin,Heilongjiang 150001,China)

机构地区哈尔滨工业大学物联网与泛在智能中心哈尔滨工业大学语言技术研究中心

出处《中文信息学报》 CSCD 北大核心 2023年第3期135-142,共8页 Journal of Chinese Information Processing

基金国家青年自然基金(NSFC62006063) 黑龙江省博士后面上自然基金(LBH-Z20015)

关键词医疗实体标准化知识蒸馏集成学习 CHIP-CDN 2021 medical entity standardization knowledge distillation ensemble learning CHIP-CDN 2021

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1陈漠沙,仇伟,谭传奇.基于BERT的手术名称标准化重排序算法[J].中文信息学报,2021,35(3):88-93. 被引量：2
2崇伟峰,李慧,李雪,任禾,于东,王晔晗.基于BERT蕴含推理的术语标准化系统[J].中文信息学报,2021,35(5):86-90. 被引量：3
3孙曰君,刘智强,杨志豪,林鸿飞.基于BERT的临床术语标准化[J].中文信息学报,2021,35(4):75-82. 被引量：9
4闫璟辉,向露,周玉,孙建,陈思,薛晨.深度生成式模型在临床术语标准化中的应用[J].中文信息学报,2021,35(5):77-85. 被引量：2
5李亮德,王秀娟,康孟珍,华净,樊梦涵.基于语义融合与模型蒸馏的农业实体识别[J].智慧农业（中英文）,2021,3(1):118-128. 被引量：6

二级参考文献9

1秦安京.疾病分类编码准确是诊断相关分组(DRGs)的保障[J].中国病案,2007,8(7):10-11. 被引量：64
2王春雨,王芳.基于条件随机场的农业命名实体识别研究[J].河北农业大学学报,2014,37(1):132-135. 被引量：21
3宁温馨,于明.基于语义相似度计算的临床诊断自动编码算法研究[J].医学信息学杂志,2016,37(2):52-56. 被引量：12
4李贯峰,张鹏.一个基于农业本体的Web知识抽取模型[J].江苏农业科学,2018,46(4):201-205. 被引量：5
5zhi-hua zhou.A brief introduction to weakly supervised learning[J].National Science Review,2018,5(1):44-53. 被引量：106
6赵逸凡,郑建立,徐霄玲.基于深度学习的电子病历实体标准化[J].软件导刊,2019,18(8):12-15. 被引量：2
7张虹科,付振新,任前平,徐辉,赵东岩,严睿.基于融合条目词嵌入和注意力机制的自动ICD编码[J].北京大学学报（自然科学版）,2020,56(1):1-8. 被引量：8
8黄嘉俊.基于组合语义相似度计算的疾病术语自动编码[J].微型电脑应用,2020,36(8):157-160. 被引量：5
9杜逸超,徐童,马建辉,陈恩红,郑毅,刘同柱,童贵显.一种基于深度神经网络的临床记录ICD自动编码方法[J].大数据,2020,6(5):1-15. 被引量：4

共引文献15

1洪娜,刘飞,张梦阳,张渝翔,刘超,张富博,王芳,唐燕平,刘欢妹,陈萌.OHDSI通用数据模型在肿瘤大数据中的应用探索[J].中国数字医学,2021,16(11):24-28. 被引量：6
2韩振桥,付立军,刘俊明,郭宇捷,唐珂轲,梁锐.结合RoBERTa与多策略召回的医学术语标准化[J].计算机系统应用,2022,31(10):245-253. 被引量：3
3李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：5
4刘栋梁,张嵩,张宁康,高洋,林海波.基于BERT的航天术语标准化[J].南京航空航天大学学报,2022,54(S01):109-114. 被引量：2
5方鹏,郝宏运,王红英.基于知识蒸馏的叠层笼养蛋鸡行为识别模型研究[J].农业机械学报,2021,52(10):300-306. 被引量：7
6吴华瑞,郭威,邓颖,王郝日钦,韩笑,黄素芳.农业文本语义理解技术综述[J].农业机械学报,2022,53(5):1-16. 被引量：11
7肖德琴,毛远洋,刘又夫,招胜秋,闫志广,王文策,谢青梅.我国家禽工厂化养殖技术发展现状与趋势[J].华南农业大学学报,2023,44(1):1-12. 被引量：11
8罗庚欣,康波,彭浩,熊英,汤步洲.临床诊断编码技术评测数据集及基线模型概述[J].医学信息学杂志,2022,43(12):10-15.
9冯凤翔,任慧玲,李晓瑛,王巍洁,王勖,张颖.融合相似度算法与预训练模型的中文电子病历实体映射方法研究[J].医学信息学杂志,2023,44(5):45-50. 被引量：1
10倪昊,张旭,马帅,王悦绮,崔建峰.基于CasEE的电子病历医疗事件抽取模型[J].厦门理工学院学报,2023,31(3):40-49.

同被引文献21

1王晓雨,邵波.基于专家系统技术的弱信号分析系统框架设计[J].情报杂志,2013,32(10):141-145. 被引量：3
2翟东升,夏军,张杰,李倩,冯秀珍.基于专利新兴技术弱信号识别方法研究[J].情报杂志,2015,34(8):31-36. 被引量：23
3周鹏程,武川,陆伟.基于多知识库的短文本实体链接方法研究——以Wikipedia和Freebase为例[J].现代图书情报技术,2016(6):1-11. 被引量：8
4黄鲁成,王静静,李欣,王立章.基于论文和专利的钙钛矿太阳能电池的技术机会分析[J].情报学报,2016,35(7):686-695. 被引量：32
5翟东升,刘鹤,张杰,蔡力伟.一种基于链路预测的技术机会挖掘方法[J].情报学报,2016,35(10):1090-1100. 被引量：36
6慎金花,闫倩倩,孙乔宣,万召侗.基于专利数据挖掘的技术融合识别与技术机会预测研究——以电动汽车产业为例[J].图书馆杂志,2019,38(10):95-106. 被引量：20
7任海英,王倩.技术机会发现方法的研究现状、趋势和问题[J].情报杂志,2020,39(4):51-59. 被引量：12
8温萍梅,叶志炜,丁文健,刘颖,徐健.命名实体消歧研究进展综述[J].数据分析与知识发现,2020,4(9):15-25. 被引量：16
9张振刚,罗泰晔.基于RFM模型和随机行动者导向模型的技术机会识别[J].情报学报,2021,40(1):53-61. 被引量：20
10刘亚辉,许海云.突破性创新早期识别与弱信号分析综述[J].图书情报工作,2021,65(4):89-101. 被引量：25

引证文献2

1吴柯烨,孙建军,张力,赵源.弱链接突变视角下的技术机会识别研究[J].图书情报工作,2024,68(10):81-96.
2岳崇浩,张剑,吴义熔,李小龙,华晟,童顺航,孙水发.基于融合多策略对比学习的中文医疗术语标准化研究[J].数据分析与知识发现,2024,8(6):144-157.

1王哲,杨晟,朱彦,杨啸林.本体构建工具Py2ONTO的设计与实现[J].中华医学图书情报杂志,2022,31(9):42-50.
2姚成军.电气自动化控制对矿山设备的重要作用探研[J].中国科技期刊数据库工业A,2023(9):161-164. 被引量：1
3韩振桥,付立军,刘俊明,郭宇捷,唐珂轲,梁锐.结合RoBERTa与多策略召回的医学术语标准化[J].计算机系统应用,2022,31(10):245-253. 被引量：3
4胡建平,张晓祥,庹兵兵,任宇飞,李岳峰.中文医学术语标准体系构建研究[J].中国卫生信息管理杂志,2023,20(1):13-18. 被引量：2
5刘园园,吉晶,赵士艳.新形势下如何做好疾控中心人事档案管理[J].中国卫生产业,2023,20(10):232-236. 被引量：1
6北方.同济学霸筑梦乡野:谁说对弈平凡的不算英雄[J].恋爱．婚姻．家庭（青春）（下）,2022(10):8-10.
7雷丹.擅烹美味甲天下大显身手建农场--记宜宾市翠屏区张正明家庭农场[J].中国农民合作社,2023(7):35-36.
8姚坤,孙庭阳.文旅火爆[J].中国经济周刊,2023(15):14-23.
9薛存立,武国兆.驻马店市中药材产业发展现状与对策[J].农村农业农民,2023(16):35-37. 被引量：1
10实证导向学理基础专业视角全球视野《教育学术月刊》致读者、作者[J].教育学术月刊,2023(7).

中文信息学报

2023年第3期

浏览历史

内容加载中请稍等...

基于协同集成学习的医疗实体标准化方法被引量：2

参考文献5

二级参考文献9

共引文献15

同被引文献21

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于协同集成学习的医疗实体标准化方法 被引量：2

参考文献5

二级参考文献9

共引文献15

同被引文献21

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于协同集成学习的医疗实体标准化方法被引量：2