基于BERT-TextCNN的临床试验疾病亚型识别研究被引量：4

Identifying Subtypes of Clinical Trial Diseases with BERT-TextCNN

导出

摘要【目的】面向复杂疾病临床试验招募的需求,提出一种基于BERT-TextCNN的临床试验疾病亚型识别方法,辅助识别复杂疾病特定亚型的受试人群。【方法】将临床试验疾病亚型识别问题转化为单标签分类问题,应用基于BERT-TextCNN的单标签分类模型进行分类,以卒中为例在临床试验数据集(ClinicalTrials.gov)上开展实验验证。【结果】基于LP法的BERT-TextCNN模型性能最佳,加权宏平均F1值为0.9053,可以有效判定一项卒中临床试验可纳入卒中亚型受试者情况。【局限】缺乏在其他单病种上的可行性研究,以及在外部数据集上的有效性验证。【结论】本文方法可以有效解决从纳入标准中准确识别复杂疾病亚型的问题。 [Objective]This study develops a method to identify disease subtypes based on BERT-TextCNN,which could facilitate cohort selection for clinical trials.[Methods]We transformed the disease subtype identification into a single-label classification task based on BERT-TextCNN.Then,we examined our new model with clinical trials data for strokes from ClinicalTrials.gov.[Results]The BERT-TextCNN based on the LP method yielded the best weighted macro-average F1 value of 0.9053.It identified stroke subtypes for participants of a clinical trial.[Limitations]More research is needed to evaluate our model with other diseases and data sets.[Conclusions]The proposed method could be an effective approach to identify complex disease subtypes.

作者杨林黄晓硕王嘉阳丁玲玲李子孝李姣 Yang Lin;Huang Xiaoshuo;Wang Jiayang;Ding Lingling;Li Zixiao;Li Jiao(Institute of Medical Information/Medical Library,Chinese Academy of Medical Science&Peking Union Medical College,Beijing 100020,China;China National Clinical Research Center for Neurological Diseases,Beijing Tiantan Hospital,Capital Medical University,Beijing 100070,China;Department of Neurology,Beijing Tiantan Hospital,Capital Medical University,Beijing 100070,China)

机构地区中国医学科学院北京协和医学院医学信息研究所/图书馆首都医科大学附属北京天坛医院国家神经系统疾病临床研究中心首都医科大学附属北京天坛医院神经内科

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第4期69-81,共13页 Data Analysis and Knowledge Discovery

基金北京市自然科学基金重点研究专题(项目编号:Z200016)的研究成果之一。

关键词临床试验文本分类 BERT-TextCNN 卒中疾病亚型 Clinical Trial Text Classification BERT-TextCNN Stroke Disease Subtype

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1杨林,黄晓硕,王嘉阳,李姣.基于语义对齐的临床量表信息提取方法及其临床试验队列识别的应用研究[J].数据分析与知识发现,2020,4(12):33-44. 被引量：2
2杨飞洪,王序文,李姣.基于BERT-TextCNN模型的临床试验筛选短文本分类方法[J].中华医学图书情报杂志,2021,30(1):54-59. 被引量：11
3Yong-Jun Wang,Zi-Xiao Li,Hong-Qiu Gu,Yi Zhai,Yong Jiang,Xing-Quan Zhao,Yi-Long Wang,Xin Yang,Chun-Juan Wang,Xia Meng,Hao Li,Li-Ping Liu,Jing Jing,Jing Wu,An-Ding Xu,Qiang Dong,David Wang,Ji-Zong Zhao,On behalf of China Stroke Statistics 2019 Writing Committee.China Stroke Statistics 2019:A Report From the National Center for Healthcare Quality Management in Neurological Diseases,China National Clinical Research Center for Neurological Diseases,the Chinese Stroke Association,National Center for Chronic and Non-communicable Disease Control and Prevention,Chinese Center for Disease Control and Prevention and Institute for Global Neuroscience and Stroke Collaborations[J].Stroke & Vascular Neurology,2020,5(3):211-239. 被引量：234
4QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：156
5周蕾,王飞,肖盈奇,杨世亮,闫振文.以短暂性脑缺血发作为首发症状的蛛网膜下腔出血1例报告[J].中国神经精神疾病杂志,2020,46(1):41-42. 被引量：5

二级参考文献7

1Yongjun Wang,Jing Jing,Xia Meng,Yuesong Pan,Yilong Wang,Xingquan Zhao,Jinxi Lin,Wei Li,Yong Jiang,Zixiao Li,Xinmiao Zhang,Xiaomeng Yang,Ruijun Ji,Chunjuan Wang,Zhimin Wang,Xinsheng Han,Songdi Wu,Zhengchang Jia,Yongming Chen,Hao Li.The Third China National Stroke Registry (CNSR-Ⅲ) for patients with acute ischaemic stroke or transient ischaemic attack: design, rationale and baseline patient characteristics[J].Stroke & Vascular Neurology,2019,4(3):158-164. 被引量：71
2王水强.治疗急性缺血性脑卒中药物临床试验的考虑要点[J].中国临床药理学杂志,2010,26(7):483-487. 被引量：2
3Daniel,T.Lackland,Edward,J.Roccella,Anne,F.Deutsch,Myriam,Fornage,Mary,G.George,George,Howard,Brett,M.Kissela,Steven,J.Kittner,Judith,H.Lichtman,Lynda D. Lisabeth,Lee H. Schwamm,Eric E. Smith,高一鹭,陈政弘,王文志.影响卒中死亡率下降的因素美国心脏协会/美国卒中协会的科学声明[J].国际脑血管病杂志,2014,22(5):325-364. 被引量：44
4白彦君.以短暂性脑缺血发作为首发症状的蛛网膜下腔出血4例报道[J].中西医结合心脑血管病杂志,2017,15(16):2087-2088. 被引量：1
5谢昭太,陆四方,蔡叶盛.鞘内注射地塞米松联合脑脊液置换术治疗蛛网膜下腔出血疗效观察[J].海南医学,2018,29(14):1963-1965. 被引量：9
6SONG Peng Kun,MAN Qing Qing,LI Hong,PANG Shao Jie,JIA Shan Shan,LI Yu Qian,HE Li,ZHAO Wen Hua,ZHANG Jian.Trends in Lipids Level and Dyslipidemia among Chinese Adults, 2002-2015[J].Biomedical and Environmental Sciences,2019,32(8):559-570. 被引量：72
7Yongjun Wang,Zixiao Li,Yilong Wang,Xingquan Zhao,Liping Liu,Xin Yang,Caiyun Wang,Hongqiu Gu,Fuying Zhang,Chunjuan Wang,Ying Xian,David Z Wang,Qiang Dong,Anding Xu,Jizong Zhao,Chinese Stroke Center Alliance investigators.Chinese Stroke Center Alliance:a national effort to improve healthcare quality for acute stroke and transient ischaemic attack:rationale,design and preliminary findings[J].Stroke & Vascular Neurology,2018,3(4):256-262. 被引量：39

共引文献403

1严倩倩(综述),段世伟(综述),蒙家嘉(综述),韩丽媛(审校).维生素C降低缺血性脑卒中发病风险的研究进展[J].预防医学,2021,33(7):685-688. 被引量：1
2薛艳平,徐妍,崔英花,申平花,冉红伟,朴莲花.延吉市青年人群脑卒中危险因素流行病学调查分析[J].延边大学医学学报,2022,45(3):172-176. 被引量：1
3万琼红,蔡雅冰,赵惠芬.代偿性吞咽措施在脑卒中伴吞咽障碍患者早期康复训练中的应用研究[J].神经病学与神经康复学杂志,2023,19(1):8-15.
4宋蕊好,吴林纳,李桂平.针灸及中风相关病例注册登记平台的应用及研究现状[J].神经病学与神经康复学杂志,2021,17(4):156-163. 被引量：2
5杨忠霖,顾益军.一种基于BERT微调-TextCNN的电信网络诈骗案情文本分类设计[J].电子测试,2023(3):47-53.
6吴巧敏,常兴,刘金凤,汪艳丽,刘如秀.名中医刘如秀中风后遗症治验[J].辽宁中医杂志,2022,49(9):29-31. 被引量：2
7王伟,阮文翰,孟祥福.融合对抗训练的中文GPT对话模型研究[J].辽宁工程技术大学学报（自然科学版）,2023(3):378-384.
8Bin Lv,Ge Song,Feng Jing,Mingyu Li,Hua Zhou,Wanjun Li,Jiacai Lin,Shengyuan Yu,Jun Wang,Xiangyu Cao,Chenglin Tian.Mortality from cerebrovascular diseases in China:Exploration of recent and future trends[J].Chinese Medical Journal,2024,137(5):588-595. 被引量：2
9邱凯锋,王则远,何志超,付凯利,梅童霖,关英杰,高飞,伍俊妍.人工智能技术在超说明书用药循证中的应用研究[J].中华临床医师杂志（电子版）,2023,17(12):1212-1218.
10刘嘉琳,黄立安.关于“以短暂性脑缺血发作为首发症状的蛛网膜下腔出血1例报告”一文的讨论[J].中国神经精神疾病杂志,2020,46(4):255-255.

同被引文献36

1李琳,段围,周栋,袁景凌.基于深度语义匹配的法律条文推荐方法[J].软件学报,2022,33(7):2618-2632. 被引量：5
2李春晓,李辉,刘艳筝,梁赛.多彩华夏:大数据视角的入境游客体验感知差异深描[J].南开管理评论,2020,0(1):28-39. 被引量：31
3朱靖波,王会珍,张希娟.面向文本分类的混淆类判别技术[J].软件学报,2008,19(3):630-639. 被引量：9
4潘薇,喻浩.文献信息知识组织与内容揭示方法探究[J].江西图书馆学刊,2009,39(3):46-48. 被引量：4
5杨灿,董海龙.基于国家标准学科分类的统计学科体系研究[J].统计研究,2010,27(1):50-57. 被引量：6
6李蕾,王冕,章成志.区分标签类型的社会化标签质量测评研究[J].图书情报工作,2013,57(23):11-16. 被引量：17
7邵健,章成志,李蕾.Hashtag研究综述[J].现代图书情报技术,2015(10):40-49. 被引量：7
8俞崇伟,吴刚.融合内容分析与标签拓展的社交标签推荐[J].计算机与现代化,2016(5):77-83. 被引量：1
9崔家旺,李春旺.基于关联数据的类簇语义揭示模型研究[J].数据分析与知识发现,2017,1(4):57-66. 被引量：4
10蒋建洪,马瑞云.基于文本挖掘的个性化旅游偏好特征属性分析[J].企业经济,2017,36(12):129-133. 被引量：6

引证文献4

1完颜兵,张超群,王大睿,李晓翔,郝小芳.基于网评数据的游客印象挖掘与情感分析[J].情报工程,2023,9(1):15-29.
2刘勇,杜建强,罗计根,李清,于梦波,郑奇民.基于语义筛选的ALBERT-TextCNN中医文本多标签分类研究[J].现代信息科技,2023,7(19):123-128. 被引量：3
3焦一凯,朱欣娟.公共文化资源标签推荐方法[J].计算机与现代化,2024(10):107-112.
4张健.基于自注意力机制改进GCNN模型的图书标签分类研究[J].建模与仿真,2024,13(2):1322-1332.

二级引证文献3

1朱成雨,刘江涛.基于孪生ALBERT网络的语义相似度计算研究[J].电脑编程技巧与维护,2024(4):3-7.
2张鸿彦.基于特征聚类与降维的新闻文本智能分类算法[J].信息技术与信息化,2024(4):106-109.
3周佳一,郑霞忠,田丹,陈云.水电工程施工安全隐患多标签文本智能分类方法[J].水力发电学报,2024,43(11):114-124.

1薛缪群,孙蓉蓉,唐健,于成功.单病种质量控制的管理实践[J].江苏卫生事业管理,2022,33(5):606-608. 被引量：3
2杨昌缘,陈海韬,邓为上,杨森森,陈吉生.利妥昔单抗生物类似药与原研药治疗非霍奇金淋巴瘤的有效性、安全性、免疫原性系统评价[J].今日药学,2022,32(4):297-305. 被引量：3
3朱秋爽,董元婕,牛玉存.妊娠期糖尿病膳食模式及血清代谢组学分析[J].哈尔滨医科大学学报,2021,55(6):666-670.
4王东军,孙璇,钟慧慧,关媛媛,步怀恩,王泓午.健康状态辨识视域下国内中医体质临床试验文献计量研究[J].西部中医药,2022,35(5):105-110. 被引量：7
5陆俊,许斌斌,沈莉莉,郑朝辉,李平,谢建伟,王家镔,林建贤,陈起跃,黄昌明.2000—2019年胃癌随机对照试验特性与趋势分析[J].中华外科杂志,2022,60(5):478-485. 被引量：1
6Florian Mourey,Amélie Decherf,Jean-François Jeanne,Mathieu Clément-Ziza,Marie-Lise Grisoni,François Machuron,Sophie Legrain-Raspaud,Arnaud Bourreille,Pierre Desreumaux.Saccharomyces cerevisiae I-3856 in irritable bowel syndrome with predominant constipation[J].World Journal of Gastroenterology,2022,28(22):2509-2522. 被引量：1
7庄欣,邢子冲,张杰.仿生万向钳技术分析[J].现代工业经济和信息化,2022,12(4):75-77.
8王震寰,刘康,周鹏翔,翟所迪.吡嘧司特钾滴眼液治疗过敏性结膜炎的系统评价[J].中国合理用药探索,2022,19(5):70-77.
9小梅,特木其乐,初拉,图门乌力吉.基于蒙医白脉理论探析帕金森病[J].世界科学技术-中医药现代化,2022,24(1):143-148. 被引量：2
10廖玲琳,李萍英.肝硬化食管胃静脉曲张出血内镜下治疗研究进展[J].临床医学进展,2022,12(5):3903-3908.

数据分析与知识发现

2022年第4期

浏览历史

内容加载中请稍等...

基于BERT-TextCNN的临床试验疾病亚型识别研究被引量：4

参考文献5

二级参考文献7

共引文献403

同被引文献36

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于BERT-TextCNN的临床试验疾病亚型识别研究 被引量：4

参考文献5

二级参考文献7

共引文献403

同被引文献36

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于BERT-TextCNN的临床试验疾病亚型识别研究被引量：4