文本相似度计算方法提高诊断名称数据标准化过程中人工判断效率的影响

Text Similarity Computing Methods on the Improvement of Artificial Judgement Efficacy during the Diagnostic Record Data Standardization Process

下载PDF

导出

摘要目的研究文本相似度计算方法在提高诊断名称数据标准化过程中人工判断效率的价值。方法严格遵照国家标准的疾病分类与代码上存在编码的诊断名称,按疾病名称进行排序,并对其ID进行标记,选择2020年3月—2021年8月使用的23681条诊断名称文本数据,利用余弦相似度计算文本相似度,并通过单字与单字组合的穷举分词及频数、逆文本频率指数加权形成文本向量,经函数对计算结果进行校正。结果诊断名称长度为8.58个字符,获得9字组长度,经观察发现3字组后,字组暂停增长,但5字组逐渐减低,从而得知9字组长度未达50万维,可利用计算机处理。通过余弦相似度的计算,选择频数向量成为非标准数据,而标准数据选择频数逆文本频率指数加权的向量,最终将数据标准化。利用疾病诊断名称相似的文本,发现文本向量存在较大差别,其自身即为相似度最大值。通过字组组合的方式,测定不同文本向量,选择高血压进行举例。各类字组组合模式下存在356条诊断名称,其中390次相似度最大值并不是其本身。对于不同的情况实施分析,字组组合模式Ⅰ不一致,Ⅱ~Ⅸ模式一致,记成0、1、1、1、1、1、1、1、1。结论文本相似度计算方法能够提升诊断名称数据标准化,并促进人工判断效率改善。 Objective To study the value of text similarity computing methods on the improvement of artificial judgement efficacy during the diagnostic record data standardization process.Methods In strict accordance with the disease classification and codes of the national standard,there are coded diagnostic names,which are sorted according to the disease name,and their IDs were marked.23681 diagnostic name text data used from March 2020 to August 2021 were selected.The text similarity is calculated by cosine similarity,and the text vector is formed by the exhaustive word segmentation,frequency and inverse text frequency index of single word and single word combination.The calculation results are corrected by function.Results The length of the diagnosis name is 8.58 characters.The length of the 9-character group is obtained.It is observed that after the 3-character group,the word group stops growing,but the 5-character group gradually decreases.It is known that the length of the 9-character group does not reach 500000 dimensions,which can be processed by computer.Through the calculation of cosine similarity,the selected frequency vector becomes non-standard data,while the standard data selects the vector weighted by the frequency inverse text frequency index,and finally standardizes the data.Using texts with similar disease diagnosis names,it is found that there are great differences in text vectors,which is the maximum similarity.Through the way of word group combination,different text vectors were measured,and hypertension was selected as an example.There are 356 diagnostic names in various word group combination modes,of which the maximum similarity of 390 times is not itself.For the analysis of different cases,the word group combination modeⅠis inconsistent,and the modeⅡ-Ⅸis consistent.It is recorded as 0,1,1,1,1,1,1,1,1.Conclusion The text similarity calculation method can improve the standardization of diagnostic name data and improve the efficiency of manual judgment.

作者郑景文 ZHENG Jingwen(Medical Record Room,Zhanjiang Nongken Central Hospital,Zhanjiang,Guangdong Province,524002 China)

机构地区广东省农垦中心医院病案室

出处《中国卫生产业》 2022年第9期166-169,共4页 China Health Industry

关键词人工判断效率文本相似度计算法诊断名称数据标准化 Artificial judgement efficacy Text similarity computing methods Diagnostic record data standardization

分类号 R19 [医药卫生—卫生事业管理]

引文网络
相关文献

参考文献10

1赵登鹏,熊回香,田丰收,李昕然.基于序列比对算法的中文文本相似度计算研究[J].图书情报工作,2021,65(11):101-112. 被引量：13
2王丽,曾跃萍,昆瑜,沙鹏,吕亚奇,宋菲.做好疾病诊断名称与疾病分类编码对照提升病案首页质量[J].中国病案,2019,20(4):11-13. 被引量：22
3李谊澄,侯锐志,周子君.门诊疾病诊断名称非规范化现状与对策分析[J].中国病案,2020,21(3):18-22. 被引量：3
4李谊澄,侯锐志,邹宗毓,周子君.基于机器学习的北京市三甲医院疾病诊断名称规范化研究[J].医学与社会,2020,33(8):78-83. 被引量：4
5何刚.诊断名称有“瘤”字样的非肿瘤疾病的ICD-10编码探讨[J].中国病案,2019,0(2):25-27. 被引量：2
6张萍,陈学涛,唐自云,周来新.临床疾病诊断与手术操作名称标准库的构建[J].中华肺部疾病杂志（电子版）,2018,11(5):644-646. 被引量：10
7柳剑,赵太宏,肖雨龙.临床疾病诊断名称标准化的难点与对策[J].中国病案,2019,0(6):15-18. 被引量：7
8Hiba Sboui,Amira Daldoul,Nader Slema,Amal Chamsi,Sonia Zaied.Management of Malignants Gliomas: About 20 Cases Treated in the Medical Oncology Department of Fattouma Bourguiba University Hospital-Monastir[J].Journal of Cancer Therapy,2021,12(8):478-485. 被引量：1
9杨桂秀,谷红俊,王杰,陈俊峰,陈勇强,磨国鑫.文本相似度计算方法在诊断名称数据标准化中的应用[J].中国病案,2021,22(4):9-12. 被引量：5
10张涛,马海群.基于文本相似度计算的我国人工智能政策比较研究[J].情报杂志,2021,40(1):39-47. 被引量：24

二级参考文献85

1楼伟民.浅谈ICD-10编码员持证上岗的培训教育[J].中国病案,2005,6(11):43-44. 被引量：4
2章成志.基于多层特征的字符串相似度计算模型[J].情报学报,2005,24(6):696-701. 被引量：40
3汤洁芬,张淑娟,苏韶生.基于电子病历平台,建立以ICD-10为基础的临床诊断字典库的应用研究[J].中国卫生信息管理杂志,2011,8(6):37-38. 被引量：8
4文凤春,王邦菊,肖枝洪.生物序列比对算法的研究现状[J].生物信息学,2010,8(1):64-67. 被引量：4
5徐硕,朱礼军,乔晓东,薛春香.基于双序列比对的中文术语语义相似度计算的新方法[J].情报学报,2010,29(4):701-708. 被引量：6
6田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：178
7李阳,张志忠,张乐辉.采用ICD-10字典规范门诊疾病诊断[J].中国病案,2011,12(5):27-29. 被引量：9
8汤洁芬,张淑娟,苏韶生.基于ICD-10的临床诊断字典库应用研究[J].中国数字医学,2012,7(4):102-103. 被引量：8
9欧阳菊香,刘冬生,陈露诗,魏丽娜,梁一霞.临床诊断与国际疾病分类的对照及应用[J].中国卫生统计,2013,30(2):311-311. 被引量：14
10褚丹奇,宋磊,李莹.基于ICD标准的临床诊断、手术与操作编码系统的设计与应用[J].中国卫生信息管理杂志,2013,10(5):444-447. 被引量：21

共引文献76

1徐梦秋,丁丽萍.性别相关疾病编码错误归纳与实例分析[J].中国病案,2020,0(2):33-35. 被引量：1
2焦利敏,刘泽超,顾子谦,金轮,胡亚欣,王生泽,刘冬阳.智能家电语音交互能力测试语料库建设的研究[J].家电科技,2022(S01):130-134.
3吕艳阳.试析疾病编码人员在病案首页质量控制中的应用效果[J].世界最新医学信息文摘,2020(57):239-240. 被引量：2
4李霏.临床疾病分类编码常见错误及对策研究分析[J].世界最新医学信息文摘,2020(27):250-250. 被引量：1
5李谊澄,侯锐志,周子君.门诊疾病诊断名称非规范化现状与对策分析[J].中国病案,2020,21(3):18-22. 被引量：3
6王月新,代巍.疾病临床诊断名称与疾病分类编码名称的契合研究应用[J].临床医药文献电子杂志,2020,7(42):186-186. 被引量：3
7邓莹,姜骁桐,叶媛,李亚子.DRGs支付制度下病案智能化编码现状与完善策略[J].中国数字医学,2020,15(6):74-76. 被引量：2
8张萍,张渝,陈学涛.新发肿瘤疾病分类编码质量分析[J].中华肺部疾病杂志（电子版）,2020,13(3):434-436.
9翁志雄,余志金,林燕峰,李少玲,彭程远,周华坚,陈惠新,余蓉.基于电子病历的临床诊断编码分值库的建立和应用研究[J].中国当代医药,2020,27(19):196-199. 被引量：5
10冯永.病案首页疾病编码问题的原因分析及对策[J].江苏卫生事业管理,2020,31(8):1047-1048. 被引量：7

1李兵,罗冠鑫.基于CIM平台的竣工验收备案数据标准化交付研究[J].城市建筑空间,2022,29(6):249-251.
2周志刚,严圣阳.技术创新、效率改善与商业银行全要素生产率差异化增长[J].科技管理研究,2022,42(11):201-208. 被引量：5
3禽病诊断这些你进入这些误区了吗?[J].兽药市场指南,2022(7):38-39.
4盘和林.数据管理能力企业实现数据资产化的重要前提[J].中国战略新兴产业,2022(7):11-12.
5郑志勇,樊亮,郭成.电力计量标准化管理转变过程中应注意的问题[J].电力设备管理,2022(12):205-207.
6王磊.EPC市政工程项目的全过程造价管理实施分析[J].工程建设与设计,2022(12):253-256. 被引量：7
7高丹红,郑方,沈银忠,陆翠珍,颜闽,陆金风,孙丹凤.艾滋病主要诊断选择和ICD-10编码的探讨[J].中国病案,2022,23(4):22-24. 被引量：6
8陈奇.建筑电气工程项目管理的实施分析[J].集成电路应用,2022,39(5):130-131. 被引量：2
9周霞.“传承·追梦——馆校合作系列活动”案例策划实施分析[J].新丝路（中旬）,2022(7):0225-0227.
10陈禄明,张旭,邓立宗,蒋太交,商涛.ICD-11编码中文疾病诊断名称的效果评估及其与ICD-10的比较[J].中国科技术语,2022,24(3):62-68. 被引量：4

中国卫生产业

2022年第9期

浏览历史

内容加载中请稍等...

文本相似度计算方法提高诊断名称数据标准化过程中人工判断效率的影响

参考文献10

二级参考文献85

共引文献76

相关作者

相关机构

相关主题

浏览历史