期刊文献+
共找到177篇文章
< 1 2 9 >
每页显示 20 50 100
Data Masking for Chinese Electronic Medical Records with Named Entity Recognition 被引量:1
1
作者 Tianyu He Xiaolong Xu +3 位作者 Zhichen Hu Qingzhan Zhao Jianguo Dai Fei Dai 《Intelligent Automation & Soft Computing》 SCIE 2023年第6期3657-3673,共17页
With the rapid development of information technology,the electronifi-cation of medical records has gradually become a trend.In China,the population base is huge and the supporting medical institutions are numerous,so ... With the rapid development of information technology,the electronifi-cation of medical records has gradually become a trend.In China,the population base is huge and the supporting medical institutions are numerous,so this reality drives the conversion of paper medical records to electronic medical records.Electronic medical records are the basis for establishing a smart hospital and an important guarantee for achieving medical intelligence,and the massive amount of electronic medical record data is also an important data set for conducting research in the medical field.However,electronic medical records contain a large amount of private patient information,which must be desensitized before they are used as open resources.Therefore,to solve the above problems,data masking for Chinese electronic medical records with named entity recognition is proposed in this paper.Firstly,the text is vectorized to satisfy the required format of the model input.Secondly,since the input sentences may have a long or short length and the relationship between sentences in context is not negligible.To this end,a neural network model for named entity recognition based on bidirectional long short-term memory(BiLSTM)with conditional random fields(CRF)is constructed.Finally,the data masking operation is performed based on the named entity recog-nition results,mainly using regular expression filtering encryption and principal component analysis(PCA)word vector compression and replacement.In addi-tion,comparison experiments with the hidden markov model(HMM)model,LSTM-CRF model,and BiLSTM model are conducted in this paper.The experi-mental results show that the method used in this paper achieves 92.72%Accuracy,92.30%Recall,and 92.51%F1_score,which has higher accuracy compared with other models. 展开更多
关键词 Named entity recognition Chinese electronic medical records data masking principal component analysis regular expression
下载PDF
Medical Knowledge Extraction and Analysis from Electronic Medical Records Using Deep Learning 被引量:10
2
作者 李培林 袁贞明 +2 位作者 涂文博 俞凯 芦东昕 《Chinese Medical Sciences Journal》 CAS CSCD 2019年第2期133-139,共7页
Objectives Medical knowledge extraction (MKE) plays a key role in natural language processing (NLP) research in electronic medical records (EMR),which are the important digital carriers for recording medical activitie... Objectives Medical knowledge extraction (MKE) plays a key role in natural language processing (NLP) research in electronic medical records (EMR),which are the important digital carriers for recording medical activities of patients.Named entity recognition (NER) and medical relation extraction (MRE) are two basic tasks of MKE.This study aims to improve the recognition accuracy of these two tasks by exploring deep learning methods.Methods This study discussed and built two application scenes of bidirectional long short-term memory combined conditional random field (BiLSTM-CRF) model for NER and MRE tasks.In the data preprocessing of both tasks,a GloVe word embedding model was used to vectorize words.In the NER task,a sequence labeling strategy was used to classify each word tag by the joint probability distribution through the CRF layer.In the MRE task,the medical entity relation category was predicted by transforming the classification problem of a single entity into a sequence classification problem and linking the feature combinations between entities also through the CRF layer.Results Through the validation on the I2B2 2010 public dataset,the BiLSTM-CRF models built in this study got much better results than the baseline methods in the two tasks,where the F1-measure was up to 0.88 in NER task and 0.78 in MRE task.Moreover,the model converged faster and avoided problems such as overfitting.Conclusion This study proved the good performance of deep learning on medical knowledge extraction.It also verified the feasibility of the BiLSTM-CRF model in different application scenarios,laying the foundation for the subsequent work in the EMR field. 展开更多
关键词 medical knowledge EXTRACTION electronic medical RECORD named ENTITY recognition medical relation EXTRACTION deep learning bidirectional long SHORT-TERM memory CONDITIONAL random field
下载PDF
图注意力网络与句法融合的医疗实体识别
3
作者 白宇 何佳蔚 张桂平 《中文信息学报》 CSCD 北大核心 2024年第9期108-116,共9页
电子病历数据中包含大量的医疗实体词,对这些实体词的自动识别有益于提升计算机对电子病历数据的理解。待识别的医疗实体词通常由医疗专业术语和非规范医疗词汇构成,大量生僻词汇、长难词汇和病历行文中的省略现象给医疗实体识别任务带... 电子病历数据中包含大量的医疗实体词,对这些实体词的自动识别有益于提升计算机对电子病历数据的理解。待识别的医疗实体词通常由医疗专业术语和非规范医疗词汇构成,大量生僻词汇、长难词汇和病历行文中的省略现象给医疗实体识别任务带来了挑战。针对以上问题,该文提出一种图注意力网络与句法融合的医疗实体识别方法,该方法结合字词共现关系和句法依存关系,基于电子病历数据构建了交互式字词关系图和依存关系图,并利用图注意力网络完成多种图信息的融合。实验结果表明,在电子病历的命名实体识别中,该文方法得到88.91%的F_(1)值,较基线模型提高1.04%,验证了该方法的有效性。 展开更多
关键词 电子病历 命名实体识别 图注意力网络
下载PDF
基于字形特征的血管外科命名实体识别
4
作者 张华青 夏张涛 +1 位作者 陆晓庆 童基均 《计算机工程》 CAS CSCD 北大核心 2024年第8期13-21,共9页
电子病历(EMR)作为医疗信息化建设的核心,蕴含着众多有价值的医疗实体,对电子病历进行命名实体识别有助于推进医学研究。为解决血管外科电子病历研究数据匮乏、实体复杂识别困难等问题,基于某三甲医院血管外科的真实临床数据,构建一个... 电子病历(EMR)作为医疗信息化建设的核心,蕴含着众多有价值的医疗实体,对电子病历进行命名实体识别有助于推进医学研究。为解决血管外科电子病历研究数据匮乏、实体复杂识别困难等问题,基于某三甲医院血管外科的真实临床数据,构建一个小规模的专科数据集作为实验数据集,并提出一种基于字形特征的命名实体识别模型。首先,采用掩码校正的来自Transformer的双向编码器表示(MacBERT)生成动态字向量,引入汉字四角码与汉字五笔两个维度的字形信息;然后,将文本表示传入双向门控循环单元(BiGRU)与门控空洞卷积神经网络(DGCNN)进行特征提取,并对输出结果进行拼接;最后,通过多头自注意力机制捕捉序列内部元素间的关系,利用条件随机场(CRF)进行标签解码。实验结果表明,所提模型在自建血管外科数据集上的精确率、召回率、F1值分别为96.45%、97.77%、97.10%,均优于对比模型,具有更好的实体识别性能。 展开更多
关键词 电子病历 血管外科 命名实体识别 特征融合 深度学习
下载PDF
面向医学领域的文本特征增强多任务学习模型
5
作者 郭瑞强 贾晓文 +1 位作者 杨世龙 魏谦强 《计算机科学》 CSCD 北大核心 2024年第S02期121-127,共7页
医学命名实体的识别和规范化是构建高质量医学知识图谱的基础。文中提出了一种基于文本特征增强的多任务学习模型,旨在解决现有模型中医学实体识别与规范化模型不能充分利用文本特征的问题。该模型添加词级、字符级特征和上下文语义信... 医学命名实体的识别和规范化是构建高质量医学知识图谱的基础。文中提出了一种基于文本特征增强的多任务学习模型,旨在解决现有模型中医学实体识别与规范化模型不能充分利用文本特征的问题。该模型添加词级、字符级特征和上下文语义信息来增强文本表示,再通过4个分级子任务,联合建模完成医学实体识别和规范化任务。实验表明,该模型能够学习实体识别和实体规范化这两个任务的共同特征,有效地提高学习的准确率。在NCBI和BC5CDR两个数据集上取得了较好的效果,在NER和NEN任务上的F1值分别为:91.09%,91.02%;92.05%,92%。 展开更多
关键词 医疗命名实体识别 实体规范化 多任务 特征增强 联合建模
下载PDF
位置标签增强的中文医学命名实体级联识别
6
作者 王旭阳 赵丽婕 张继远 《计算机工程与应用》 CSCD 北大核心 2024年第2期121-128,共8页
针对一般领域的命名实体识别方法不能直接用于中文医学专业实体的识别,现有的相关研究只专注于英文文本和扁平结构的医学实体识别等问题,通过对专业领域实体识别方法的研究,结合中文医学实体的特点提出了一种面向中文医学实体的级联识... 针对一般领域的命名实体识别方法不能直接用于中文医学专业实体的识别,现有的相关研究只专注于英文文本和扁平结构的医学实体识别等问题,通过对专业领域实体识别方法的研究,结合中文医学实体的特点提出了一种面向中文医学实体的级联识别方法。将每个字符元素相对于实体的位置标签嵌入模型,并结合中文医学实体跨度内不同元素的重要程度进行实体的融合表示。通过序列标注方法检测字符的位置标签,利用字符的位置信息指导候选实体生成,并进行实体语义分类。模型在CMeEE和CCKS2018数据集以及中文糖尿病科研文献数据集上分别进行扁平实体、嵌套实体和不连续性长实体的识别实验。实验结果表明,该方法能够有效地识别中文医学文本中不同结构的实体。 展开更多
关键词 中文医学命名实体 位置标签嵌入 结合元素重要程度的实体融合表示 级联识别 线性结构
下载PDF
融合标签知识的中文医学命名实体识别
7
作者 尹宝生 周澎 《计算机科学》 CSCD 北大核心 2024年第S01期128-134,共7页
医学领域命名实体识别是信息抽取任务重要的研究内容之一,其训练数据主要来源于临床实验数据、健康档案、电子病历等非结构化文本,然而标注这些数据需要专业人员耗费大量人力、物力和时间资源。在缺乏大规模医学训练数据的情况下,医学... 医学领域命名实体识别是信息抽取任务重要的研究内容之一,其训练数据主要来源于临床实验数据、健康档案、电子病历等非结构化文本,然而标注这些数据需要专业人员耗费大量人力、物力和时间资源。在缺乏大规模医学训练数据的情况下,医学领域命名实体识别模型很容易出现识别错误的情况。为解决这一难题,文中提出了一种融合标签知识的中文医学命名实体识别方法,即通过专业领域词典获得文本标签的释义后,分别将文本、标签及标签释义编码,基于自适应融合机制进行融合,有效平衡特征提取模块和语义增强模块的信息流,从而提高模型性能。其核心思想在于医学实体标签是通过总结归纳大量医学数据得到的,而标签释义是对标签进行科学解释和说明的结果,模型融入这些蕴含了丰富的医学领域内的先验知识,可以使其更准确地理解实体在医学领域中的语义并提升其识别效果。实验结果表明,该方法在中文医学实体抽取数据集(CMeEE-V2)3个基线模型上分别取得了0.71%,0.53%和1.17%的提升,并且为小样本场景下的实体识别提供了一个有效的解决方案。 展开更多
关键词 中文医学命名实体识别 标签知识 先验知识 自适应融合机制 小样本
下载PDF
中文医疗文本中的嵌套实体识别方法 被引量:1
8
作者 闫璟辉 宗成庆 徐金安 《软件学报》 EI CSCD 北大核心 2024年第6期2923-2935,共13页
实体识别是信息抽取的关键技术.相较于普通文本,中文医疗文本的实体识别任务往往面对大量的嵌套实体.以往识别实体的方法往往忽视了医疗文本本身所特有的实体嵌套规则而直接采用序列标注方法,为此,提出一种融合实体嵌套规则的中文实体... 实体识别是信息抽取的关键技术.相较于普通文本,中文医疗文本的实体识别任务往往面对大量的嵌套实体.以往识别实体的方法往往忽视了医疗文本本身所特有的实体嵌套规则而直接采用序列标注方法,为此,提出一种融合实体嵌套规则的中文实体识别方法.所提方法在训练过程中将实体的识别任务转化为实体的边界识别与边界首尾关系识别的联合训练任务,在解码过程中结合从实际医疗文本中所总结出来的实体嵌套规则对解码结果进行过滤,从而使得识别结果能够符合实际文本中内外层实体嵌套组合的组成规律.在公开的医疗文本实体识别的实验上取得良好的效果.数据集上的实验表明,所提方法在嵌套类型实体识别性能上显著优于已有的方法,在整体准确率方面比最先进的方法提高0.5%. 展开更多
关键词 实体识别 中文文本 医疗领域 嵌套实体识别 边界识别
下载PDF
基于多粒度字形增强的中文医学命名实体识别 被引量:1
9
作者 刘威 马磊 +1 位作者 李凯 李蓉 《计算机工程》 CAS CSCD 北大核心 2024年第2期337-344,共8页
中文医学命名实体识别(CMNER)旨在从中文非结构化医学文本中提取实体。现有的基于字符的CMNER模型没有从不同角度全面考虑汉字的特点,限制了其应用于CMNER的性能。基于此,提出基于多粒度字形增强的中文医学命名实体识别模型。对于输入... 中文医学命名实体识别(CMNER)旨在从中文非结构化医学文本中提取实体。现有的基于字符的CMNER模型没有从不同角度全面考虑汉字的特点,限制了其应用于CMNER的性能。基于此,提出基于多粒度字形增强的中文医学命名实体识别模型。对于输入的句子,结合汉字的字形空间结构和偏旁部首的表示,同时根据相应的领域词典来匹配字符的领域词信息,增强字符的语义和潜在边界信息,使模型获得更好的实体识别能力;通过门控机制整合领域词和汉字的字形多粒度特征,综合考虑汉字的领域信息和汉字底层信息,从而具有更好的感知医学实体的能力。在此基础上,将多粒度字形增强的字符表示输入到双向长短记忆和条件随机场层,分别进行上下文编码和标签解码。实验结果表明,本文模型较于最佳基线模型在IMCS21和CMeEE数据集上的F1值分别提升了1.04%和0.62%。此外,通过消融实验验证了该模型的每个组成部分的有效性,在识别中文医学命名实体时具有较好的识别性能。 展开更多
关键词 命名实体识别 医学领域 字形结构 门控机制 领域词典
下载PDF
面向淋巴水肿疾病的电子病历命名实体识别应用研究 被引量:1
10
作者 汤昊宬 苏万春 +5 位作者 冀秀元 信建峰 夏松 孙宇光 徐毅 沈文彬 《医学信息学杂志》 CAS 2024年第2期52-58,共7页
目的/意义探讨人工智能技术应用于淋巴水肿患者电子病历非结构化文本数据的关键实体识别问题。方法/过程阐述样本稀缺背景下模型微调训练的解决方案,选取首都医科大学附属北京世纪坛医院淋巴外科既往收治患者594例为研究对象,依据临床... 目的/意义探讨人工智能技术应用于淋巴水肿患者电子病历非结构化文本数据的关键实体识别问题。方法/过程阐述样本稀缺背景下模型微调训练的解决方案,选取首都医科大学附属北京世纪坛医院淋巴外科既往收治患者594例为研究对象,依据临床医生标注的15种关键实体类别,微调GlobalPointer模型的预测层,借助其全局指针识别嵌套和非嵌套的关键实体。分析实验结果的准确性和临床应用可行性。结果/结论微调后模型总体精准率、召回率和Macro_F1均值分别为0.795、0.641和0.697,为淋巴水肿电子病历数据精准挖掘奠定基础。 展开更多
关键词 淋巴水肿 电子病历 命名实体识别 自然语言处理 医学
下载PDF
基于多头注意力的中文电子病历命名实体识别 被引量:1
11
作者 肖丹 杨春明 +2 位作者 张晖 赵旭剑 李波 《计算机应用与软件》 北大核心 2024年第1期133-138,160,共7页
针对中文电子病历中复杂医疗实体的识别问题,提出一种联合特征与多头注意力相结合的实体识别方法。该方法使用字符、词性和词典组成的联合特征,利用BiLSTM和多头注意力分别提取句子的全局特征和局部特征,利用CRF结合所有特征完成实体标... 针对中文电子病历中复杂医疗实体的识别问题,提出一种联合特征与多头注意力相结合的实体识别方法。该方法使用字符、词性和词典组成的联合特征,利用BiLSTM和多头注意力分别提取句子的全局特征和局部特征,利用CRF结合所有特征完成实体标签的预测。实验结果表明,该方法F1值达89.16%,其中治疗和疾病两类实体分别达到94.76%和95.56%。 展开更多
关键词 命名实体识别 中文电子病历 多头注意力 长短期记忆网络 条件随机场
下载PDF
ALBERT预训练模型在医疗文书命名实体识别中的应用研究
12
作者 庞秋奔 李银 《信息与电脑》 2024年第6期152-156,共5页
中文电子病历命名实体识别主要是研究电子病历病程记录文书数据集,文章提出对医疗手术麻醉文书数据集进行命名实体识别的研究。利用轻量级来自Transformer的双向编码器表示(A Lite Bidirectional Encoder Representation from Transform... 中文电子病历命名实体识别主要是研究电子病历病程记录文书数据集,文章提出对医疗手术麻醉文书数据集进行命名实体识别的研究。利用轻量级来自Transformer的双向编码器表示(A Lite Bidirectional Encoder Representation from Transformers,ALBERT)预训练模型微调数据集和Tranfomers中的trainer训练器训练模型的方法,实现在医疗手术麻醉文书上识别手术麻醉事件命名实体与获取复杂麻醉医疗质量控制指标值。文章为医疗手术麻醉文书命名实体识别提供了可借鉴的思路,并且为计算复杂麻醉医疗质量控制指标值提供了一种新的解决方案。 展开更多
关键词 命名实体识别 轻量级来自Transformer的双向编码器表示(ALBERT)模型 TRANSFORMERS 麻醉医疗质量控制指标 医疗手术麻醉文书
下载PDF
自然语言处理在医疗设备采购参数制订中的应用价值研究 被引量:1
13
作者 车雪松 张敏 +1 位作者 卢东生 刘达洋 《中国医学装备》 2024年第6期161-166,共6页
目的:构建智能化医疗设备采购参数生成系统,实现医疗设备采购参数制订表达清晰和需求匹配精准,提高招标结果的认可度和招标效率。方法:基于自然语言处理(NLP)、网络爬虫和机器学习方法,构建自动化数据更新机制,实现海量采购参数数据提取... 目的:构建智能化医疗设备采购参数生成系统,实现医疗设备采购参数制订表达清晰和需求匹配精准,提高招标结果的认可度和招标效率。方法:基于自然语言处理(NLP)、网络爬虫和机器学习方法,构建自动化数据更新机制,实现海量采购参数数据提取,并将实体识别方法用于既往采购参数数据分析,实现医疗设备信息及参数名称等实体自动化提取,基于相似性设备推荐及医疗设备模板派生方法,采用向导式交互工具构建智能化医疗设备采购参数生成系统。对比采用智能化医疗设备采购参数生成系统与4名具有3年采购经验的招标采购人员进行10份医疗设备采购参数文件制订的差异。结果:采用智能化医疗设备采购参数生成系统的医疗设备采购参数文件平均生成时长为15.23min,而招标采购人员制订医疗设备采购参数文件平均时长为173.40min。经招标采购专家评估,采用智能化医疗设备采购参数生成系统生成医疗设备采购参数文件效率及质量均优于3年采购经验招标采购人员制订的医疗设备采购参数文件。结论:智能化医疗设备采购参数生成系统应用于医疗设备采购参数制订,可实现医疗设备采购参数的专业信息采集、存储和管理,缩短医疗设备采购参数制订周期,为医疗设备招标采购从业人员提供智能化辅助生成工具,提高采购参数制订效能,提升医疗设备采购效率。 展开更多
关键词 自然语言处理(NLP) 医疗设备 招标采购 参数制订 命名实体识别
下载PDF
基于BERT和领域词典融合的中文电子病历命名实体识别 被引量:1
14
作者 叶恩光 张晓如 +3 位作者 张再跃 丁腊春 朱向南 王译 《计算机与数字工程》 2024年第3期746-750,767,共6页
医疗数据挖掘的起始环节为CNER(中文电子病历命名实体识别),将相关实体(解剖部位、药品、影像检查等)识别出非结构化文本是其目标所在。基于CNER准确性提升需要,论文设计了BERT-BiLSTM-CRF模型融合领域词典技术,该技术能将上下文语义关... 医疗数据挖掘的起始环节为CNER(中文电子病历命名实体识别),将相关实体(解剖部位、药品、影像检查等)识别出非结构化文本是其目标所在。基于CNER准确性提升需要,论文设计了BERT-BiLSTM-CRF模型融合领域词典技术,该技术能将上下文语义关系全面结合,一词多义问题同样可以迎刃而解,获取电子病历句子的长距离依赖。CNER采用BERT-BiLSTM-CRF模型融合领域词典技术时的F1值已经被实验结果所证实,对知识图谱的构建、临床决策支持系统和病历质控系统等的研究有着重要意义。 展开更多
关键词 中文电子病历 命名实体识别 BERT-BiLSTM-CRF 领域词典
下载PDF
基于字形特征的中文医学命名实体识别方法
15
作者 孟伟伦 郭景峰 +3 位作者 邢珂萱 魏宁 王巧梭 刘滨 《电子学报》 EI CAS CSCD 北大核心 2024年第6期1945-1954,共10页
作为医学信息抽取的第一个关键环节,医学命名实体识别任务旨在从如电子医疗病例、中文医药说明书等非结构化文本中抽取出医学相关的实体.目前大多数中文医学命名实体识别工作通过在预训练模型上进行微调来获得文本表示向量,然后利用特... 作为医学信息抽取的第一个关键环节,医学命名实体识别任务旨在从如电子医疗病例、中文医药说明书等非结构化文本中抽取出医学相关的实体.目前大多数中文医学命名实体识别工作通过在预训练模型上进行微调来获得文本表示向量,然后利用特征工程来提升模型在医疗领域上的性能.这些模型大部分源自在通用数据集上表现较好的模型,没有考虑中文医学数据集的语言特性.通过在多个医学数据集上进行统计分析,发现部分类型的医学实体在字形上具有共性,如在汉字中大部分表示疾病含义的字符都包含“疒”,大部分表示身体器官的字符都包含“月”.针对这些问题,本文提出了一种基于字形特征的中文医学命名实体识别方法,该方法通过在文本表示向量上融合字形向量以及进一步利用数据集中负样本来提升模型的准确度和泛化能力.在多个公共的中文医学数据集上的实验结果表明,该方法获得了比其他模型更好的效果,并且通过消融实验证明了融合字形特征和从负样本中学习对于该任务是有效的. 展开更多
关键词 字形 负样本 两阶段 医学信息 命名实体识别 深度学习
下载PDF
基于BERT的电子病历命名实体识别 被引量:2
16
作者 郑立瑞 肖晓霞 +2 位作者 邹北骥 刘彬 周展 《计算机与现代化》 2024年第1期87-91,共5页
电子病历是保存、管理、传输病人医疗记录的重要资源,是医生诊治疾病的重要文本记录。通过电子病历命名实体识别(NER)技术能够高效、智能地从电子病历中抽取症状、疾病、药名等诊疗信息,有利于结构化电子病历,使之能够使用机器学习等技... 电子病历是保存、管理、传输病人医疗记录的重要资源,是医生诊治疾病的重要文本记录。通过电子病历命名实体识别(NER)技术能够高效、智能地从电子病历中抽取症状、疾病、药名等诊疗信息,有利于结构化电子病历,使之能够使用机器学习等技术进行诊疗规律挖掘。为了高效识别电子病历中的命名实体,提出一种融合对抗训练(FGM)的基于BERT与双向长短期记忆网络(BILSTM)的命名实体识别方法(BERT-BILSTM-CRF-FGM,BBCF),对2017全国知识图谱与语义计算大会(CCKS2017)提供的中文电子病历语料做修正等预处理后,采用BBCF模型识别该语料中5种实体的平均F1值为92.84%,比基于膨胀卷积网络的BERT模型(BERT-IDCNN-CRF)和基于BILSTM的条件随机场模型(BILSTM-CRF)有更高的F1值和更快的收敛速度,能够更加高效地结构化电子病历文本。 展开更多
关键词 电子病历 命名实体识别 BERT FGM 双向长短期记忆网络 条件随机场
下载PDF
基于预训练模型的医药说明书实体抽取方法研究
17
作者 陈仲永 黄雍圣 +1 位作者 张旻 姜明 《计算机科学与探索》 CSCD 北大核心 2024年第7期1911-1922,共12页
药品说明书医疗实体抽取可为用药信息智能检索及构建医疗知识图谱提供基础数据,具有重要研究意义与应用价值。针对治疗不同种类疾病的药品说明书中的医疗实体存在着较大的差异从而导致模型训练需要标注大量样本的问题,采用“大模型+小... 药品说明书医疗实体抽取可为用药信息智能检索及构建医疗知识图谱提供基础数据,具有重要研究意义与应用价值。针对治疗不同种类疾病的药品说明书中的医疗实体存在着较大的差异从而导致模型训练需要标注大量样本的问题,采用“大模型+小模型”的设计思路,提出了一种基于预训练模型的部分标签命名实体识别模型,先采用通过少量样本微调的预训练语言模型抽取药品说明书中的部分实体,再利用基于Transformer的部分标签模型进一步优化实体提取结果。部分标签模型采用平面格结构对输入文本、已识别出的部分实体及实体标签进行编码,使用Transformer提取特征表示,最后通过条件随机场(CRF)预测实体标签。为了减少训练模型的标注数据,利用标注样本实体掩盖策略,提出一种样本数据增广方法对部分标签模型进行训练。实验验证了“大模型+小模型”在医疗实体抽取的可行性,结果表明精确率(precision,P)、召回率(recall,R)和F1分数分别为85.0%、86.1%、85.6%,比其他学习方法更具优势。 展开更多
关键词 命名实体识别 预训练模型 医疗实体抽取 TRANSFORMER
下载PDF
基于注意力增强与特征融合的中文医学实体识别
18
作者 王晋涛 秦昂 +4 位作者 张元 陈一飞 王廷凤 谢承霖 邹刚 《计算机工程》 CAS CSCD 北大核心 2024年第7期324-332,共9页
针对基于字符表示的中文医学领域命名实体识别模型嵌入形式单一、边界识别困难、语义信息利用不充分等问题,一种非常有效的方法是在Bret底层注入词汇特征,在利用词粒度语义信息的同时降低分词错误带来的影响,然而在注入词汇信息的同时... 针对基于字符表示的中文医学领域命名实体识别模型嵌入形式单一、边界识别困难、语义信息利用不充分等问题,一种非常有效的方法是在Bret底层注入词汇特征,在利用词粒度语义信息的同时降低分词错误带来的影响,然而在注入词汇信息的同时也会引入一些低相关性的词汇和噪声,导致基于注意力机制的Bret模型出现注意力分散的情况。此外仅依靠字、词粒度难以充分挖掘中文字符深层次的语义信息。对此,提出基于注意力增强与特征融合的中文医学实体识别模型,对字词注意力分数矩阵进行稀疏处理,使模型的注意力集中在相关度高的词汇,能够有效减少上下文中的噪声词汇干扰。同时,对汉字发音和笔画通过卷积神经网络(CNN)提取特征,经过迭代注意力特征融合模块进行融合,然后与Bret模型的输出特征进行拼接输入给Bi LSTM模型,进一步挖掘字符所包含的深层次语义信息。通过爬虫等方式搜集大量相关医学语料,训练医学领域词向量库,并在CCKS2017和CCKS2019数据集上进行验证,实验结果表明,该模型F1值分别达到94.90%、89.37%,效果优于当前主流的实体识别模型,具有更好的识别效果。 展开更多
关键词 实体识别 中文分词 注意力稀疏 特征融合 医学词向量库
下载PDF
基于高置信度伪标签数据选择算法的临床事件抽取方法
19
作者 罗媛媛 杨春明 +2 位作者 李波 张晖 赵旭剑 《太原理工大学学报》 北大核心 2024年第1期204-213,共10页
【目的】事件抽取是构建高质量事件知识图谱的前提。临床事件抽取过程中事件元素存在依赖关系,现有方法无法准确识别事件元素并组合为事件,且现有临床事件标记数据较少,给事件抽取任务带来了极大的挑战。【方法】将临床事件抽取建模为... 【目的】事件抽取是构建高质量事件知识图谱的前提。临床事件抽取过程中事件元素存在依赖关系,现有方法无法准确识别事件元素并组合为事件,且现有临床事件标记数据较少,给事件抽取任务带来了极大的挑战。【方法】将临床事件抽取建模为实体识别模型,提出一种融合多特征的中文医学事件抽取方法:BERT-MCRF.该方法使用BERT构建模型的嵌入和特征提取部分,在CRF层加入多个字的滑动窗口特征,然后将BERT-MCRF作为半监督实验的基实验,提出一种高置信度伪标签数据选择算法作为筛选数据的条件,得到较高质量的300条数据与原始数据合并,最终构建了1700条语料,并重新训练模型。【结果】BERT-MCRF模型在3种属性实体上的整体F1值达到80.21%,比经典的BiLSTM-CRF模型提升15.11%;通过半监督思路重新训练的模型最终F1值达到81.56%,较原始BERT-MCRF提升了1.35%. 展开更多
关键词 临床医学事件抽取 实体识别 多特征 半监督学习 高置信度伪标签选择算法
下载PDF
基于自注意力机制与词汇增强的中文医学命名实体识别
20
作者 罗歆然 李天瑞 贾真 《计算机应用》 CSCD 北大核心 2024年第2期385-392,共8页
针对中文医学文本实体嵌套导致的单词边界识别困难问题以及现有栅格结构集成词汇特征所面临的语义信息损失严重的情况,提出一种用于中文医学命名实体识别(MNER)的自适应词汇信息增强模型。首先,利用双向长短期记忆(BiLSTM)网络编码字符... 针对中文医学文本实体嵌套导致的单词边界识别困难问题以及现有栅格结构集成词汇特征所面临的语义信息损失严重的情况,提出一种用于中文医学命名实体识别(MNER)的自适应词汇信息增强模型。首先,利用双向长短期记忆(BiLSTM)网络编码字符序列的上下文信息并捕捉较长距离的依赖关系;然后,对字符序列中每个字符的潜在单词信息进行字词对建模,采用自注意力机制实现不同单词之间的内部交互;最后,通过基于双线性注意力机制的词汇适配器将词汇信息集成到文本序列中的每个字符中,有效增强语义信息的同时充分利用单词丰富的边界信息,并抑制相关性低的单词。实验结果表明,所提模型与基于字符的基线模型相比,平均F1值分别提升了1.37~2.38个百分点,并在结合BERT后取得了最优的效果。 展开更多
关键词 医学命名实体识别 中文医学文本 词汇适配器 自注意力机制 双向长短期记忆网络
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部