针对中文电子病历中嵌套命名实体较多以及中英文字词表达差异所导致的传统命名实体识别模型识别准确率低的问题,文章提出了一种基于RoBERTa-wwm-ext-BiGRU-EGP的命名实体识别模型RBBEGP。预训练模型RoBERTawwm-ext将输入的中文电子病历...针对中文电子病历中嵌套命名实体较多以及中英文字词表达差异所导致的传统命名实体识别模型识别准确率低的问题,文章提出了一种基于RoBERTa-wwm-ext-BiGRU-EGP的命名实体识别模型RBBEGP。预训练模型RoBERTawwm-ext将输入的中文电子病历文本序列转化为动态向量,BiGRU对词向量的双向时序特征信息进行提取以结合上下文语义,最后通过全局指针网络(Efficient Global Pointer,EGP)判断并输出最为可靠的序列作为命名实体的类别。实验结果表明,文章提出的RBBEGP模型在CCKS2019中文电子病历数据集上的精确率、召回率、F1值分别达到了83.36%、83.25%和83.30%,相较于BERT-BiLSTM-CRF等主流模型有所提高。展开更多
完全句法分析是自然语言处理(Natural language processing, NLP)中重要的结构化过程,由于中文电子病历(Chinese electronic medical record, CEMR)句法标注语料匮乏,目前还没有面向中文电子病历的完全句法分析研究.本文针对中文电子病...完全句法分析是自然语言处理(Natural language processing, NLP)中重要的结构化过程,由于中文电子病历(Chinese electronic medical record, CEMR)句法标注语料匮乏,目前还没有面向中文电子病历的完全句法分析研究.本文针对中文电子病历模式化强的子语言特征,首次以树片段形式化中文电子病历复用的模式,提出了面向数据句法分析(Dataoriented parsing, DOP)和层次句法分析融合模型.在树片段抽取阶段,提出效率更高的标准树片段和局部树片段抽取算法,分别解决了标准树片段的重复比对问题,以及二次树核(Quadratic tree kernel, QTK)的效率低下问题,获得了标准树片段集和局部树片段集.基于上述两个树片段集,提出词汇和词性混合匹配策略和最大化树片段组合算法改进面向数据句法分析模型,缓解了无效树片段带来的噪声.实验结果表明,该融合模型能够有效改善中文电子病历句法分析效果,基于少量标注语料F1值能够达到目前最高的80.87%,并且在跨科室句法分析上超过Stanford parser和Berkeley parser 2%以上.展开更多
文摘中文电子病历实体包含大量的医学领域词汇并具有明显的嵌套特征。嵌套实体识别时往往存在目标实体定位不完整、不准确的问题。针对这一问题,提出了一种基于机器阅读理解的中文电子病历嵌套命名实体识别模型MRC-PBM(machine reading comprehension-position information biaffine and MLP)。该模型将命名实体识别(named entity recognition,NER)转化为机器阅读理解任务,将中文电子病历文本和预定义的查询语句串联作为输入,使用基于医学的预训练模型MC_BERT获取词向量,然后通过双向长短期记忆网络模型(BiLSTM)和多粒度扩张卷积模型分别获取双向的特征信息以及单词之间的信息,得到相应的特征向量,最后使用Hybrid-PBM预测器进行实体预测。在嵌套和平面NER数据集上进行实验。实验表明,该模型在糖尿病语料和公开医学数据集上优于其他主流神经网络模型,F1值比基线模型提高了1.21%~5.80%。
文摘针对中文电子病历中嵌套命名实体较多以及中英文字词表达差异所导致的传统命名实体识别模型识别准确率低的问题,文章提出了一种基于RoBERTa-wwm-ext-BiGRU-EGP的命名实体识别模型RBBEGP。预训练模型RoBERTawwm-ext将输入的中文电子病历文本序列转化为动态向量,BiGRU对词向量的双向时序特征信息进行提取以结合上下文语义,最后通过全局指针网络(Efficient Global Pointer,EGP)判断并输出最为可靠的序列作为命名实体的类别。实验结果表明,文章提出的RBBEGP模型在CCKS2019中文电子病历数据集上的精确率、召回率、F1值分别达到了83.36%、83.25%和83.30%,相较于BERT-BiLSTM-CRF等主流模型有所提高。