期刊文献+
共找到55篇文章
< 1 2 3 >
每页显示 20 50 100
基于中文电子病历知识图谱的实体对齐研究
1
作者 李丽双 董姜媛 《中文信息学报》 CSCD 北大核心 2024年第8期103-111,共9页
医疗知识图谱中知识重叠和互补的现象普遍存在,利用实体对齐进行医疗知识图谱融合成为迫切需要。然而据作者调研,目前医疗领域中的实体对齐尚没有一个完整的处理方案。因此该文提出了一个规范的基于中文电子病历的医疗知识图谱实体对齐... 医疗知识图谱中知识重叠和互补的现象普遍存在,利用实体对齐进行医疗知识图谱融合成为迫切需要。然而据作者调研,目前医疗领域中的实体对齐尚没有一个完整的处理方案。因此该文提出了一个规范的基于中文电子病历的医疗知识图谱实体对齐流程,为医疗领域的实体对齐提供了一种可行的方案。同时针对基于中文电子病历医疗知识图谱之间结构异构性的特点,该文设计了一个双视角并行图神经网络(DuPNet)模型用于解决医疗领域实体对齐,并取得较好的效果。 展开更多
关键词 医疗知识图谱 中文电子病历 实体对齐 结构异构体 并行图神经网络
下载PDF
基于平行交互注意力网络的中文电子病历实体及关系联合抽取
2
作者 李丽双 王泽昊 +1 位作者 秦雪洋 袁光辉 《中文信息学报》 CSCD 北大核心 2024年第6期108-118,共11页
基于电子病历构建医学知识图谱对医疗技术的发展具有重要意义,实体和关系抽取是构建知识图谱的关键技术。该文针对目前实体关系联合抽取中存在的特征交互不充分的问题,提出了一种平行交互注意力网络(PIAN)以充分挖掘实体与关系的相关性... 基于电子病历构建医学知识图谱对医疗技术的发展具有重要意义,实体和关系抽取是构建知识图谱的关键技术。该文针对目前实体关系联合抽取中存在的特征交互不充分的问题,提出了一种平行交互注意力网络(PIAN)以充分挖掘实体与关系的相关性,在多个标准的医学和通用数据集上取得最优结果;当前中文医学实体及关系标注数据集较少,该文基于中文电子病历构建了实体和关系抽取数据集(CEMRIE),与医学专家共同制定了语料标注规范,并基于该文所提出的模型实验得出基准结果。 展开更多
关键词 实体关系联合抽取 双向特征交互模块 自注意力机制 中文电子病历 数据集标注与构建
下载PDF
基于多头注意力的中文电子病历命名实体识别 被引量:1
3
作者 肖丹 杨春明 +2 位作者 张晖 赵旭剑 李波 《计算机应用与软件》 北大核心 2024年第1期133-138,160,共7页
针对中文电子病历中复杂医疗实体的识别问题,提出一种联合特征与多头注意力相结合的实体识别方法。该方法使用字符、词性和词典组成的联合特征,利用BiLSTM和多头注意力分别提取句子的全局特征和局部特征,利用CRF结合所有特征完成实体标... 针对中文电子病历中复杂医疗实体的识别问题,提出一种联合特征与多头注意力相结合的实体识别方法。该方法使用字符、词性和词典组成的联合特征,利用BiLSTM和多头注意力分别提取句子的全局特征和局部特征,利用CRF结合所有特征完成实体标签的预测。实验结果表明,该方法F1值达89.16%,其中治疗和疾病两类实体分别达到94.76%和95.56%。 展开更多
关键词 命名实体识别 中文电子病历 多头注意力 长短期记忆网络 条件随机场
下载PDF
基于BERT和领域词典融合的中文电子病历命名实体识别 被引量:1
4
作者 叶恩光 张晓如 +3 位作者 张再跃 丁腊春 朱向南 王译 《计算机与数字工程》 2024年第3期746-750,767,共6页
医疗数据挖掘的起始环节为CNER(中文电子病历命名实体识别),将相关实体(解剖部位、药品、影像检查等)识别出非结构化文本是其目标所在。基于CNER准确性提升需要,论文设计了BERT-BiLSTM-CRF模型融合领域词典技术,该技术能将上下文语义关... 医疗数据挖掘的起始环节为CNER(中文电子病历命名实体识别),将相关实体(解剖部位、药品、影像检查等)识别出非结构化文本是其目标所在。基于CNER准确性提升需要,论文设计了BERT-BiLSTM-CRF模型融合领域词典技术,该技术能将上下文语义关系全面结合,一词多义问题同样可以迎刃而解,获取电子病历句子的长距离依赖。CNER采用BERT-BiLSTM-CRF模型融合领域词典技术时的F1值已经被实验结果所证实,对知识图谱的构建、临床决策支持系统和病历质控系统等的研究有着重要意义。 展开更多
关键词 中文电子病历 命名实体识别 BERT-BiLSTM-CRF 领域词典
下载PDF
中文电子病历信息提取方法研究综述
5
作者 吉旭瑞 魏德健 +2 位作者 张俊忠 张帅 曹慧 《计算机工程与科学》 CSCD 北大核心 2024年第2期325-337,共13页
电子病历里承载的大量医疗信息能够帮助医生更好地了解患者的情况,辅助医生进行临床诊断。作为中文电子病历信息提取的2大核心任务,命名实体识别和实体关系抽取的目标是识别出电子病历文本中的医学实体并提取出各个实体间的医学关系。首... 电子病历里承载的大量医疗信息能够帮助医生更好地了解患者的情况,辅助医生进行临床诊断。作为中文电子病历信息提取的2大核心任务,命名实体识别和实体关系抽取的目标是识别出电子病历文本中的医学实体并提取出各个实体间的医学关系。首先,系统阐述了中文电子病历的研究现状,指出命名实体识别和实体关系抽取2大任务在中文电子病历信息提取中所发挥的重要作用。随后,介绍了面向中文电子病历信息提取的命名实体识别和关系抽取算法的最新研究成果,并分析了每个阶段各个模型的优缺点。最后,讨论了中文电子病历现阶段所存在的问题并对未来的研究趋势进行展望。 展开更多
关键词 中文电子病历 命名实体识别 实体关系抽取 自然语言处理 深度学习
下载PDF
MRC-PBM:一种中文电子病历嵌套命名实体识别方法
6
作者 周佳伦 李琳宇 +1 位作者 马洪彬 姜艳静 《国外电子测量技术》 2024年第1期159-165,共7页
中文电子病历实体包含大量的医学领域词汇并具有明显的嵌套特征。嵌套实体识别时往往存在目标实体定位不完整、不准确的问题。针对这一问题,提出了一种基于机器阅读理解的中文电子病历嵌套命名实体识别模型MRC-PBM(machine reading comp... 中文电子病历实体包含大量的医学领域词汇并具有明显的嵌套特征。嵌套实体识别时往往存在目标实体定位不完整、不准确的问题。针对这一问题,提出了一种基于机器阅读理解的中文电子病历嵌套命名实体识别模型MRC-PBM(machine reading comprehension-position information biaffine and MLP)。该模型将命名实体识别(named entity recognition,NER)转化为机器阅读理解任务,将中文电子病历文本和预定义的查询语句串联作为输入,使用基于医学的预训练模型MC_BERT获取词向量,然后通过双向长短期记忆网络模型(BiLSTM)和多粒度扩张卷积模型分别获取双向的特征信息以及单词之间的信息,得到相应的特征向量,最后使用Hybrid-PBM预测器进行实体预测。在嵌套和平面NER数据集上进行实验。实验表明,该模型在糖尿病语料和公开医学数据集上优于其他主流神经网络模型,F1值比基线模型提高了1.21%~5.80%。 展开更多
关键词 中文电子病历 命名实体识别 机器阅读理解 嵌套实体
原文传递
中文电子病历命名实体识别算法BLF-MarkBERT
7
作者 潘旭 余艳梅 +1 位作者 盛西方 陶青川 《现代计算机》 2024年第9期35-38,65,共5页
随着深度学习技术的发展,中文命名实体识别在各个领域取得了显著进展,特别是在中文电子病历领域,它成为了医学信息管理领域的重要任务。中文电子病历命名实体识别从电子病历中自动识别和分类命名实体,提高了医学信息管理效率和临床决策... 随着深度学习技术的发展,中文命名实体识别在各个领域取得了显著进展,特别是在中文电子病历领域,它成为了医学信息管理领域的重要任务。中文电子病历命名实体识别从电子病历中自动识别和分类命名实体,提高了医学信息管理效率和临床决策支持,促进了医学智能信息化发展。为进一步提升效果,对MarkBERT方法进行研究,在其基础上改进并实现了一种融合双向长短时记忆网络和解码方式的深度学习模型BLF-MarkBERT。在CCKS2019数据集上的实验结果表明,BLF-MarkBERT在准确率P、召回率R和F1分数这三个评估指标上均优于对比算法,表明了该模型的优越性。 展开更多
关键词 中文命名实体识别 MarkBERT BiLSTM 中文电子病历
下载PDF
基于RBBEGP的中文电子病历命名实体识别研究
8
作者 郭振华 宋波 《电脑知识与技术》 2024年第16期6-10,共5页
针对中文电子病历中嵌套命名实体较多以及中英文字词表达差异所导致的传统命名实体识别模型识别准确率低的问题,文章提出了一种基于RoBERTa-wwm-ext-BiGRU-EGP的命名实体识别模型RBBEGP。预训练模型RoBERTawwm-ext将输入的中文电子病历... 针对中文电子病历中嵌套命名实体较多以及中英文字词表达差异所导致的传统命名实体识别模型识别准确率低的问题,文章提出了一种基于RoBERTa-wwm-ext-BiGRU-EGP的命名实体识别模型RBBEGP。预训练模型RoBERTawwm-ext将输入的中文电子病历文本序列转化为动态向量,BiGRU对词向量的双向时序特征信息进行提取以结合上下文语义,最后通过全局指针网络(Efficient Global Pointer,EGP)判断并输出最为可靠的序列作为命名实体的类别。实验结果表明,文章提出的RBBEGP模型在CCKS2019中文电子病历数据集上的精确率、召回率、F1值分别达到了83.36%、83.25%和83.30%,相较于BERT-BiLSTM-CRF等主流模型有所提高。 展开更多
关键词 中文电子病历 命名实体识别 RoBERTa-wwm-ext BiGRU EGP
下载PDF
基于RoBERTa-WWM模型的中文电子病历命名实体识别研究
9
作者 刘慧敏 黄霞 +1 位作者 熊菲 王国庆 《长江信息通信》 2024年第3期7-9,共3页
在应对中文电子病历文本分析时,面临着一词多义、识别不完整等挑战。为此,构建了RoBERTa-WWM模型与BiLSTM-CRF模块相结合的深度学习框架。首先,将经过预训练的RoBERTa-WWM语言模型与Transformer层产生的语义特征进行深度融合,以捕获文... 在应对中文电子病历文本分析时,面临着一词多义、识别不完整等挑战。为此,构建了RoBERTa-WWM模型与BiLSTM-CRF模块相结合的深度学习框架。首先,将经过预训练的RoBERTa-WWM语言模型与Transformer层产生的语义特征进行深度融合,以捕获文本的复杂语境信息。接着,将融合后的语义表示输入至BiLSTM以及CRF模块,进一步细化了实体的辨识范围与准确性。最后,在CCKS2019数据集上进行了实证分析,F1值高达82.94%。这一数据有力地证实了RoBERTa-WWM-BiLSTM-CRF模型在中文电子病历命名实体的识别工作上的优越性能。 展开更多
关键词 RoBERTa-WWM模型 中文电子病历 实体识别
下载PDF
基于BERT的中文电子病历命名实体识别 被引量:9
10
作者 封红旗 孙杨 +1 位作者 杨森 李文杰 《计算机工程与设计》 北大核心 2023年第4期1220-1227,共8页
针对中文电子病历命名实体识别过程中实体特征利用率低,语义表示不充分等问题,提出一种基于BERT语言模型的命名实体识别方法。运用Char-CNN学习字符的多种特征,将特征加入BERT预训练生成的词向量中,获得融合领域信息和汉字特征的词向量... 针对中文电子病历命名实体识别过程中实体特征利用率低,语义表示不充分等问题,提出一种基于BERT语言模型的命名实体识别方法。运用Char-CNN学习字符的多种特征,将特征加入BERT预训练生成的词向量中,获得融合领域信息和汉字特征的词向量表示,将词向量输入迭代扩张卷积神经网络中进行特征抽取,引入注意力机制加强实体特征的关注度,通过CRF解码标注命名实体。实验结果表明,该方法在CCKS17中取得91.64%的F1值,识别性能优于现有方法。 展开更多
关键词 中文电子病历 命名实体识别 深度学习 语言模型 卷积神经网络 注意力机制 词向量
下载PDF
结合注意力机制的BERT-BiGRU-CRF中文电子病历命名实体识别 被引量:8
11
作者 陈娜 孙艳秋 燕燕 《小型微型计算机系统》 CSCD 北大核心 2023年第8期1680-1685,共6页
为了改善中文电子病历命名实体识别模型的性能,本文提出了基于BERT、双向门控循环单元(Bidirectional Gate Recurrent Unit,BiGRU)与条件随机场CRF相结合的中文电子病历命名实体识别模型,并在此基础上引入了注意力机制.利用BERT(Bidirec... 为了改善中文电子病历命名实体识别模型的性能,本文提出了基于BERT、双向门控循环单元(Bidirectional Gate Recurrent Unit,BiGRU)与条件随机场CRF相结合的中文电子病历命名实体识别模型,并在此基础上引入了注意力机制.利用BERT(Bidirectional Encoder Representation from Transformers)预训练模型得到结合语境信息的动态字向量,通过双向门控循环单元(Bidirectional Gate Recurrent Unit,BiGRU)提取全局语义特征,利用注意力机制获得增强语义特征,最后通过CRF(Conditional Random Field)解码输出概率最大的全局最优标签序列.利用含有解剖部位、手术、疾病和诊断、药物、实验室检验、影像检查6类实体的CCKS19中文电子病历数据集训练模型.对比实验表明了本文提出的命名实体识别模型的有效性,本文模型在CCKS19数据集上获得了84.11%的F1值。 展开更多
关键词 中文电子病历 命名实体识别 BERT BiGRU 注意力机制
下载PDF
基于预训练模型的中文电子病历实体识别 被引量:3
12
作者 李晓林 胡泽荣 《计算机工程与设计》 北大核心 2023年第2期535-540,共6页
为提升传统中文电子病历实体识别预训练模型的语义特征提取能力并增强中文隐含特征表示,提出基于改进预训练语言模型的医疗命名实体识别方法。提出动态词长的逆向最大匹配算法对病历文本进行标注歧义处理,在此基础上构建用户自定义医疗... 为提升传统中文电子病历实体识别预训练模型的语义特征提取能力并增强中文隐含特征表示,提出基于改进预训练语言模型的医疗命名实体识别方法。提出动态词长的逆向最大匹配算法对病历文本进行标注歧义处理,在此基础上构建用户自定义医疗实体字典辅助PKU分词,提高预训练模型掩码效果。输入向量层加入字向量,引入注意力机制学习字向量的全局语义特征。改进预训练模型mask策略和机制并去掉下一句预测,提升词向量语义表征能力。实验结果表明,该方法有效提高了医疗实体的识别效果,F1值达到90.57%。 展开更多
关键词 中文电子病历 命名实体识别 预训练模型 标注歧义 注意力机制 逆向最大匹配算法 医疗实体字典
下载PDF
融合多特征和迭代扩张卷积的中文电子病历命名实体识别
13
作者 封红旗 孙杨 +2 位作者 吴涛 王少聪 李文杰 《常州大学学报(自然科学版)》 CAS 2023年第1期59-67,共9页
针对中文电子病历命名实体识别过程中文本语义表示不充分、特征抽取效率低等缺陷,提出一种融合多特征和迭代扩张卷积的命名实体识别方法。该方法首先构建基于卷积神经网络(CNN)的字嵌入算法,将生成的字向量与词向量等外部特征信息融合... 针对中文电子病历命名实体识别过程中文本语义表示不充分、特征抽取效率低等缺陷,提出一种融合多特征和迭代扩张卷积的命名实体识别方法。该方法首先构建基于卷积神经网络(CNN)的字嵌入算法,将生成的字向量与词向量等外部特征信息融合后送入迭代扩张卷积神经网络(IDCNN)中进行特征抽取,引入注意力机制加强序列间依赖关系,最后通过CRF解码最优标签序列。该方法在CCKS2017中文电子病历数据集中取得了91.36%的F1值,识别性能优于现有方法,同时验证了融合多特征的语义表示对中文实体识别有一定性能提升。 展开更多
关键词 中文电子病历 命名实体识别 卷积神经网络 自注意力机制
下载PDF
融入对抗训练的中文电子病历命名实体识别 被引量:1
14
作者 李曼玉 于瓅 《现代信息科技》 2023年第2期90-93,共4页
为提高中文电子病历中命名实体识别模型鲁棒性和准确性,为此提出一种基于BERT模型融入对抗网络的中文电子命名实体识别模型,该方法使用BERT预训练模型动态生成字向量,通过对抗训练生成扰动,将字向量与扰动相加生成对抗样本,再通过膨胀... 为提高中文电子病历中命名实体识别模型鲁棒性和准确性,为此提出一种基于BERT模型融入对抗网络的中文电子命名实体识别模型,该方法使用BERT预训练模型动态生成字向量,通过对抗训练生成扰动,将字向量与扰动相加生成对抗样本,再通过膨胀卷积网络(IDCNN)捕捉句子单词间的依赖,最后通过条件随机场(CRF)得到最终预测结果。在CCKS2019数据集上的实验表明,模型的F1值达到83.19%,证明该模型的有效性。 展开更多
关键词 命名实体识别 中文电子病历 BERT 对抗训练
下载PDF
基于知识增强的中文电子病历命名实体识别
15
作者 李宛泽 宋波 齐岳山 《计算机系统应用》 2023年第12期112-119,共8页
针对中文电子病历中医疗嵌套实体难以处理的问题,本文基于RoBERTa-wwm-ext-large预训练模型提出一种知识增强的中文电子病历命名实体识别模型ERBEGP.RoBERTa-wwm-ext-large采用的全词掩码策略能够获得词级别的语义表示,更适用于中文文本... 针对中文电子病历中医疗嵌套实体难以处理的问题,本文基于RoBERTa-wwm-ext-large预训练模型提出一种知识增强的中文电子病历命名实体识别模型ERBEGP.RoBERTa-wwm-ext-large采用的全词掩码策略能够获得词级别的语义表示,更适用于中文文本.首先结合知识图谱,使模型学习到了大量的医疗实体名词,进一步提高模型对电子病历实体识别的准确性.然后通过BiLSTM对电子病历输入序列编码,能够更好捕获病历的中上下语义信息.最后利用全局指针网络模型EGP(efficient GlobalPointer)同时考虑实体的头部和尾部的特征信息来预测嵌套实体,更加有效地解决中文电子病历命名实体识别任务中嵌套实体难以处理的问题.在CBLUE中的4个数据集上本文方法均取得了更好的识别效果,证明了ERBEGP模型的有效性. 展开更多
关键词 中文电子病历 命名实体识别 知识增强 嵌套实体 全局指针网络模型 深度学习
下载PDF
中文电子病历命名实体和实体关系语料库构建 被引量:106
16
作者 杨锦锋 关毅 +4 位作者 何彬 曲春燕 于秋滨 刘雅欣 赵永杰 《软件学报》 EI CSCD 北大核心 2016年第11期2725-2746,共22页
电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命... 电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础. 展开更多
关键词 中文电子病历 命名实体 实体关系 标注规范 标注语料构建
下载PDF
中文电子病历命名实体标注语料库构建 被引量:19
17
作者 曲春燕 关毅 +2 位作者 杨锦锋 赵永杰 刘雅欣 《高技术通讯》 CAS CSCD 北大核心 2015年第2期143-150,共8页
针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文... 针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文电子病历标注规范;通过对大量中文电子病历的分析,提出了一套完整的中文电子病历命名实体标注方案,而且采用预标注和正式标注的方法,建立了一定规模的中文电子病历命名实体标注语料库,其标注语料的一致性达到了92%以上。该工作对中文电子病历的命名实体识别及信息抽取研究提供了可靠的数据支持,对医疗知识挖掘也有重要意义。 展开更多
关键词 中文电子病历(CEMR) 命名实体 标注语料库 标注规范 标注一致性(IAA)
下载PDF
基于中文电子病历的心血管疾病风险因素标注体系及语料库构建 被引量:14
18
作者 苏嘉 何彬 +5 位作者 吴昊 杨锦锋 关毅 姜京池 王焕政 于秋滨 《自动化学报》 EI CSCD 北大核心 2019年第2期420-426,共7页
本文讨论了从中文电子病历中标注心血管疾病风险因素及其相关信息的问题,提出了适应中文电子病历内容特点的心血管疾病风险因素标注体系,构建了中文健康信息处理领域首份关于心血管疾病风险因素的标注语料库.
关键词 心血管疾病 中文电子病历 风险因素 语料标注 自然语言处理
下载PDF
面向中文电子病历的词法语料标注研究 被引量:9
19
作者 蒋志鹏 赵芳芳 +1 位作者 关毅 杨锦锋 《高技术通讯》 CAS CSCD 北大核心 2014年第6期609-615,共7页
针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的... 针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导。通过实验量化中文电子病历与开放领域语料、英文电子病历语料的词法统计差异,系统地分析了通用标注模型在中文电子病历中的错误分布,为进行适用于中文电子病历分析的自然语言处理(NLP)技术研究奠定了基础。 展开更多
关键词 中文电子病历(CEMR) 词性标注 标注一致性 语料差异 错误分析
下载PDF
面向中文电子病历的句法分析融合模型 被引量:4
20
作者 蒋志鹏 关毅 《自动化学报》 EI CSCD 北大核心 2019年第2期276-288,共13页
完全句法分析是自然语言处理(Natural language processing, NLP)中重要的结构化过程,由于中文电子病历(Chinese electronic medical record, CEMR)句法标注语料匮乏,目前还没有面向中文电子病历的完全句法分析研究.本文针对中文电子病... 完全句法分析是自然语言处理(Natural language processing, NLP)中重要的结构化过程,由于中文电子病历(Chinese electronic medical record, CEMR)句法标注语料匮乏,目前还没有面向中文电子病历的完全句法分析研究.本文针对中文电子病历模式化强的子语言特征,首次以树片段形式化中文电子病历复用的模式,提出了面向数据句法分析(Dataoriented parsing, DOP)和层次句法分析融合模型.在树片段抽取阶段,提出效率更高的标准树片段和局部树片段抽取算法,分别解决了标准树片段的重复比对问题,以及二次树核(Quadratic tree kernel, QTK)的效率低下问题,获得了标准树片段集和局部树片段集.基于上述两个树片段集,提出词汇和词性混合匹配策略和最大化树片段组合算法改进面向数据句法分析模型,缓解了无效树片段带来的噪声.实验结果表明,该融合模型能够有效改善中文电子病历句法分析效果,基于少量标注语料F1值能够达到目前最高的80.87%,并且在跨科室句法分析上超过Stanford parser和Berkeley parser 2%以上. 展开更多
关键词 中文电子病历 完全句法分析 面向数据句法分析 层次句法分析
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部