期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于数据增强的地质文本主题模型
1
作者 张竞元 刘刚 +2 位作者 曾粤 周大双 陈麒玉 《计算机系统应用》 2022年第7期290-297,共8页
直接利用主题模型对地质文本进行聚类时会出现主题准确性低、主题关键词连续性差等问题,本文采取了相关改进方法.首先在分词阶段采用基于词频统计的重复词串提取算法,保留地质专业名词以准确提取文本主题,同时减少冗余词串数量节约内存... 直接利用主题模型对地质文本进行聚类时会出现主题准确性低、主题关键词连续性差等问题,本文采取了相关改进方法.首先在分词阶段采用基于词频统计的重复词串提取算法,保留地质专业名词以准确提取文本主题,同时减少冗余词串数量节约内存花销,提升保留词的提取效率.另外,使用基于TF-IDF和词向量的文本数据增强算法,对原始分词语料进行处理以强化文本主题特征.之后该算法与主题模型相结合在处理后的语料上提取语料主题.由于模型的先验信息得到增强,故性能得以提高.实验结果表明本文算法与LDA模型相结合的方法表现较好,在相关指标及输出结果上均优于其他方法. 展开更多
关键词 地质文本 主题模型 数据增强 词向量 TF-IDF
下载PDF
基于条件随机场的地质矿产文本分词研究 被引量:8
2
作者 陈婧汶 陈建国 +1 位作者 王成彬 朱月琴 《中国矿业》 北大核心 2018年第9期69-74,101,共7页
中文与英文不同,词与词之间没有类似空格的天然分隔符,致使中文分词成为中文信息处理中的难题。地质矿产文本中含有大量未登录地质专业术语,现阶段仍无效果较好的分词方法。本文探讨了一种基于双语料库条件随机场模型的方法对地质矿产... 中文与英文不同,词与词之间没有类似空格的天然分隔符,致使中文分词成为中文信息处理中的难题。地质矿产文本中含有大量未登录地质专业术语,现阶段仍无效果较好的分词方法。本文探讨了一种基于双语料库条件随机场模型的方法对地质矿产文本进行分词,并与通用领域分词方法、单语料库条件随机场模型分词方法进行对比实验。实验表明,本文提出的方法在开放测试下分词效果明显优于其他方法,准确率为94.80%,召回率为92.68%,F-值为93.73%。本文对地质矿产文本进行了中文分词研究,既能够很好地识别未登录地质专业术语,又保证了普通词汇的识别率,为对地质领域的自然语言处理工作奠定了基础。 展开更多
关键词 中文分词 地质矿产文本 条件随机场 语料 地质词典
下载PDF
卡氏翻译转换理论指导下地质学科技论文的汉译研究
3
作者 余瑞瑶 王辉 《海外英语》 2023年第16期44-46,共3页
地质学科技英语是学术分享与交流的重要媒介,其翻译工作具有很强的专业性与独特性。该文通过大量国际权威高水平的地质学期刊论文的汉译研究,总结了地质科技文本的语言特征,并结合实例,介绍了卡特福德翻译理论在地质学科技文本汉译中的... 地质学科技英语是学术分享与交流的重要媒介,其翻译工作具有很强的专业性与独特性。该文通过大量国际权威高水平的地质学期刊论文的汉译研究,总结了地质科技文本的语言特征,并结合实例,介绍了卡特福德翻译理论在地质学科技文本汉译中的应用策略,提高了翻译的准确性与合理性。 展开更多
关键词 地质学科技文本 卡特福德翻译理论 翻译
下载PDF
一种基于统计的地质专业词语识别方法 被引量:1
4
作者 王宏 朱学立 +2 位作者 曾涛 乔东玉 郭甲腾 《软件导刊》 2020年第4期211-218,共8页
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质... 中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。 展开更多
关键词 地质文本 中文分词 质串 重复串 上下文邻接 位置成词概率
下载PDF
基于ELMO-CNN-BiLSTM-CRF模型的地质实体识别 被引量:22
5
作者 储德平 万波 +2 位作者 李红 方芳 王润 《地球科学》 EI CAS CSCD 北大核心 2021年第8期3039-3048,共10页
地质实体是地质文本中的关键和核心信息,对其准确识别是地质信息提取和挖掘的重要前提.设计了ELMO-CNNBiLSTM-CRF模型,基于预训练字向量构建深层Bi LSTM-CRF神经网络模型,通过添加词语动态特征以及词语字符级别的特征,弥补字向量特异性... 地质实体是地质文本中的关键和核心信息,对其准确识别是地质信息提取和挖掘的重要前提.设计了ELMO-CNNBiLSTM-CRF模型,基于预训练字向量构建深层Bi LSTM-CRF神经网络模型,通过添加词语动态特征以及词语字符级别的特征,弥补字向量特异性缺失的问题,提高对于地质文本中复杂多词义的识别水平和对地质实体局部特征的提取能力.以《西藏自治区谢通门县雄村铜矿勘探地质报告》为例,对该模型的性能进行了评估,模型的准确率、召回率和F1值分别为95.15%、95.26%和95.21%.实验表明相比Bi LSTM-CRF和CNN-BiLSTM-CRF模型,该模型在小规模语料地质实体识别方面效果更优,且能够有效识别长地质实体词汇和地质多义词. 展开更多
关键词 地质大数据 地质实体 命名实体识别 ELMO-CNN-BiLSTM-CRF 地质文本 数学地质
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部