期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于SciBERT-BiLSTM-CRF-wordMixup的软件实体识别研究
1
作者 潘雪莲 钱雨菲 王宪雨 《现代情报》 CSSCI 北大核心 2024年第10期75-85,共11页
[目的/意义]软件在现代科学研究中发挥着重要作用,高效识别学术文献中的软件实体对深入认识软件的学术价值、促进软件可持续发展和学术生态体系均衡发展具有重要意义。[方法/过程]本研究首先对软件实体进行定义;然后基于小型知识库的程... [目的/意义]软件在现代科学研究中发挥着重要作用,高效识别学术文献中的软件实体对深入认识软件的学术价值、促进软件可持续发展和学术生态体系均衡发展具有重要意义。[方法/过程]本研究首先对软件实体进行定义;然后基于小型知识库的程序辅助标注方案,构建软件实体识别领域语料库;在此基础上,提出改进的SciBERT-BiLSTM-CRF-wordMixup模型并对该模型的识别效果进行评估。[结果/结论]实验结果显示,本研究提出的改进模型SciBERT-BiLSTM-CRF-wordMixup在软件实体识别任务中表现最优,其整体F1值达到87.5%,说明该模型能够有效地从学术论文文本中识别出软件及其相关信息实体。 展开更多
关键词 软件实体识别 命名实体识别 深度学习 数据增强 scibert
下载PDF
基于SciBERT与ChatGPT数据增强的研究流程段落识别 被引量:3
2
作者 张恒 赵毅 章成志 《情报理论与实践》 CSSCI 北大核心 2024年第1期164-172,153,共10页
[目的/意义]在阅读文献的过程中,研究流程是研究者需要特别关注的一个重要方面,自动识别学术文本中描述研究流程的段落对辅助文献阅读、学习研究设计等有着重要意义。[方法/过程]文章以自然语言处理领域为例,收集代表性会议论文构建数... [目的/意义]在阅读文献的过程中,研究流程是研究者需要特别关注的一个重要方面,自动识别学术文本中描述研究流程的段落对辅助文献阅读、学习研究设计等有着重要意义。[方法/过程]文章以自然语言处理领域为例,收集代表性会议论文构建数据集。分别基于传统机器学习模型、神经网络分类工具以及预训练语言模型构建分类器识别研究流程段落,然后对不同模型的分类效果进行评估,确定性能最优的模型。为进一步提升研究流程段落识别效果,在最优模型的基础上,基于ChatGPT进行了数据增强。[结果/结论]实验结果表明,在所有分类器中,SciBERT具有最好的研究流程段落识别效果。基于ChatGPT的数据增强可使SciBERT模型的分类性能进一步提高,最终准确率(Acc)和F_(1)值分别达到了0.9414和0.9409。 展开更多
关键词 学术文本 研究流程段落 文本分类 scibert ChatGPT数据增强
原文传递
基于SciBERT模型的引文上下文识别系统优化 被引量:2
3
作者 郭晨睿 王佳敏 +1 位作者 崔浩冉 武健 《情报工程》 2021年第5期3-14,共12页
[目的/意义]本文介绍一个用于从英文学术文献中提取显性引文句和隐性引文上下文的系统。该系统基于SmartCiteCon(SCC)系统对识别模型进行了优化,本文称该系统为SmartCiteCon2.0(SCC2.0)。[方法/过程]该系统的识别模型部分通过Python语... [目的/意义]本文介绍一个用于从英文学术文献中提取显性引文句和隐性引文上下文的系统。该系统基于SmartCiteCon(SCC)系统对识别模型进行了优化,本文称该系统为SmartCiteCon2.0(SCC2.0)。[方法/过程]该系统的识别模型部分通过Python语言编写,基于经过微调的SciBERT模型构建而成。该模型基于国际计算语言学协会(ACL)会议论文集中人工标注的27,832个引用上下文句子对进行训练,并以SCC系统使用的SVM模型作为对照组以验证效果。[结果/结论]实验结果表明,微调后的SciBERT模型的F1值为90%。相比仅使用句子对文本特征的SVM模型F1值提升了11%,相比于使用全部特征SVM模型的F1提升了3%。在该模型基础上,本文构建的SCC2.0系统开箱即用,支持PDF,以及符合特定标准的XML和JSON格式的学术文献。该API同时支持单文档处理和多文档并发处理,源代码发布于https://gitee.com/Lan_Tianchen/smart-cite-con。 展开更多
关键词 引文识别 隐性引文上下文 scibert 引文识别系统
下载PDF
基于混合深度学习模型的科技文献自动综述模型构建研究 被引量:5
4
作者 马浩 崔运鹏 《情报理论与实践》 CSSCI 北大核心 2021年第9期176-182,168,共8页
[目的/意义]在大数据时代,如何高效地进行科技文献知识组织与服务已成为图情领域的研究热点。因此,开展科技文献综述自动生成模型研究具有重要意义。[方法/过程]文章中,综述的自动构建分为两步:首先基于语步理论对输入文本的句子按语步... [目的/意义]在大数据时代,如何高效地进行科技文献知识组织与服务已成为图情领域的研究热点。因此,开展科技文献综述自动生成模型研究具有重要意义。[方法/过程]文章中,综述的自动构建分为两步:首先基于语步理论对输入文本的句子按语步类别进行识别与抽取,然后以各类语步的句子集为输入通过生成模型进行综述生成。研究分别基于SciBERT深度学习模型和Transformer网络构建了语步识别模型和综述文本生成模型。[结果/结论]语步抽取模型整体识别效果评价F1值达到87.12%,生成模型的生成效果与TextRank模型和BiLSTM模型相比在ROUGE-1、ROUGE-2和ROUGE-L三项评价指标上分别提高了4.5%、2.9%和3.3%。研究完成了科研文献综述自动生成任务的整体模型构建与实现。 展开更多
关键词 科技文献 自动综述 语步识别 深度学习模型 scibert
原文传递
融合ChatGPT数据增强的学术论文语步识别方法研究
5
作者 许钦亚 薛秋红 +2 位作者 钱力 刘会洲 刘鲁静 《图书情报工作》 CSSCI 北大核心 2024年第17期84-94,共11页
[目的/意义]学术论文的语步结构对读者深入理解内容和快速定位关键信息具有重要作用,本文旨在研究全文语步识别方法,以快速获取学术论文的核心内容,推动智能化的语义检索。[方法/过程]在当前语步识别方法方面的相关研究的基础上,提出一... [目的/意义]学术论文的语步结构对读者深入理解内容和快速定位关键信息具有重要作用,本文旨在研究全文语步识别方法,以快速获取学术论文的核心内容,推动智能化的语义检索。[方法/过程]在当前语步识别方法方面的相关研究的基础上,提出一种融合ChatGPT数据增强和预训练语言模型的细粒度语步识别模型SciBERT-HAMI模型。该模型利用原始文本,通过ChatGPT大模型进行语料扩充,以增加训练数据的多样性和数量;使用分层神经网络模型学习论文的“词—句—章节”语义特征表示,以捕捉不同层次的语义信息;将SciBERT的词嵌入表示作为输入,并使用分层神经网络模型与FocalLoss损失函数进行细粒度语步识别模型训练。[结果/结论]结合ChatGPT数据增强策略,SciBERT-HAMI-DA模型在CoreSC和AZ数据集的F1值分别为0.731和0.741,对比实验表明,所提模型在论文全文细粒度语步识别任务上性能得到有效提升,并通过消融实验验证数据增强和模型组件的有效性。融合预训练语言模型与ChatGPT数据增强,全文语步识别模型的预测效果得到有效提升,有助于推动学术研究的自动化与智能化。 展开更多
关键词 语步识别 ChatGPT 数据增强 scibert
原文传递
学术文献致谢功能数据集构建与识别方法研究 被引量:2
6
作者 王佳敏 吴乐艳 +3 位作者 李鹏程 熊资 陆伟 杜佳 《情报科学》 CSSCI 北大核心 2021年第11期173-179,共7页
【目的/意义】本文构建了一个大规模学术文献致谢功能数据集,并提出一种基于SciBERT的致谢功能识别模型,为致谢文本的挖掘和分析提供高质量的数据支持和有效的识别方法。【方法/过程】采用人工的方式扩展和完善致谢功能分类规则,生成学... 【目的/意义】本文构建了一个大规模学术文献致谢功能数据集,并提出一种基于SciBERT的致谢功能识别模型,为致谢文本的挖掘和分析提供高质量的数据支持和有效的识别方法。【方法/过程】采用人工的方式扩展和完善致谢功能分类规则,生成学术文献致谢功能自动标引规则模板,对1,750,275条致谢文本进行功能标引。在此基础上,采用SciBERT模型对致谢文本句进行向量表达,引入Softmax回归模型实现致谢功能自动分类,采用warmup策略进行模型调优,并与基准实验进行对比。【结果/结论】得到一个大规模、高质量的学术文献致谢功能数据集,经人工检验准确率达到93%;基于SciBERT的识别模型比基准模型表现更好,在扩展数据集上的F1值高于98%,在各个类别上的预测结果也有不同程度的提升。【创新/局限】致谢功能识别模型缺少对致谢文本独有特征的考虑和融合。 展开更多
关键词 致谢功能识别 scibert 文本分类 深度学习 学术文献
原文传递
基于AttentionSBGMC模型的引文情感和引文目的自动分类研究 被引量:5
7
作者 周文远 王名扬 井钰 《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第12期48-59,共12页
【目的】提出AttentionSBGMC深度学习模型,以提升引文情感和引文目的分类的性能。【方法】采用SciBERT预训练模型得到语料集中句子的语义表示向量,根据文本特点,依次通过BiGRU神经网络和多尺度卷积神经网络(Multi-CNN)提取句子中的时序... 【目的】提出AttentionSBGMC深度学习模型,以提升引文情感和引文目的分类的性能。【方法】采用SciBERT预训练模型得到语料集中句子的语义表示向量,根据文本特点,依次通过BiGRU神经网络和多尺度卷积神经网络(Multi-CNN)提取句子中的时序全局特征和局部关键特征,引入注意力机制对提取出的特征重新分配权重,达到突出关键特征的目的,最后通过线性层实现引文情感和引文目的自动分类。【结果】在Abu-Jbara数据集上,引文情感主客观、引文情感正负面、引文目的三项分类任务的F1值分别为86.74%、91.14%和84.92%;在Athar数据集上,引文情感主客观、引文情感正负面两项分类任务的F1值分别为88.50%和86.59%。【局限】鉴于公开的引文数据集的有限性,该模型仅在两个英文数据集上进行验证,在其他数据集上的泛化性能有待进一步验证。【结论】所提AttentionSBGMC深度学习模型能全面、有效地提取出语料文本中的重要特征,可以更为准确地实现引文情感和引文目的自动分类。 展开更多
关键词 引用情感分类 scibert 注意力机制 BiGRU Multi-CNN
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部