期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于引文上下文的学术文本自动摘要技术研究 被引量:4
1
作者 陈海华 黄永 +1 位作者 张炯 陆伟 《数字图书馆论坛》 CSSCI 2016年第8期43-49,共7页
学术文本自动摘要是指对于给定学术文献,自动地抽取其核心内容,以提高用户撰写和阅读文献的效率。目前基于文本词频对句子重要性排序的自动摘要技术,无法从语义层面揭示学术文本的核心内容。本文在已有研究的基础上,引入引文上下文内容... 学术文本自动摘要是指对于给定学术文献,自动地抽取其核心内容,以提高用户撰写和阅读文献的效率。目前基于文本词频对句子重要性排序的自动摘要技术,无法从语义层面揭示学术文本的核心内容。本文在已有研究的基础上,引入引文上下文内容特征,并通过构建支持向量回归模型,综合考虑自动摘要系统中的各个特征对句子权重的影响,重新对句子重要性进行排序。基于WE-ROUGE的评测表明,相比于传统基于词频统计和图模型的方法,本文提出的算法能够有效提升自动摘要的准确度。 展开更多
关键词 文本自动摘要 引文上下文 支持向量回归 词向量
下载PDF
基于引文上下文的相关研究辅助生成系统设计与实现 被引量:2
2
作者 王鑫 程齐凯 +1 位作者 李信 陆伟 《数字图书馆论坛》 CSSCI 2017年第8期16-23,共8页
本文对学术文本引文上下文的定义及其识别研究进展进行梳理,考虑科研人员在相关研究撰写过程中或期刊编辑在审稿过程中的特定信息需求,探讨基于引文上下文辅助生成相关研究章节的可行性。在此基础上,对基于引文上下文的相关研究辅助生... 本文对学术文本引文上下文的定义及其识别研究进展进行梳理,考虑科研人员在相关研究撰写过程中或期刊编辑在审稿过程中的特定信息需求,探讨基于引文上下文辅助生成相关研究章节的可行性。在此基础上,对基于引文上下文的相关研究辅助生成系统的系统思路、功能模块进行设计,并以Science Direct数据库在1957—2014年收录的289 926篇计算机领域的科研文献全文网页数据作为数据源,实现相关研究辅助生成系统RWGS。结果表明,RWGS可较好满足科研人员在撰写相关研究章节或期刊编辑在审稿时更细粒度的信息需求,对传统学术数据库的检索结果有一定优化效果,同时将文献检索、文献阅读和相关研究写作三个过程有机地整合,有效改善系统用户体验,提升学术创作效率。 展开更多
关键词 相关研究 辅助生成系统 引文上下文 计算机领域
下载PDF
基于BERT和引文上下文的文献表征与检索方法研究 被引量:10
3
作者 牛海波 赵丹群 郭倩影 《情报理论与实践》 CSSCI 北大核心 2020年第9期125-131,共7页
[目的/意义]文章提出了一种新的基于BERT和引文上下文的文献向量表征方法,旨在有效实现对文献的语义表征及检索。[方法/过程]基于arXiv数据库中"计算语言学"领域的相关文献数据,利用引文上下文将被引文献映射到全局唯一ID,构... [目的/意义]文章提出了一种新的基于BERT和引文上下文的文献向量表征方法,旨在有效实现对文献的语义表征及检索。[方法/过程]基于arXiv数据库中"计算语言学"领域的相关文献数据,利用引文上下文将被引文献映射到全局唯一ID,构造包含施引文献引文上下文和被引文献ID的训练语料,通过BERT预训练模型开展训练,将施引文献引文上下文与被引文献ID表征在同一向量空间,进而实现语义计算和检索。[结果/结论]与基于文献全文开展的文献检索方式相比,基于BERT和引文上下文的文献检索方法能够隐含编码被引文献引用强度、被引文献核心概念等关键信息,从而能够更好地表征被引文献。随后,文章开展了语义检索和相似文献发掘实验,结果证明该检索方法切实有效。 展开更多
关键词 引文上下文 BERT 文献表征 语义检索 文献关系挖掘
原文传递
数字人文研究领域的知识网络演化——基于题录信息和引文上下文的关键词共词分析 被引量:18
4
作者 许鑫 陈路遥 杨佳颖 《情报学报》 CSSCI CSCD 北大核心 2019年第3期322-334,共13页
数字人文作为新兴领域,厘清来龙去脉将有助于夯实研究基础。在关注到引文文本的价值并未被充分利用后,本文融合了文献集与引文文本集的关键词共现网络,通过"吸收—形成—被吸收—扩散"的演化过程,观察数字人文领域的研究热点... 数字人文作为新兴领域,厘清来龙去脉将有助于夯实研究基础。在关注到引文文本的价值并未被充分利用后,本文融合了文献集与引文文本集的关键词共现网络,通过"吸收—形成—被吸收—扩散"的演化过程,观察数字人文领域的研究热点的发展路径,挖掘数字领域的潜在价值点。研究发现,数字人文领域的研究脉络在不断细分和深化,其中史学相关研究集中度较高,有专深化的倾向;社交媒体相关研究则是未来繁荣的趋势所在。 展开更多
关键词 知识网络 数字人文 引文上下文 融合网络
下载PDF
基于SciBERT模型的引文上下文识别系统优化 被引量:2
5
作者 郭晨睿 王佳敏 +1 位作者 崔浩冉 武健 《情报工程》 2021年第5期3-14,共12页
[目的/意义]本文介绍一个用于从英文学术文献中提取显性引文句和隐性引文上下文的系统。该系统基于SmartCiteCon(SCC)系统对识别模型进行了优化,本文称该系统为SmartCiteCon2.0(SCC2.0)。[方法/过程]该系统的识别模型部分通过Python语... [目的/意义]本文介绍一个用于从英文学术文献中提取显性引文句和隐性引文上下文的系统。该系统基于SmartCiteCon(SCC)系统对识别模型进行了优化,本文称该系统为SmartCiteCon2.0(SCC2.0)。[方法/过程]该系统的识别模型部分通过Python语言编写,基于经过微调的SciBERT模型构建而成。该模型基于国际计算语言学协会(ACL)会议论文集中人工标注的27,832个引用上下文句子对进行训练,并以SCC系统使用的SVM模型作为对照组以验证效果。[结果/结论]实验结果表明,微调后的SciBERT模型的F1值为90%。相比仅使用句子对文本特征的SVM模型F1值提升了11%,相比于使用全部特征SVM模型的F1提升了3%。在该模型基础上,本文构建的SCC2.0系统开箱即用,支持PDF,以及符合特定标准的XML和JSON格式的学术文献。该API同时支持单文档处理和多文档并发处理,源代码发布于https://gitee.com/Lan_Tianchen/smart-cite-con。 展开更多
关键词 引文识别 隐性引文上下文 SciBERT 引文识别系统
下载PDF
引文上下文在文献内容分析中的信息价值研究 被引量:13
6
作者 刘洋 崔雷 《图书情报工作》 CSSCI 北大核心 2014年第6期101-104,共4页
以引文上下文为研究对象,探讨来自于引文上下文、目标文献摘要以及目标文献自标医学主题词(下称主题词)三者间的符合程度,定量分析引文上下文在表征目标文献内容特征时的作用。以被Circulation杂志高频引证的5篇研究类论文作为目标文献... 以引文上下文为研究对象,探讨来自于引文上下文、目标文献摘要以及目标文献自标医学主题词(下称主题词)三者间的符合程度,定量分析引文上下文在表征目标文献内容特征时的作用。以被Circulation杂志高频引证的5篇研究类论文作为目标文献,提取其施引文献的全部引文上下文,并对其进行分词及主题词匹配;将其结果与目标文献摘要提取的主题词以及文献自标的主题词进行两两比较。结果表明,引文上下文与目标文献摘要具有较高的符合度,而且在表征被引文献内容特征的效果上明显具有优势。 展开更多
关键词 引文上下文 信息价值 信息分析 文本挖掘 信息抽取
原文传递
引文上下文在文献内容分析中的应用 被引量:5
7
作者 刘洋 崔雷 《情报科学》 CSSCI 北大核心 2015年第5期81-84,118,共5页
引文上下文可用于识别引文的本质以及分析施引和被引文献间的关系。讨论了引文上下文研究的兴起及其在文献内容分析中的应用价值和意义;梳理了相关研究方向,主要包括引文上下文的数据处理、引证动机分类、自动生成目标文献摘要、扩展标... 引文上下文可用于识别引文的本质以及分析施引和被引文献间的关系。讨论了引文上下文研究的兴起及其在文献内容分析中的应用价值和意义;梳理了相关研究方向,主要包括引文上下文的数据处理、引证动机分类、自动生成目标文献摘要、扩展标引用词以改善检索效果等;提出了相关研究中在引文上下文的识别与提取、范围标准确定、文本分词等标准和方法上的关键性问题;总结了相关研究的进展状况和存在的问题,并对未来发展进行了展望。 展开更多
关键词 引文上下文 文本挖掘 信息分析技术
原文传递
学术文献引文上下文自动识别研究 被引量:20
8
作者 雷声伟 陈海华 +1 位作者 黄永 陆伟 《图书情报工作》 CSSCI 北大核心 2016年第17期78-87,共10页
[目的 /意义]引文内容分析能够帮助揭示文献引用关系的深层语义内涵,而引文上下文识别作为引文内容分析的基础显得尤为重要。[方法 /过程]梳理已有引文上下文研究的现状,总结当前引文上下文识别的不足,在此基础上归纳引文上下文识别的5... [目的 /意义]引文内容分析能够帮助揭示文献引用关系的深层语义内涵,而引文上下文识别作为引文内容分析的基础显得尤为重要。[方法 /过程]梳理已有引文上下文研究的现状,总结当前引文上下文识别的不足,在此基础上归纳引文上下文识别的5类特征,并采用文本分类和序列标注两种方法开展引文上下文自动识别实验。[结果 /结论]实验结果表明,本文提出的特征能够很好地提升引文上下文识别效果,且基于文本分类的SVM分类效果要优于基于序列标注的CRF。 展开更多
关键词 引文上下文 引文内容分析 支持向量机 条件随机场 隐式上下文
原文传递
数字人文研究领域的知识图谱构建与分析——基于WoS文献关键词和引文上下文的实证 被引量:7
9
作者 许鑫 陈路遥 杨佳颖 《图书情报工作》 CSSCI 北大核心 2019年第7期86-95,共10页
[目的/意义]引文是施引文献与被引成果的纽带,反映了后继者的借鉴和肯定。本研究在传统题录关键词网络的基础上,创新地将引文上下文关键词作为研究材料,所构建知识图谱不仅能揭示文献主题的深层次信息,也能够反映受众主观筛选和利用文... [目的/意义]引文是施引文献与被引成果的纽带,反映了后继者的借鉴和肯定。本研究在传统题录关键词网络的基础上,创新地将引文上下文关键词作为研究材料,所构建知识图谱不仅能揭示文献主题的深层次信息,也能够反映受众主观筛选和利用文献的知识过程。[方法/过程]选取数字人文为研究领域,获取3个文献集和两个引文文本集,构建两个无向的关键词共现网络和两个有向的基于文献引证的关键词网络。通过共现网络,观察数字人文领域知识的吸收与扩散;通过引证关键词网络,观察数字人文的形成与转化。[结果/结论]研究揭示数字人文的研究重点、核心领域与核心技术,从受众的角度为数字人文领域未来研究提供借鉴和参考。 展开更多
关键词 知识图谱 数字人文 引文上下文 关键词网络 可视化
原文传递
古籍引书上下文自动识别研究——以注疏文献为例 被引量:8
10
作者 周好 王东波 黄水清 《情报理论与实践》 CSSCI 北大核心 2021年第9期169-175,共7页
古籍引书中埋藏着中华传统文化传承的脉络与线索,为更进一步揭示古籍中的知识体系,对引书中的具体引用内容进行分析势在必行,而从大量的古籍文本中准确识别出引书的上下文是进行上述研究的基础。文章旨在自动识别引书的上下文,并以《论... 古籍引书中埋藏着中华传统文化传承的脉络与线索,为更进一步揭示古籍中的知识体系,对引书中的具体引用内容进行分析势在必行,而从大量的古籍文本中准确识别出引书的上下文是进行上述研究的基础。文章旨在自动识别引书的上下文,并以《论语注疏》《毛诗正义》《春秋左传正义》三部古籍文本为数据集。引书上下文识别主要基于深度学习的方法,在人工标注的基础上,分别基于文本分类和序列标注两种方法,使用CRF、Bi-LSTM、SVM和BERT四种模型进行实验并得到引书上下文自动识别结果。实验结果表明,在整体引书上下文识别任务上,Bi-LSTM模型表现最佳,调和平均值为68.70%;在各个类别标签的识别中,BERT模型的效果最好。其中,引文句的综合识别结果的调和平均值达到90.69%。 展开更多
关键词 引书 引文上下文 文本分类 深度学习 自动识别 数字人文
原文传递
词汇位置功能视角下的交叉领域知识生长研究 被引量:1
11
作者 操玉杰 王施运 +1 位作者 毛进 李纲 《情报学报》 CSSCI CSCD 北大核心 2023年第4期393-406,共14页
挖掘记载科学知识的交叉领域文献,可以探究交叉领域形成和发展中的知识流动和知识创造规律。本文依据词汇在交叉领域文献中的位置功能,提出了“文献空间观”和交叉领域知识生长过程模型,包括知识吸纳、知识内化和知识创新三大环节,进而... 挖掘记载科学知识的交叉领域文献,可以探究交叉领域形成和发展中的知识流动和知识创造规律。本文依据词汇在交叉领域文献中的位置功能,提出了“文献空间观”和交叉领域知识生长过程模型,包括知识吸纳、知识内化和知识创新三大环节,进而构建一种全文本分析方法框架实现对交叉领域知识生长过程的量化分析。以生物信息学领域作为案例开展了实证分析,研究结果发现,知识内化与知识吸纳高度相关,数量差距约6倍,但变化趋势相同;领域知识创新第一次高峰出现时间晚于知识吸纳和内化4年左右;随着学科不断成熟,即时内化率保持相对稳定,总内化率降低,新增吸纳知识的内化时滞降低,内化知识激发知识创新的效率越来越高。本文所提出的面向交叉领域知识生长的全文本分析方法框架,能够丰富学术文献全文本内容分析方法体系。 展开更多
关键词 领域分析 知识计量 全文本分析 引文上下文 跨学科研究
下载PDF
基于被引片段识别的科技文摘综述 被引量:1
12
作者 李纲 徐健 +1 位作者 余辉 马亚雪 《现代情报》 CSSCI 北大核心 2017年第9期171-176,共6页
[目的 /意义]基于被引片段识别的科技文摘生成是文献计量学、信息检索和自然语言处理等领域共同关注的研究问题。通过梳理相关成果,可为后续研究提供借鉴。[方法 /过程]本文首先介绍被引片段概念,进而从被引片段识别与分类、文摘生成与... [目的 /意义]基于被引片段识别的科技文摘生成是文献计量学、信息检索和自然语言处理等领域共同关注的研究问题。通过梳理相关成果,可为后续研究提供借鉴。[方法 /过程]本文首先介绍被引片段概念,进而从被引片段识别与分类、文摘生成与评价等步骤对相关研究进行综述。[结果 /结论 ]当前被引片段识别总体上可以分为机器学习和检索两类,分面判定还存在标准不一致的问题,摘要生成与评估方法相关研究较欠缺。 展开更多
关键词 被引片段 科技摘要 引文上下文
下载PDF
学术文献引文推荐研究进展 被引量:11
13
作者 陈海华 孟睿 陆伟 《图书情报工作》 CSSCI 北大核心 2015年第15期133-143,147,共12页
[目的/意义]学术文献引文推荐是指对于给定的学术文献,自动化地为其推荐合适的引文和参考文献。借助于引文推荐,用户可以在一定程度上提高撰写学术文献的效率,降低对重要相关文献的漏引。[方法/过程]分析国内外引文推荐研究的最新进展,... [目的/意义]学术文献引文推荐是指对于给定的学术文献,自动化地为其推荐合适的引文和参考文献。借助于引文推荐,用户可以在一定程度上提高撰写学术文献的效率,降低对重要相关文献的漏引。[方法/过程]分析国内外引文推荐研究的最新进展,阐述引文推荐问题的演化过程,从局部引文推荐和全局引文推荐等方面对引文推荐进行梳理,重点归纳文档相似性、主题模型、翻译模型、协同过滤和混合推荐等5种引文推荐常用方法,并总结引文推荐常用数据集和测评方法。[结果/结论]已有引文推荐研究的主要问题在于未考虑用户偏好的动态变化性及研究领域的综合性,在用户研究和实际应用方面仍有所欠缺;未来引文推荐的研究可运用语义化表达方法和自然语言生成技术,从基于上下文的引文推荐和跨语言引文推荐等方面进行展开。 展开更多
关键词 引文推荐 引文推荐分类 引文推荐方法 引文上下文
原文传递
基于指代消解的引文内容抽取研究
14
作者 谭荧 唐亦非 《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第8期25-33,共9页
【目的】为改善手动或简单的引文提取方法,提高引文内容分析效果,应精确抽取引文内容。【方法】将引文内容抽取任务具体分为引文句、引文上下文、引文元数据三部分,基于指代消解理论,利用机器学习和层次过滤法对引文上下文进行抽取。【... 【目的】为改善手动或简单的引文提取方法,提高引文内容分析效果,应精确抽取引文内容。【方法】将引文内容抽取任务具体分为引文句、引文上下文、引文元数据三部分,基于指代消解理论,利用机器学习和层次过滤法对引文上下文进行抽取。【结果】实验数据收集了顺序编码制的中文期刊文献,结果证实该方法抽取引文句并解析参考文献结果正确无误,识别引文上下文的F1值为0.780~0.849。【局限】缺乏中文科学引文语料资源,实验数据选择人工标注小规模数据集,跨域能力有限,不可避免存在文本领域依赖的缺陷。【结论】本研究能够优化和扩大引文内容分析的步骤和范围,为使用引文内容分析法的相关研究者提供参考。 展开更多
关键词 信息抽取 指代消解 引文内容 引文上下文
原文传递
文献被引片段特征分析与识别研究 被引量:6
15
作者 徐健 李纲 +1 位作者 毛进 叶光辉 《数据分析与知识发现》 CSSCI CSCD 2017年第11期37-45,共9页
【目的】对科技文献领域的被引片段概念的特征进行分析,并比较不同识别方法效果的差异。【方法】以CL-Sci Summ 2016比赛被引片段标注数据为例,探索被引片段长度、位置与重要性特征,并分析与其对应引文上下文在长度和位置上的相关性。... 【目的】对科技文献领域的被引片段概念的特征进行分析,并比较不同识别方法效果的差异。【方法】以CL-Sci Summ 2016比赛被引片段标注数据为例,探索被引片段长度、位置与重要性特征,并分析与其对应引文上下文在长度和位置上的相关性。之后以基于词袋模型、主题模型、Word Net语义词典的相似性算法为例,比较这些方法在被引片段识别中的效果差异。【结果】研究结果发现:被标注的被引片段有96%少于三句,且更多地出现在文章前部和章节内的前部分,被引片段的Text Rank权重均值显著高于其他片段;被引片段与引文上下文在长度上显著相关,但在出现位置上相关性不明显;无论从MMR?还是句子与词汇层面的匹配度来看,基于词袋模型的识别方法效果均优于基于语义词典的方法,而后者明显优于基于主题模型的方法。【局限】对于被引片段概念与特性的分析只停留在理论层面,对其特征的分析与有关识别方法的比较也只是在CL-Sci Summ 2016被引片段标注数据上进行的。【结论】科技文献的用词比较规范严谨,所以词汇特征在被引片段的识别过程中起到关键的作用。 展开更多
关键词 被引片段 识别方法 引文上下文 引用对象
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部