-
题名基于SciBERT模型的引文上下文识别系统优化
被引量:2
- 1
-
-
作者
郭晨睿
王佳敏
崔浩冉
武健
-
机构
武汉大学信息管理学院
欧道明大学计算机科学系
-
出处
《情报工程》
2021年第5期3-14,共12页
-
文摘
[目的/意义]本文介绍一个用于从英文学术文献中提取显性引文句和隐性引文上下文的系统。该系统基于SmartCiteCon(SCC)系统对识别模型进行了优化,本文称该系统为SmartCiteCon2.0(SCC2.0)。[方法/过程]该系统的识别模型部分通过Python语言编写,基于经过微调的SciBERT模型构建而成。该模型基于国际计算语言学协会(ACL)会议论文集中人工标注的27,832个引用上下文句子对进行训练,并以SCC系统使用的SVM模型作为对照组以验证效果。[结果/结论]实验结果表明,微调后的SciBERT模型的F1值为90%。相比仅使用句子对文本特征的SVM模型F1值提升了11%,相比于使用全部特征SVM模型的F1提升了3%。在该模型基础上,本文构建的SCC2.0系统开箱即用,支持PDF,以及符合特定标准的XML和JSON格式的学术文献。该API同时支持单文档处理和多文档并发处理,源代码发布于https://gitee.com/Lan_Tianchen/smart-cite-con。
-
关键词
引文识别
隐性引文上下文
SciBERT
引文识别系统
-
Keywords
Citation recognition
implicit citation context
SciBERT
citation recognition system
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
G35
[文化科学—情报学]
-