不同自然语言处理方法在土壤环境污染调查报告文本信息抽取中的对比研究

Comparative Study of Different Natural Language Processing Methods in the Information Extraction from Soil Environment Investigation Reports

下载PDF

导出

摘要土壤环境污染调查报告中包含着丰富的土壤环境、污染源、迁移途径和受体等信息,但是这些非结构化类型的数据很难直接使用,需要先进行文本信息抽取,以供后续进一步分析处理.本研究针对土壤环境污染调查报告文本信息抽取的技术难点,分别采用传统规则匹配方法、BERT模型和GPT模型的自然语言处理(NLP)方法,进行文本信息抽取,并对其抽取效果进行评价.结果表明:GPT模型的抽取准确率、召回率和F1分数分别达到97.80%、84.43%和90.62%,相比于传统规则匹配方法分别提高了86.70%、299.12%和200.70%,相比于BERT模型分别提高了18.10%、154.21%和91.15%.进一步分析发现,虽然GPT模型在文本要素信息抽取中具有一定优势,但是规则匹配方法简单易用且部分要素抽取效率较高;同时,通过增加训练样本量及优化标注和模型参数等手段,BERT模型有较大的提升空间,因此,针对土壤环境污染调查报告中不同文本要素标签,可以采用合适的NLP方法,以兼顾文本信息抽取效率与精度. The soil environment investigation reports contain ample information,such as soil environmental background,pollution sources,migration pathways,and sensitive receptors.However,as typical unstructured data,these reports are difficult to use directly and must be processed using information extraction approaches to get focused information for the management of contaminated sites.Focusing on the issues of information extraction from soil environment investigation reports,based on natural language processing(NLP)methods,we compared traditional rule-based matching method,BERT pre-trained language model,and the autoregressive language model GPT(specifically ChatGPT)and evaluated the performance of different methods.The results showed that the GPT model achieved high extraction performance,with accuracy,recall and F1 scores of 97.80%,84.43%and 90.62%,respectively.Compared with the traditional rule-based matching method,the scores were improved by 86.70%,299.12%and 200.70%,respectively.Compared with the BERT pretrained language model,the scores were improved by 18.10%,154.21%and 91.15%,respectively.Through further analyses and discussion,it was found that although the GPT model had certain advantages in text information extraction,the rule-based matching method was simple and could efficiently extracted some text elements.Meanwhile,the BERT model can be greatly improved by increasing training samples and optimizing the labels and model parameters.Thus,for different text element labels in soil environment reports,suitable NLP methods can be used to balance the efficiency and accuracy of text information extraction.

作者孙维维潘贤章刘杰郭观林李衍王娟项钰王睿 SUN Weiwei;PAN Xianzhang;LIU Jie;GUO Guanlin;LI Yan;WANG Juan;XIANG Yu;WANG Rui(State Key Laboratory of Soil and Sustainable Agriculture,Institute of Soil Science,Chinese Academy of Sciences,Nanjing 210008,China;University of Chinese Academy of Sciences,Beijing 100049,China;Technical Centre for Ecology and Environment of Soil,Agriculture and rural Areas,Ministry of Ecology and Environment,Beijing 100012,China;Iflytek Intelligent System Co.,Ltd.,Hefei 230088,China)

机构地区中国科学院南京土壤研究所中国科学院大学生态环境部土壤与农业农村生态环境监管技术中心讯飞智元信息科技有限公司

出处《环境科学研究》 CAS CSCD 北大核心 2024年第3期607-615,共9页 Research of Environmental Sciences

基金国家重点研发计划项目(No.2020YFC1807401) 中国科学院土壤环境与污染修复重点实验室开放基金课题(No.SEPR2020-10)。

关键词文本要素抽取 BERT模型 GPT模型污染地块土壤环境污染调查报告 text feature extraction BERT model GPT model contaminated sites investigation reports on soil environmental pollution

分类号 X323 [环境科学与工程—环境工程]

引文网络
相关文献

参考文献20

1武文培,陈梦舫,韩璐,顾明月,陈雪艳,龚泽瀚,李婧.基于统计方法学的焦化类污染场地风险筛选决策研究[J].环境科学研究,2022,35(12):2819-2829. 被引量：3
2郭书海,吴波,张玲妍,罗明.土壤环境大数据:构建与应用[J].中国科学院院刊,2017,32(2):202-208. 被引量：14
3余勤飞,侯红,许亚飞,白中科,李发生.基于数据库的污染场地流程管理初步设计[J].环境污染与防治,2013,35(8):39-44. 被引量：4
4余勤飞,侯红,白中科,李发生.中国污染场地国家分类体系框架构建[J].农业工程学报,2013,29(12):228-234. 被引量：23
5WANG De-sheng,LIU Jun-zhi,ZHU A-xing,WANG Shu,ZENG Can-ying,MA Tianwu.Automatic extraction and structuration of soil–environment relationship information from soil survey reports[J].Journal of Integrative Agriculture,2019,18(2):328-339. 被引量：8
6王新秀,涂晨,张红振,高猛.污染场地修复决策支持系统的设计与实现[J].环境科学与技术,2015,38(11):252-257. 被引量：3
7化柏林.针对中文学术文献的情报方法术语抽取[J].现代图书情报技术,2013(6):68-75. 被引量：30
8邹洋杰,李秀霞,王晓璎.基于知识元抽取的不同学科领域研究方法交流态势分析——以情报学与计算机科学学为例[J].情报杂志,2023,42(7):154-160. 被引量：2
9张成洪,肖军建,张诚.Web内容抽取及其数据管理方法[J].复旦学报（自然科学版）,2001,40(2):177-183. 被引量：16
10张雪,孙宏宇,辛东兴,李翠平,陈红.自动术语抽取研究综述[J].软件学报,2020,31(7):2062-2094. 被引量：20

二级参考文献182

1马费成,张帅.我国图书情报领域新兴交叉学科发展探析[J].中国图书馆学报,2023,49(2):4-14. 被引量：7
2李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：48
3陈桥,胡克,王建国,李福来.矿山土地污染危害及污染源探讨[J].国土资源科技管理,2004,21(4):50-53. 被引量：21
4杜波,田怀凤,王立,陆汝占.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160. 被引量：26
5刘志全,石利利.英国的污染土地风险管理与修复技术[J].环境保护,2005,33(10):69-73. 被引量：11
6陈鸿汉,谌宏伟,何江涛,刘菲,沈照理,韩冰,孙静.污染场地健康风险评价的理论和方法[J].地学前缘,2006,13(1):216-223. 被引量：156
7徐涛,蔡鸿明,姜丽红.BPM系统的自动层架构设计——面向流程的、可视化开发的EAI技术[J].计算机工程与应用,2006,42(5):91-93. 被引量：4
8潘幼乔,邓小昭,刘丽.关于情报学专门研究方法的思考[J].图书情报工作,2006,50(6):55-57. 被引量：13
9姜韶华,党延忠.无词典中英文混合术语抽取及算法研究[J].情报学报,2006,25(3):301-305. 被引量：2
10梁健,吴丹.种子概念方法及其在基于文本的本体学习中的应用[J].图书情报工作,2006,50(9):18-21. 被引量：13

共引文献281

1丁美荣,冯伟森,黄荣翔,罗嘉俊.基于预训练模型和基础词典扩展的酒店评论情感分析[J].计算机系统应用,2022,31(11):296-308. 被引量：3
2曹艳琴.基于深度学习的英语自然语言处理系统[J].系统仿真技术,2021,17(4):285-288. 被引量：1
3赵梓博,王昊,刘友华,张卫,孟镇.多任务环境下融合迁移学习的新冠疫情新闻要素识别研究[J].知识管理论坛,2021(1):2-13. 被引量：1
4步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
5张重毅,牛欣悦,孙君艳,祁丽娟,方梅.ChatGPT探析:AI大型语言模型下学术出版的机遇与挑战[J].中国科技期刊研究,2023,34(4):446-453. 被引量：10
6李小军.多要素场地环境大数据管理平台建设的方法概述[J].城市建设理论研究（电子版）,2023(10):152-154.
7周霜菊,孙济庆.基于Agent的Web知识过滤器设计[J].计算机与数字工程,2005,33(3):85-89.
8潘惠勇,高丽平,薛惠忠.基于逻辑定义的Web信息抽取与集成[J].中原工学院学报,2005,16(2):53-56.
9陆伟,寇广增,魏泉.Web环境下的内容抽取及RSS发布[J].情报杂志,2005,24(9):5-6. 被引量：6
10李禹生,周建中.基于HTML的W eb信息元数据提取技术应用[J].武汉工业学院学报,2005,24(4):7-10. 被引量：4

1赵秀梅.浅析涉外保函在国际业务中的应用和风险管控[J].知识经济,2024(9):97-99.
2郭建飞,许德金.从共生叙事到叙事共同体的文本-类文本共生叙事诗学构建——许德金教授访谈录[J].广东外语外贸大学学报,2024,35(2):12-21.
3高峰,杨佳欣,顾进广.结合规则学习与深度学习的诊疗关系抽取[J].计算机应用与软件,2024,41(3):56-62.
4张登峰,孙建伟.熊耳山矿集区小河流域水体及底泥重金属污染评价[J].矿产综合利用,2024,45(1):109-119.

环境科学研究

2024年第3期

浏览历史

内容加载中请稍等...

不同自然语言处理方法在土壤环境污染调查报告文本信息抽取中的对比研究

参考文献20

二级参考文献182

共引文献281

相关作者

相关机构

相关主题

浏览历史