“人工智能驱动的科学研究”(AI for Science,AI4S)是一场正在发生的科技革命,是将人工智能技术与科学研究深度结合,帮助促进发现新知识、解决科学难题的新型科学研究范式。随着AI4S的研究推进,其发展脉络、机遇和挑战、需求和任务、实...“人工智能驱动的科学研究”(AI for Science,AI4S)是一场正在发生的科技革命,是将人工智能技术与科学研究深度结合,帮助促进发现新知识、解决科学难题的新型科学研究范式。随着AI4S的研究推进,其发展脉络、机遇和挑战、需求和任务、实现路径等问题值得进一步讨论。为此本刊邀请了7位专家组织了本期笔谈。1)支撑AI4S的知识服务:AI4S对当下的知识服务提出了更高的要求,包括多层次知识发现与获取需求;跨学科研究和创新需求;以用户为中心的参与式服务需求,使得知识服务场景向多元化,智能化,专业化,个性化转变。为此须重新定位AI4S环境中知识服务的新角色,明确其在全面支撑科技创新进程中的新任务,树立大文献观,兼顾普惠与专深,以支撑跨学科创新。2)建设AI4S的知识底座:人工智能的本质是知识的获取与利用,而科技文献则是人类知识的主要载体。中国科学院文献情报中心充分认识到AI带来的科研范式变革,提出了构建AI4S的科技文献知识底座的概念,积极挖掘科技文献中蕴含的科学知识和高质量数据,努力构建AI4S的领域智能知识底座,将“科技文献库”转变为“科技知识引擎”,支撑AI4S所需的查询循证、态势感知、推理预测、生成启示等智能化服务。3)驱动AI4S的科学数据:科学数据有效聚合为发挥AI4S的强大功能奠定了数据基础,是图书馆实现AI时代角色与功能变革的前提,是推动科研服务转型、深化科研支持、加速科技创新的必要条件。目前图书馆有效聚合科学数据为AI4S提供支撑仍面临宏观和中观上的诸多挑战,应对该挑战有以下实现路径:明确图书馆在科学数据管理中的角色与作用;营造科学数据管理环境;构建科学数据管理合作网络;提升科学数据管理服务能力。4)AI4S与古典文献智能语言模型:AI4S技术能够用于文献和文本的分析,更快速、更全面地理解大量的历史文献和文化资料。古典文献智能语言模型是人工智能技术在古籍文献研究领域的一项重要突破,为古典文献研究带来了新的机遇和挑战。随着多模态、生成式GPT模型的流行,AI4S情境下古典文献智能语言模型将更加注重整合多样信息、提高适应性、增强知识表示和服务于更广泛的应用场景。5)面向AI4S的图书馆数字学术服务:基于LLM的AI4S和AIGC推动智慧图书馆建设的理念不谋而合,给图书馆数字学术服务带来了机遇和挑战。基于AI4S平台化趋势与数字学术服务中台化特征适配,以及图书馆界长期服务科研工作的历史传统两大特点,其数字学术服务平台的再造路径,包括自主打造AI4S服务平台、购买和使用第三方的AI4S平台和作为科学智能组件的嵌入式知识服务再升级3种。6)AI4S的历史演化与逻辑结构:AI4S是人工智能技术充分应用到各学科领域主导的科学范式变革,其逻辑架构包括“数据+模型”驱动、通过机器猜想打造知识生态和通过算法思维延展应用场景。数智文明时代中,AI4S驱动科学进步与社会发展需要发扬科技向善价值观,有效选择AI4S延展应用到社会科学和人文科学领域的理论论证与方案,并完善人类决策与机器智能融合共建的系列机制。7)AI4S的发展机遇与展望:随着生成式人工智能的发展,预训练算法和预训练大模型为不同学科领域的AI4S带来了巨大机遇,在工业检测、机器人技术和医学等多个领域表现出了巨大的应用潜力和价值。此外,预训练大模型的技术实施条件局限、数据/计算资源的可持续发展、技术的透明性、公正性和可访问性等关键因素也值得重视。展开更多
随着深度学习的迅速发展和领域数据的快速积累,领域化的预训练模型在知识组织和挖掘中发挥了越来越重要的支撑作用。面向海量的中文政策文本,结合相应的预训练策略构建中文政策文本预训练模型,不仅有助于提升中文政策文本智能化处理的水...随着深度学习的迅速发展和领域数据的快速积累,领域化的预训练模型在知识组织和挖掘中发挥了越来越重要的支撑作用。面向海量的中文政策文本,结合相应的预训练策略构建中文政策文本预训练模型,不仅有助于提升中文政策文本智能化处理的水平,而且为政策文本数据驱动下的精细化和多维度分析与探究奠定了坚实的基础。面向国家级、省级和市级平台上的政策文本,通过自动抓取和人工辅助相结合的方式,在去除非政策文本的基础上,确定了131390份政策文本,总字数为305648206。面向所构建的中文政策文本语料库,基于BERT-base-Chinese和Chinese-RoBERTa-wwm-ext,本研究利用MLM(masked language model)和WWM(whole word masking)任务构建了中文政策文本预训练模型(ChpoBERT),并在Github上对该模型进行了开源。在困惑度评价指标和政策文本自动分词、词性自动标注、命名实体识别下游任务上,ChpoBERT系列模型均表现出了较优的性能,可为政策文本的智能知识挖掘提供领域化的基础计算资源支撑。展开更多
随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,...随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,从而促进学术文本挖掘研究的发展。本文以学术文本的不同结构功能为研究对象,以Journal of the Association for Information Science and Technology(JASIST)上发表的1579篇论文为数据集,进行双向长短时记忆神经网络、支持向量机和条件随机场三种模型上的预实验,并对比实验结果的性能,最终确定利用条件随机场模型做进一步探究。利用条件随机场模型,本文将学术文本结构功能识别问题转化为对句子单元的序列标注问题,寻找最优识别模型并探究不同特征对结构功能识别的影响,最终获得开放测试的调和平均值为92.88%的结构整体识别效果。实验结果表明,章节标题中词汇信息和章节内容的特征词汇信息对学术文本的功能结构识别起到巨大作用,可以达到令人满意的效果,而结构的长度特征则干扰条件随机场方法的性能。在最后,本文对学术文本结构功能识别出错原因进行总结,指出进一步探讨的问题和方向。展开更多
文摘“人工智能驱动的科学研究”(AI for Science,AI4S)是一场正在发生的科技革命,是将人工智能技术与科学研究深度结合,帮助促进发现新知识、解决科学难题的新型科学研究范式。随着AI4S的研究推进,其发展脉络、机遇和挑战、需求和任务、实现路径等问题值得进一步讨论。为此本刊邀请了7位专家组织了本期笔谈。1)支撑AI4S的知识服务:AI4S对当下的知识服务提出了更高的要求,包括多层次知识发现与获取需求;跨学科研究和创新需求;以用户为中心的参与式服务需求,使得知识服务场景向多元化,智能化,专业化,个性化转变。为此须重新定位AI4S环境中知识服务的新角色,明确其在全面支撑科技创新进程中的新任务,树立大文献观,兼顾普惠与专深,以支撑跨学科创新。2)建设AI4S的知识底座:人工智能的本质是知识的获取与利用,而科技文献则是人类知识的主要载体。中国科学院文献情报中心充分认识到AI带来的科研范式变革,提出了构建AI4S的科技文献知识底座的概念,积极挖掘科技文献中蕴含的科学知识和高质量数据,努力构建AI4S的领域智能知识底座,将“科技文献库”转变为“科技知识引擎”,支撑AI4S所需的查询循证、态势感知、推理预测、生成启示等智能化服务。3)驱动AI4S的科学数据:科学数据有效聚合为发挥AI4S的强大功能奠定了数据基础,是图书馆实现AI时代角色与功能变革的前提,是推动科研服务转型、深化科研支持、加速科技创新的必要条件。目前图书馆有效聚合科学数据为AI4S提供支撑仍面临宏观和中观上的诸多挑战,应对该挑战有以下实现路径:明确图书馆在科学数据管理中的角色与作用;营造科学数据管理环境;构建科学数据管理合作网络;提升科学数据管理服务能力。4)AI4S与古典文献智能语言模型:AI4S技术能够用于文献和文本的分析,更快速、更全面地理解大量的历史文献和文化资料。古典文献智能语言模型是人工智能技术在古籍文献研究领域的一项重要突破,为古典文献研究带来了新的机遇和挑战。随着多模态、生成式GPT模型的流行,AI4S情境下古典文献智能语言模型将更加注重整合多样信息、提高适应性、增强知识表示和服务于更广泛的应用场景。5)面向AI4S的图书馆数字学术服务:基于LLM的AI4S和AIGC推动智慧图书馆建设的理念不谋而合,给图书馆数字学术服务带来了机遇和挑战。基于AI4S平台化趋势与数字学术服务中台化特征适配,以及图书馆界长期服务科研工作的历史传统两大特点,其数字学术服务平台的再造路径,包括自主打造AI4S服务平台、购买和使用第三方的AI4S平台和作为科学智能组件的嵌入式知识服务再升级3种。6)AI4S的历史演化与逻辑结构:AI4S是人工智能技术充分应用到各学科领域主导的科学范式变革,其逻辑架构包括“数据+模型”驱动、通过机器猜想打造知识生态和通过算法思维延展应用场景。数智文明时代中,AI4S驱动科学进步与社会发展需要发扬科技向善价值观,有效选择AI4S延展应用到社会科学和人文科学领域的理论论证与方案,并完善人类决策与机器智能融合共建的系列机制。7)AI4S的发展机遇与展望:随着生成式人工智能的发展,预训练算法和预训练大模型为不同学科领域的AI4S带来了巨大机遇,在工业检测、机器人技术和医学等多个领域表现出了巨大的应用潜力和价值。此外,预训练大模型的技术实施条件局限、数据/计算资源的可持续发展、技术的透明性、公正性和可访问性等关键因素也值得重视。
文摘随着深度学习的迅速发展和领域数据的快速积累,领域化的预训练模型在知识组织和挖掘中发挥了越来越重要的支撑作用。面向海量的中文政策文本,结合相应的预训练策略构建中文政策文本预训练模型,不仅有助于提升中文政策文本智能化处理的水平,而且为政策文本数据驱动下的精细化和多维度分析与探究奠定了坚实的基础。面向国家级、省级和市级平台上的政策文本,通过自动抓取和人工辅助相结合的方式,在去除非政策文本的基础上,确定了131390份政策文本,总字数为305648206。面向所构建的中文政策文本语料库,基于BERT-base-Chinese和Chinese-RoBERTa-wwm-ext,本研究利用MLM(masked language model)和WWM(whole word masking)任务构建了中文政策文本预训练模型(ChpoBERT),并在Github上对该模型进行了开源。在困惑度评价指标和政策文本自动分词、词性自动标注、命名实体识别下游任务上,ChpoBERT系列模型均表现出了较优的性能,可为政策文本的智能知识挖掘提供领域化的基础计算资源支撑。
文摘随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,从而促进学术文本挖掘研究的发展。本文以学术文本的不同结构功能为研究对象,以Journal of the Association for Information Science and Technology(JASIST)上发表的1579篇论文为数据集,进行双向长短时记忆神经网络、支持向量机和条件随机场三种模型上的预实验,并对比实验结果的性能,最终确定利用条件随机场模型做进一步探究。利用条件随机场模型,本文将学术文本结构功能识别问题转化为对句子单元的序列标注问题,寻找最优识别模型并探究不同特征对结构功能识别的影响,最终获得开放测试的调和平均值为92.88%的结构整体识别效果。实验结果表明,章节标题中词汇信息和章节内容的特征词汇信息对学术文本的功能结构识别起到巨大作用,可以达到令人满意的效果,而结构的长度特征则干扰条件随机场方法的性能。在最后,本文对学术文本结构功能识别出错原因进行总结,指出进一步探讨的问题和方向。