基于BERT和TF-IDF的问答社区问句自动标引研究——以金投网问答社区为例被引量：12

Automatic Indexing of Questions in Q&A Community Based on BERT and TF-IDF——Taking the CNGOLD Q&A Community as an Example

原文传递

导出

摘要【目的/意义】问答社区问句的自动标引可以为网站的信息组织和信息服务提供有效帮助。目前关于自动标引的研究大部分集中于抽词标引,并不适用于问答社区问句的自动标引。【方法/过程】本文以金投网问答社区为例,融合了赋词标引和抽词标引方法,提出了一种基于预训练语言模型BERT和TF-IDF的问答社区问句自动标引模型。该模型使用基于BERT的多标签分类算法对问句进行赋词标引,将问句划分为短问句和长问句,使用TF-IDF算法对长问句进行抽词标引,补充长问句标引标签。【结果/结论】实验结果表明,本文提出的自动标引模型可以有效对问答社区问句进行自动标引,对提高用户信息检索效果具有重要的意义。【创新/局限】利用问句内外部特征构建了基于BERT和TF-IDF的问答社区问句自动标引模型,并提出了一种基于BERT的多标签分类算法。【Purpose/significance】Automatic indexing of questions in Q&A community can provide effective help for information organization and information service of websites. At present, most researches on automatic indexing focus on extraction indexing, which is not applicable to the automatic indexing of questions in Q&A community.【Method/process】Based on the CNGOLD Q&A community as an example, this paper combines the methods of assignment indexing and extraction indexing, and proposes an automatic indexing model of questions in Q&A community based on BERT and TF-IDF. This model uses the multi-label classification algorithm based on BERT to assign the questions, divides the questions into short questions and long questions, and uses the TF-IDF algorithm to extract the long questions and supplement the indexing tags of long questions.【Result/conclusion】 The experimental results show that the automatic indexing model proposed in this paper can effectively automatically index the questions in Q&A community, which is of great significance to improve the effect of user information retrieval.【Innovation/limitation】Based on the internal and external characteristics of questions, this paper constructs an automatic indexing model of questions in Q&A community based on BERT and TF-IDF, and proposes a BERT based multi-label classification model.

作者唐晓波刘江南 TANG Xiao-bo;LIU Jiang-nan(School of Information Management,Wuhan University,Wuhan 430012,China;Center for Studies of Information Resources,Wuhan University,Wuhan 430012,China)

机构地区武汉大学信息管理学院武汉大学信息资源研究中心

出处《情报科学》 CSSCI 北大核心 2021年第3期3-10,共8页 Information Science

基金国家自然科学基金项目“基于文本和Web语义分析的智能咨询服务研究”(71673209)。

关键词自动标引问答社区 BERT TF-IDF 多标签分类 automatic indexing Q&A community BERT TF-IDF multi-label classification

分类号 G254 [文化科学—图书馆学]

引文网络
相关文献

参考文献9

1余春.自动标引研究进展[J].图书馆学研究,2012(4):18-22. 被引量：12
2陈晨,侯景瑞,吴任力,王平.基于多源混合标签的社会化问答社区问题推荐方法研究[J].情报科学,2019,37(7):139-145. 被引量：6
3王哲.社会化问答社区知乎的用户持续使用行为影响因素研究[J].情报科学,2017,35(1):78-83. 被引量：59
4章成志.自动标引研究的回顾与展望[J].现代图书情报技术,2007(11):33-39. 被引量：39
5李千驹,李思达,刘建毅.一种基于知识组织的关键词自动标引方法[J].情报科学,2016,34(11):107-110. 被引量：8
6丁芹.基于格式语义格的自动标引和词相似度计算[J].情报理论与实践,2004,27(4):363-366. 被引量：6
7侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
8陈白雪,宋培彦.基于用户自然标注的TF-IDF辅助标引算法及实证研究[J].图书情报工作,2018,62(1):132-139. 被引量：13
9王星,刘伟.基于引文的中文学术文献自动标引方法研究[J].图书情报工作,2014,58(3):106-110. 被引量：9

二级参考文献148

1殷蜀梅,张智雄.医学文献集合的主题抽取和主题聚类实践[J].数字图书馆论坛,2008(9):32-36. 被引量：4
2戴耀晶.论现代汉语现实体的三项语义特征[J].复旦学报（社会科学版）,1994,36(2):95-100. 被引量：7
3洪成玉.语法分析和语义分析[J].首都师范大学学报（社会科学版）,1994(3):1-7. 被引量：4
4李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
5储荷婷.索引工作自动化:自动标引的主要方法[J].情报学报,1993,12(3):218-229. 被引量：10
6侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
7何琳,侯汉清.基于标引经验和机器学习相结合的多层自动分类[J].中国索引,2006,4(1):39-43. 被引量：2
8苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
9田苗苗,许建潮,汪津,丁桂英.基于遗传算法的Web信息自动标引研究[J].吉林大学学报（信息科学版）,2006,24(5):542-547. 被引量：6
10张庆国,薛德军,张振海,张君玉.海量数据集上基于特征组合的关键词自动抽取[J].情报学报,2006,25(5):587-593. 被引量：17

共引文献161

1钱琪.网络问答社区对大学生人际关系的改善——以知乎为例[J].中外企业家,2020(8):246-246. 被引量：2
2尹曼琦.新媒介环境下用户参与式知识传播研究——以知乎社区为例[J].新闻传播,2019,0(19):17-19.
3熊欣,王昊,张海潮,张宝隆.中文术语粒度对其区分能力测度的影响分析[J].数据分析与知识发现,2020,4(2):143-152. 被引量：2
4张祥青,宋雪雁,张伟民.基于MUSA、TOPSIS综合评价方法的社区问答平台可用性测度研究[J].情报科学,2022,40(11):166-175. 被引量：1
5刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
6刘海峰,王元元,王倩.基于位置和类别结合模式的一种文本自动分类模型[J].图书情报工作,2006,50(S2):90-92.
7彭寿清.人才埋没的文化根源——浅析儒家文化对人才成长的负效应[J].衡阳师范学院学报,2005,26(2):97-100. 被引量：1
8田苗苗,许建潮,汪津,丁桂英.基于遗传算法的Web信息自动标引研究[J].吉林大学学报（信息科学版）,2006,24(5):542-547. 被引量：6
9邢玲,马建国,李幼平,刘志文.一种基于UCL的中文网页信息过滤方法[J].电子学报,2006,34(10):1752-1757. 被引量：9
10顾燕萍,侯汉清,王晓红.中文图书自动标引与分类加权设计研究[J].中国图书馆学报,2006,32(6):69-72. 被引量：6

同被引文献260

1孙迪.科技文献标引问题探析——以国家图书馆为例[J].图书馆建设,2020,0(1):101-108. 被引量：3
2赵衍,张永娟,陈成材,陈恒.一种提高计算机自动赋词标引准确性的综合方法——基于创新型CBA数据库的实证分析[J].情报杂志,2012,31(5):185-191. 被引量：5
3丁芹.基于格式语义格的自动标引和词相似度计算[J].情报理论与实践,2004,27(4):363-366. 被引量：6
4李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
5吴春玉.中文全文检索系统中实现主题词标引思路[J].情报杂志,2005,24(1):115-116. 被引量：4
6谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
7白振田,侯汉清.基于向量空间的行业自动分类系统应用[J].情报科学,2005,23(6):940-944. 被引量：4
8孟祥增,刘彤彦.一种基于内容的图像自动分类方法[J].情报杂志,2005,24(9):14-15. 被引量：4
9侯汉清,薛春香.用于中文信息自动分类的《中图法》知识库的构建[J].中国图书馆学报,2005,31(5):82-86. 被引量：25
10马慧芳,郭治成.文本自动分类在搜索引擎中的应用研究[J].情报杂志,2005,24(12):125-126. 被引量：1

引证文献12

1唐晓彬,董曼茹,徐荣.大数据背景下CPI预测问题的文本挖掘技术设计与应用[J].统计研究,2021,38(8):146-160. 被引量：7
2陈志刚,岳倩,赵威.弹幕文本情感分类模型研究--基于中文预训练模型与双向长短期记忆网络[J].湖北工业大学学报,2021,36(6):56-61. 被引量：4
3王金凤,徐正强,冯立杰,李康.基于多维空间专利地图及可拓学的技术创新路径识别与评价[J].科技管理研究,2022,42(8):8-17. 被引量：6
4曹树金,闫颂.基于语义角色信息的科技论文创新段落定位及功能句识别方法研究——以中文情报学领域论文为例[J].情报理论与实践,2022,45(11):1-9. 被引量：8
5香慧敏,白涛,李东亚,马楠.基于词向量与多特征融合的农业文本自动标引研究[J].新疆农业大学学报,2022,45(6):486-492.
6迟秀铭,房旭辉,郭顺利.基于CiteSpace的网络问答社区研究的可视化分析及启示[J].现代信息科技,2023,7(4):125-129.
7刘波.基于知识图谱的学习资源平台构建[J].高师理科学刊,2023,43(7):41-47. 被引量：2
8丁晓蔚,季婧,赵笑宇,王本强,丁毅杰,王献东.互联网金融安全情绪感知及风险预警应用研究——基于BERT所作的探索[J].情报杂志,2023,42(9):57-70. 被引量：4
9史雅莉,贺红钰.2003—2023年我国自动标引研究及实践进展[J].情报探索,2024(4):120-127. 被引量：1
10罗宏宇,刘伟.基于语义层级细粒度的海量文献标引研究[J].情报理论与实践,2024,47(5):194-203. 被引量：1

二级引证文献33

1沈淑琳(译),张文龙.基于百度搜索指数的CPI预测研究[J].价格理论与实践,2023(4):131-134. 被引量：1
2陈鑫,张以欣,吴俊潮,郭凌宇,余泽汇,杨静.历时弹幕语料库的构建与探析——以青年亚文化弹幕为例[J].情报探索,2022(9):77-85. 被引量：2
3杜子芳,马文博.经济综合监测预警方法评述与建议[J].中国物价,2022(9):3-6. 被引量：1
4曹树金,李睿婧.基于专利文献摘要的创新知识图谱构建与应用[J].情报理论与实践,2022,45(11):21-28. 被引量：8
5宇岩,祝林,王春明,陈嘉琪,黄怡淳,汤正午.基于专利地图的东京湾区生物医药产业发展态势分析与启示[J].世界科技研究与发展,2022,44(6):813-824. 被引量：4
6岳丽欣,刘自强,刘春江,方曙.融合引用和文本特征的技术创新路径识别研究[J].图书情报工作,2023,67(3):49-60. 被引量：6
7王金凤,陈慧源,刘振锋,冯立杰,赵伟宇.基于生成式拓扑映射和类比设计方法的技术机会识别[J].情报理论与实践,2023,46(6):127-135. 被引量：2
8蔡乐,罗卓然,陆伟.学术论文科研贡献类型自动识别研究[J].情报理论与实践,2023,46(6):168-175. 被引量：1
9孔玲玲,黄旭,曾孟佳.基于LERT-RCNN的中文弹幕文本情感多分类研究[J].现代计算机,2023,29(12):1-9.
10贺淑红.基于LSTM算法的英语翻译智能化校对系统设计[J].信息技术,2023,47(7):118-124.

1卢恒,张向先,张旭.网络社区知识聚合研究综述与展望[J].图书馆学研究,2021(4):2-10. 被引量：6
2康敏旸,王姝,徐国靖.未来航空电子信息技术发展需求分析[J].航空电子技术,2021,52(1):21-26. 被引量：2
3周雷.德国FID信息资源建设模式研究及启示[J].图书馆学研究,2021(4):90-100. 被引量：1

情报科学

2021年第3期

浏览历史

内容加载中请稍等...

基于BERT和TF-IDF的问答社区问句自动标引研究——以金投网问答社区为例被引量：12

参考文献9

二级参考文献148

共引文献161

同被引文献260

引证文献12

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于BERT和TF-IDF的问答社区问句自动标引研究——以金投网问答社区为例 被引量：12

参考文献9

二级参考文献148

共引文献161

同被引文献260

引证文献12

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于BERT和TF-IDF的问答社区问句自动标引研究——以金投网问答社区为例被引量：12