期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
长三角一体化发展特征与动力探究——基于TF-IDF算法与格兰杰检验
1
作者 关硕 赵雪 刘毅 《科技和产业》 2024年第5期40-47,共8页
从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设... 从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设主体对5个发展目标的注意力分配不均衡;在创新共建目标方面,地方主体的注意力变动会引起中央主体的注意力变动;长三角一体化发展呈现小间断大均衡特征,体现“自下而上”的地方主导模式。 展开更多
关键词 长三角一体化 话语制度主义 间断-均衡框架 tf-idf(词频-文件频率)算法 格兰杰检验
下载PDF
基于改进TF-IDF与BERT的领域情感词典构建方法 被引量:1
2
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感词典 词频-文档频率 隐含狄利克雷分布 情感倾向点互信息算法 BERT模型
下载PDF
基于TF-IDF和VOSviewer的我国应急救援现状可视化分析 被引量:1
3
作者 黄萍 张文龙 +2 位作者 叶圣琳 余君 余龙星 《中国安全科学学报》 CAS CSCD 北大核心 2023年第11期196-205,共10页
为有效利用消防救援队伍的实战记录资料挖掘应急救援战例成功经验,结合词频-逆文档频率(TF-IDF)算法和VOSviewer文献可视化分析技术,构建战例资料分析模型,分析战例成功与失败的共性规律和特点,总结我国应急救援现状及发展趋势。模型以2... 为有效利用消防救援队伍的实战记录资料挖掘应急救援战例成功经验,结合词频-逆文档频率(TF-IDF)算法和VOSviewer文献可视化分析技术,构建战例资料分析模型,分析战例成功与失败的共性规律和特点,总结我国应急救援现状及发展趋势。模型以2007—2019年间共185起应急救援典型战例为数据库,按照自然灾害、交通事故、建筑坍塌、危化品泄漏、火灾扑救等应急救援行动类型展开分析。结果表明:我国应急救援行动的影响因素主要表现在人(救援队伍)、机(装备技术)、环(环境)、管(管理)4个方面。其中,环境因素的影响几乎都是负面的,其他3个因素均有正负面影响。此外,不同应急救援行动类型的主导影响因素存在差异,自然灾害突出“机”;交通事故突出“管”;建筑坍塌突出“机”“环”;危化品泄漏在“人机环管”4个方面均有突出问题;火灾救援突出“机”。 展开更多
关键词 词频-文档频率(tf-idf) VOSviewer 应急救援 消防救援 可视化分析 战例分析
原文传递
文本分类TF-IDF算法的改进研究 被引量:108
4
作者 叶雪梅 毛雪岷 +1 位作者 夏锦春 王波 《计算机工程与应用》 CSCD 北大核心 2019年第2期104-109,161,共7页
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分... 中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。 展开更多
关键词 新词 词频-文档频率(tf-idf) 向量空间模型 文本分类
下载PDF
结合TF-IDF的歌曲情感多标记分类 被引量:4
5
作者 孙向琨 邓伟 《计算机工程》 CAS CSCD 北大核心 2011年第19期189-190,197,共3页
提出一种结合词频-逆向文件频率(TF-IDF)规则与多标记分类的歌曲情感分析方法。对歌曲中基于声学特征的音乐内容,用带向量夹角的多标记k近邻算法进行分类,将TF-IDF规则用于歌词内容,以计算歌词情感分数,并将其作为情感特征。采用该方法... 提出一种结合词频-逆向文件频率(TF-IDF)规则与多标记分类的歌曲情感分析方法。对歌曲中基于声学特征的音乐内容,用带向量夹角的多标记k近邻算法进行分类,将TF-IDF规则用于歌词内容,以计算歌词情感分数,并将其作为情感特征。采用该方法对歌词内容分类错误的类别标记进行修正。选用396首英文歌曲对该算法进行测试,结果表明,与其他方法相比,该方法能使分类精确度从69%提高到74%。 展开更多
关键词 多标记分类 歌曲情感分类 多标记k近邻算法 词频-文件频率
下载PDF
一种改进型TF-IDF文本聚类方法 被引量:16
6
作者 张蕾 姜宇 孙莉 《吉林大学学报(理学版)》 CAS 北大核心 2021年第5期1199-1204,共6页
针对传统词频-逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足,尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题,提出一种改进的TF-IDF文本聚类算法.采用2015—2019年吉林省科研机构发表论文数据进行对比实验,... 针对传统词频-逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足,尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题,提出一种改进的TF-IDF文本聚类算法.采用2015—2019年吉林省科研机构发表论文数据进行对比实验,分别用改进TF-IDF算法和传统TF-IDF算法先统计论文中的关键词词频,再通过K-means++算法进行聚类,最后使用随机森林算法分别评估聚类的准确性.实验结果表明,改进TF-IDF算法提高了分类的准确率. 展开更多
关键词 词频-文档频率(tf-idf) 混合聚类 交叉学科 基本科学指标数据库(ESI)文献
下载PDF
基于TF-IDF与word2vec的台词文本分类研究 被引量:4
7
作者 但宇豪 黄继风 +1 位作者 杨琳 高海 《上海师范大学学报(自然科学版)》 2020年第1期89-95,共7页
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法.该方法通过引入信息熵及修正因子,缓解了数据不平衡对分... 为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法.该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%. 展开更多
关键词 词频-文本频率(tf-idf) word2vec 信息熵 文本分类 机器学习 加权
下载PDF
基于朴素贝叶斯算法的信息过滤研究 被引量:2
8
作者 杜拓 方红 《信息与电脑》 2023年第9期90-92,共3页
随着信息量的快速增长,获取和筛选相关信息变得越来越重要。文章研究了基于朴素贝叶斯算法的信息过滤方法。首先,介绍了朴素贝叶斯算法的基本原理,包括贝叶斯定理、朴素贝叶斯分类器及该算法的优缺点。其次,探讨了朴素贝叶斯算法在信息... 随着信息量的快速增长,获取和筛选相关信息变得越来越重要。文章研究了基于朴素贝叶斯算法的信息过滤方法。首先,介绍了朴素贝叶斯算法的基本原理,包括贝叶斯定理、朴素贝叶斯分类器及该算法的优缺点。其次,探讨了朴素贝叶斯算法在信息过滤领域的应用,包括信息过滤的分类、文本表示方法、基于朴素贝叶斯的信息过滤模型构建。最后,通过实验评估了该方法在文本分类任务上的性能,包括不同特征表示方法的对比以及与其他分类算法的性能对比。实验结果表明,基于朴素贝叶斯算法的信息过滤具有较好的性能,可以有效分类不同主题的文本。 展开更多
关键词 朴素贝叶斯算法 信息过滤 文本分类 词袋模型 词频-文档频率(tf-idf)权重计算
下载PDF
社会网络环境下双驱动DEMATEL的群智知识融合应急决策方法 被引量:1
9
作者 陈兆芳 黄鹏城 黄文翰 《安全与环境学报》 CAS CSCD 北大核心 2024年第6期2336-2347,共12页
针对多属性应急群决策中决策属性缺少数据支持和公众难以参与决策过程的问题,提出了一种使用信任网络计算专家权重和融合公众知识与专家知识的双驱动模型的应急决策方法。首先,考虑传统模型只能依赖主观经验的不足,通过分析社交媒体中... 针对多属性应急群决策中决策属性缺少数据支持和公众难以参与决策过程的问题,提出了一种使用信任网络计算专家权重和融合公众知识与专家知识的双驱动模型的应急决策方法。首先,考虑传统模型只能依赖主观经验的不足,通过分析社交媒体中的文本数据来获得公众意见,并使用词频-逆文档频率算法(Term Frequency-Inverse Document Frequency, TF-IDF)提取意见中的关键信息,以公众大数据来获得数据驱动因素,同时,通过决策专家提供的专家知识,为决策过程提供知识驱动因素,构成双驱动的决策实验室分析法(Decision Making Trial and Evaluation Laboratory, DEMATEL)模型来建立评价属性体系,模型中影响因素的相互作用程度由公众大数据与专家评价共同决定,以得到公众知识数据与专家知识评价融合的结果;其次,使用社会网络表示专家之间的信任关系与信任强度,并通过Louvain算法对专家进行聚类,通过社会网络中节点的度中心性与接近中心性,得到个体的权重进而计算出各聚类权重,使用直觉模糊加权平均算子(Iterative Fuzzy Weighted Averaging, IFWA)结合决策偏好与属性权重,通过得分函数计算备选方案的得分,并依据得分结果对方案排序以得到最优的解决方案;最后,结合“7·20”郑州市突发暴雨案例证明了本方法的可行性和有效性。 展开更多
关键词 公共安全 决策实验室分析法(DEMATEL) 应急决策 词频-文档频率算法(tf-idf) 群智融合
原文传递
基于BM25的勘察设计企业科研项目重复性检测方法研究
10
作者 王扬 曹德威 +2 位作者 王剑刚 钱锋 钱常运 《科技管理研究》 CSSCI 2024年第4期167-174,共8页
中国勘察设计企业的科研重复投入情况日益凸显,这是对资金、人力、信誉乃至科研精神的损耗,不利于尖端技术的孵化,因此通过智能化手段自动识别科研课题重复性,最大化复用科研成果势在必行。结合BM25算法的基础理论,融合勘察设计企业的... 中国勘察设计企业的科研重复投入情况日益凸显,这是对资金、人力、信誉乃至科研精神的损耗,不利于尖端技术的孵化,因此通过智能化手段自动识别科研课题重复性,最大化复用科研成果势在必行。结合BM25算法的基础理论,融合勘察设计企业的数据属性,引入领域、专业、负责人等特征值,提出一种聚焦企业内部的科研项目重复性检测方法。该方法涉及4个步骤,包括文本预处理、建立匹配库,根据词频-逆文档频率(TF-IDF)算法、BM25算法分别计算输入课题与匹配库中课题的相似度,最后分析计算结果。相较于TF-IDF算法,BM25算法通过词语饱和度和字段长度规约实现权重控制,针对新能源、工程数字化和信息化领域的研究课题中的计算结果有较高的区分度,有利于挖掘不同领域下高相似性的文本,最大程度避免潜在重复课题的遗漏;同时该算法的计算时间小于0.1 s,可满足商用,在科研课题立项重复性校验、成果重合度判定中发挥支撑作用,计算结果经技术研发人员复验,准确性满足业务管理需要,在勘察设计行业具有推广价值。 展开更多
关键词 科研课题 项目重复性校验 勘察设计企业 BM25 词频-文档频率(tf-idf) 文本相似度
下载PDF
基于Simhash改进的文本去重算法 被引量:2
11
作者 张亚男 陈卫卫 +1 位作者 付印金 徐堃 《计算机技术与发展》 2022年第8期26-32,共7页
为了提高大规模文本去重算法Simhash对重复数据的检测精度,针对词袋(Bag of Words,BoW)模型无法体现特征词位置分布信息的缺点,提出一种改进的Simhash算法(P-Simhash)。该算法首先改进了Simhash计算特征词权重的方法,在由TF-IDF算法计... 为了提高大规模文本去重算法Simhash对重复数据的检测精度,针对词袋(Bag of Words,BoW)模型无法体现特征词位置分布信息的缺点,提出一种改进的Simhash算法(P-Simhash)。该算法首先改进了Simhash计算特征词权重的方法,在由TF-IDF算法计算得到特征词的权重的基础上,引入Jaccard相似度量对共现词的权重进行优化,以降低共现词权重过高对检测文本差异的影响。其次采用BDR算法降维思想,设计了体现特征词位置差异的签名方案,将特征词在文本中出现的位置特征转化为一组由二进制向量表示的签名。最后,将特征词哈希签名与位置特征签名加权求和的结果作为其对应的特征向量,与经过优化后的特征词权重进行二次加权,合并降维后得到新的文本签名。使用开放的搜狗新闻数据集进行实验,并与其他算法进行了性能比较。实验结果表明,P-Simhash算法在去重效果和执行效率上较传统的Simhash算法有明显提高。 展开更多
关键词 Simhash 文本去重 词频-文本频率 Jaccard相似度 二进制压缩算法 位置特征
下载PDF
基于Bi-LSTM和TFIDF的工单事件提取
12
作者 范华 翁利国 +2 位作者 周艳 姜川 孙涛 《电脑知识与技术》 2020年第4期291-293,共3页
电网工单数据是电网运行情况以及客户满意程度的主要信息来源,近年来,有学者将深度学习的方法应用于工单数据的关键信息提取,但是提取出的关键词、词还不足以完整描述工单反映的具体情况。本文提出了一种事件抽取模型,先通过一定的方式... 电网工单数据是电网运行情况以及客户满意程度的主要信息来源,近年来,有学者将深度学习的方法应用于工单数据的关键信息提取,但是提取出的关键词、词还不足以完整描述工单反映的具体情况。本文提出了一种事件抽取模型,先通过一定的方式进行文本预处理,确定标签体系和特征模板,再用Bi-LSTM和CRF相结合的模型进行实体识别和标注,最后通过TFIDF模型提取出事件表达,将该模型用于电网工单数据的事件抽取,用准确率、召回率和F1得分作为模型的评价标准,证明了该模型在工单数据分析中的可用性。 展开更多
关键词 双向长短期记忆网络 条件随机场 词频-文件频率算法 电网工单 事件抽取
下载PDF
基于知识图谱的商用飞机维修方案推荐系统集成建模 被引量:5
13
作者 邢雪琪 丁雨童 +2 位作者 夏唐斌 潘尔顺 奚立峰 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第3期512-521,共10页
针对我国商用飞机智能维修和数字化诊断的需求,面向非结构化故障隔离手册,提出新型BM长短期记忆网络(BM LSTM)算法.运用多数投票法融合条件随机场(CRF)、双向长短期记忆网络(BiLSTM)、BiLSTM CRF 3种实体识别算法,有效提高实体识别精度... 针对我国商用飞机智能维修和数字化诊断的需求,面向非结构化故障隔离手册,提出新型BM长短期记忆网络(BM LSTM)算法.运用多数投票法融合条件随机场(CRF)、双向长短期记忆网络(BiLSTM)、BiLSTM CRF 3种实体识别算法,有效提高实体识别精度.基于商用飞机维修故障诊断手册构建维修方案知识图谱,结合词频-逆向文件频率(TF-IDF)相似度算法与BM LSTM算法,设计商用飞机维修方案推荐系统,实现通过检索非结构化故障描述文本准确匹配到维修方案的功能.实验结果表明,利用商用飞机故障隔离手册构建知识图谱、基于所提创新方法开发的维修方案推荐系统,能够有效保证维修信息精确匹配,显著提高维修方案形成效率. 展开更多
关键词 商用飞机 故障隔离手册 BM长短期记忆网络(BM LSM) 知识图谱 词频-文件频率(tf-idf)相似度
下载PDF
基于Python语言数据服务平台设计与实现
14
作者 陈小敏 苏健光 欧文辉 《信息与电脑》 2023年第11期126-129,共4页
首先,数字服务平台数据分析利用Python爬虫技术采集广西数字服务平台的馆藏信息、图书信息、借阅信息等。其次,爬取豆瓣年度关注书籍的评论,运用后羿采集器对豆瓣图书信息进行采集,并将清洗后的数据通过Pandas和Matplotlib等可视化工具... 首先,数字服务平台数据分析利用Python爬虫技术采集广西数字服务平台的馆藏信息、图书信息、借阅信息等。其次,爬取豆瓣年度关注书籍的评论,运用后羿采集器对豆瓣图书信息进行采集,并将清洗后的数据通过Pandas和Matplotlib等可视化工具进行可视化展示。最后,运用词频-逆文本频率指数(Term Frequency Inverse Document Frequency,TF-IDF)算法对评论进行分析,对广西数字图书馆和豆瓣图书等各类数据进行对比分析,得出更加符合读者需求的数据信息,便于优化数字图书借阅服务,为数字图书馆提供数据支撑,以便平台管理员能够快速、有效地对数据服务平台进行决策。 展开更多
关键词 Python技术 数字服务平台 词频-文本频率指数(tf-idf)算法 数据分析 决策
下载PDF
网络评论文本驱动的汽车设计规划方法 被引量:11
15
作者 张国方 寇姣姣 陈令华 《机械设计》 CSCD 北大核心 2021年第2期139-144,共6页
为将网络评论文本中的关键信息应用于汽车设计开发中,利用词频-逆文档频率算法(Term Frequency-Inverse Document Frequency,TF-IDF)及依存句法分析提取产品特征,基于BERT(Bidirectional Encoder Representation from Transformers)预... 为将网络评论文本中的关键信息应用于汽车设计开发中,利用词频-逆文档频率算法(Term Frequency-Inverse Document Frequency,TF-IDF)及依存句法分析提取产品特征,基于BERT(Bidirectional Encoder Representation from Transformers)预训练模型进行文本情感分析。通过搭建质量屋进行用户需求转化,完成工程技术特性重要度评价,把握产品设计方向,得到评论数据驱动的产品规划方法。以微型汽车设计规划为例,获取了部分工程技术特性优先级,验证了该方法的可行性,不仅能快速获取用户的客观反馈,缩短产品开发周期,并能有效地将用户需求转化为可执行的设计问题。 展开更多
关键词 汽车设计 质量屋 自然语言处理 词频-文档频率算法 需求分析
原文传递
融合生成对抗网络和朴素贝叶斯皮肤病诊断方法 被引量:8
16
作者 商显震 韩萌 +4 位作者 孙毓忠 孙宇宁 陈旭 胡满满 梅御东 《计算机科学与探索》 CSCD 北大核心 2019年第6期1005-1015,共11页
不同皮肤病间发病率的差异导致了皮肤病数据类不平衡现象,对使用机器学习方法构建高效、准确的皮肤病诊断模型带来了巨大挑战。提出一种融合生成对抗网络(generative adversarial networks,GAN)和朴素贝叶斯的皮肤病二分类诊断方法:在... 不同皮肤病间发病率的差异导致了皮肤病数据类不平衡现象,对使用机器学习方法构建高效、准确的皮肤病诊断模型带来了巨大挑战。提出一种融合生成对抗网络(generative adversarial networks,GAN)和朴素贝叶斯的皮肤病二分类诊断方法:在皮肤病数据集上训练朴素贝叶斯二分类器作为诊断器,创新性地使用GAN为前者生成补充训练样本,使其训练集正负类样本达到平衡。针对皮肤病诊断多分类问题,提出一种融合生成对抗网络和朴素贝叶斯的多分类诊断方法:使用GAN和朴素贝叶斯训练皮肤病单病种二分类器,并结合了词频-逆文档频率算法(term frequency-inverse document frequency,TF-IDF),将多个二分类器组合成一个多分类器作为诊断器。与六种诊断方法进行了对比实验,提出的两种皮肤病诊断方法准确率和召回率均有提升。 展开更多
关键词 皮肤病诊断 朴素贝叶斯(NB) 词频-文档频率(tf-idf)算法 生成对抗网络(GAN) 类不平衡数据
下载PDF
关键词拍卖的选词与出价策略研究 被引量:2
17
作者 吴纪芸 陈志德 +1 位作者 汪磊 王孟 《计算机工程》 CAS CSCD 北大核心 2015年第7期310-316,共7页
在关键词拍卖中,每个广告主都有成千上万的关键词可选,为了在预算限制条件下给选择的关键词设置合理的投标价格,提出一种新的基于广告主的拍卖策略,包括选词策略和出价策略。在选词策略中,提出基于词频-反转文件频率算法的关键词关联度... 在关键词拍卖中,每个广告主都有成千上万的关键词可选,为了在预算限制条件下给选择的关键词设置合理的投标价格,提出一种新的基于广告主的拍卖策略,包括选词策略和出价策略。在选词策略中,提出基于词频-反转文件频率算法的关键词关联度计算方法,通过该方法选出的关键词不仅能提高网站的关联度,增加转化率,还能避免因使用过度普遍的关键词而增加竞争成本。在出价策略中,运用改进的粒子群优化算法,在若干约束条件限制下对每个关键词的出价做适当调整,以增加广告主所获利润。实验结果表明,采用拍卖策略选出的关键词组可增加网站的转化率,降低竞争成本,所获得的利润比传统人为投标所获得的利润高,并且在初期和中期呈现持续上升趋势,后期趋于稳定。 展开更多
关键词 拍卖 选词策略 关联度 出价策略 词频-反转文件频率算法 粒子群优化
下载PDF
基于多源异构数据的煤矿安全管理效果评估 被引量:13
18
作者 宿国瑞 贾宝山 +1 位作者 王鹏 申琢 《中国安全科学学报》 CAS CSCD 北大核心 2021年第6期64-69,共6页
为探索智慧矿山视角下的煤矿安全管理模式,将生态安全领域中压力-状态-响应(PSR)模型引入煤矿安全管理,构建煤矿安全管理PSR模型,揭示风险隐患因素、煤矿安全状态及安全风险管控效果之间的作用关系;分析煤矿采集的多源异构数据,基于煤... 为探索智慧矿山视角下的煤矿安全管理模式,将生态安全领域中压力-状态-响应(PSR)模型引入煤矿安全管理,构建煤矿安全管理PSR模型,揭示风险隐患因素、煤矿安全状态及安全风险管控效果之间的作用关系;分析煤矿采集的多源异构数据,基于煤矿安全管理PSR模型框架,构建基于词频-逆文档频率(TF-IDF)算法的隐患分类模型和主成分分析(PCA)的煤矿安全评估模型;将该评估模型应用于内蒙古某矿,验证该模型的有效性。结果表明:基于TF-IDF算法的隐患分类模型和PCA的煤矿安全评估模型能够实现煤矿安全管理效果的综合分析,根据分析结果可排查主要安全隐患。 展开更多
关键词 多源异构数据 煤矿安全管理 效果评估 压力-状态-响应(PSR)模型 词频-文档频率(tf-idf) 主成分分析法(PCA)
原文传递
基于情感项区分极性可信度的文本情感分类 被引量:1
19
作者 孟迪 李立宇 于津 《汕头大学学报(自然科学版)》 2014年第3期66-73,共8页
针对语义情感知识的文本情感分析的局限性,本文提出情感项区分极性可信度的文本情感分类方法.首先,基于核心谓词结构提取修饰主题的情感项.接着,利用改进的互信息方法计算情感项可信度,选取其中可信度前N的情感项.然后,利用改进的词频-... 针对语义情感知识的文本情感分析的局限性,本文提出情感项区分极性可信度的文本情感分类方法.首先,基于核心谓词结构提取修饰主题的情感项.接着,利用改进的互信息方法计算情感项可信度,选取其中可信度前N的情感项.然后,利用改进的词频-逆向文件频率(TF-IDF)算法标记前N个情感项的正或负倾向符号.最后,基于基因表达式编程分类技术和谭松波博士提供的语料集,利用训练集训练分类模型,并使用测试集检验分类精度,实验结果表明本文提出的方法具有良好的效果. 展开更多
关键词 文本情感分类 情感项 核心谓词(HED)关系 互信息 词频-文件频率(tf-idf)
下载PDF
基于BLS的铁路安全事件文本分类研究 被引量:2
20
作者 尚麟宇 尹明 +1 位作者 肖畅 程君 《中国安全科学学报》 CAS CSCD 北大核心 2022年第6期103-108,共6页
为预防铁路安全事件的发生,利用文本挖掘相关技术和宽度学习系统(BLS),探讨铁路安全事件分类,包括设备问题、施工问题、作业问题、外部环境问题4大类。通过清洗及结构化314条文本数据,运用Jieba分词+自定义词表+通用停用词表完成中文分... 为预防铁路安全事件的发生,利用文本挖掘相关技术和宽度学习系统(BLS),探讨铁路安全事件分类,包括设备问题、施工问题、作业问题、外部环境问题4大类。通过清洗及结构化314条文本数据,运用Jieba分词+自定义词表+通用停用词表完成中文分词;基于卡方检验建立223个特征词,基于词频-逆文档频率(TF-IDF)计算特征词权重;基于BLS完成事件成因分类,设计3种基于BLS的分类方法。结果表明:该系统通过挖掘铁路安全事件报告的文本信息,能够形成有效的分类模型;利用BLS自身节省算力的特性,并通过添加特征增强节点的方式,可提高分类准确性,从而提高行业管理水平。 展开更多
关键词 宽度学习系统(BLS) 铁路安全事件 文本分类 词频-文档频率(tf-idf) 文本挖掘
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部