期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于词-标签概率的多标签文本分类研究 被引量:1
1
作者 赵宏 郑厚泽 郭岚 《兰州理工大学学报》 CAS 北大核心 2023年第1期103-109,共7页
针对多标签文本分类任务中如何有效地提取文本特征和获取标签之间潜在的相关性问题,提出一种CNN(convolutional neural networks)结合Bi-LSTM(bi-directional long short-term memory)的模型.首先,通过CNN网络和最大池化提取文本的特征... 针对多标签文本分类任务中如何有效地提取文本特征和获取标签之间潜在的相关性问题,提出一种CNN(convolutional neural networks)结合Bi-LSTM(bi-directional long short-term memory)的模型.首先,通过CNN网络和最大池化提取文本的特征;然后,利用训练的Labeled-LDA(labeled latent dirichlet allocation)模型获取所有词与标签之间的词-标签概率信息;接着,使用Bi-LSTM网络和CNN网络提取当前预测文本中每个词的词-标签信息特征;最后,结合提取的文本特征,预测与当前文本相关联的标签集.实验结果表明,使用词-标签概率获取文本中词与标签之间的相关性信息,能够有效提升模型的F1值. 展开更多
关键词 标签文本分类 卷积神经网络 双向长短期记忆网络 标签的隐狄利克雷分布
下载PDF
基于标签共现和特征局部相关的心电异常检测方法
2
作者 韩京宇 钱龙 +1 位作者 葛康 毛毅 《计算机科学》 CSCD 北大核心 2023年第3期139-146,共8页
自动的心电异常识别是一个多标签分类问题,多通过对每个标签训练一个二分类器来实现异常识别。由于异常数目多,特征和异常间以及不同异常间的相关性复杂,自动检测的效果并不理想。为了充分利用异常和特征间的依存关系,提出了一种基于异... 自动的心电异常识别是一个多标签分类问题,多通过对每个标签训练一个二分类器来实现异常识别。由于异常数目多,特征和异常间以及不同异常间的相关性复杂,自动检测的效果并不理想。为了充分利用异常和特征间的依存关系,提出了一种基于异常标签共现和特征局部相关(Label Co-occurrence and Feature’s local Pertinence,LCFP)的心电异常识别方法。首先,根据标签共现性和特征局部相关性,为标签构建包含宏特征和微特征的联合特征空间。宏特征采用狄利克雷过程混合模型聚类构建,以区分不同的共现标签集;微特征是原始特征空间的一个子集,用于区分共现标签集中的各个标签。进而,在联合特征空间为每个异常训练一个一对多(One-Versus-All)的概率分类器。其次,为充分利用异常的关联,提出在概率分类器排序基础上区分相关和非相关标签,采用Beta分布自适应地学习锚阈值和相关度阈值,以确定实例的相关标签集。LCFP是一种检测多种心电异常的通用方法,提高了心电异常识别的精度。在两个真实数据集上,F1指标分别提高了4%和22.4%,验证了所提方法的有效性。 展开更多
关键词 心电异常 标签分类 标签共现 狄利克雷过程混合模型 BETA分布 锚阈值
下载PDF
联合主题模型的标签聚类方法 被引量:2
3
作者 胡学钢 李慧宗 +2 位作者 潘剑寒 何伟 杨恒宇 《模式识别与人工智能》 EI CSCD 北大核心 2017年第5期403-415,共13页
提升标签聚类的质量是识别标签语义的一个关键问题.文中提出基于资源的联合主题模型标签聚类方法.利用资源的引用关系,采用随机游走的方法获取资源的权威度分数,以此设置"资源-标签"和"资源-词"这2个二元关系的权重... 提升标签聚类的质量是识别标签语义的一个关键问题.文中提出基于资源的联合主题模型标签聚类方法.利用资源的引用关系,采用随机游走的方法获取资源的权威度分数,以此设置"资源-标签"和"资源-词"这2个二元关系的权重.在此基础上,构建基于资源加权的词与标签的联合潜在狄利克雷分布(LDA)模型,通过迭代学习,获取标签的潜在主题,并根据主题最大隶属度聚类标签.实验表明,相比其它基于资源的标签聚类方法,文中方法能获取更好的聚类效果. 展开更多
关键词 社会化标注系统 标签聚类 主题模型 潜在狄利克雷分布(LDA) 随机游走
下载PDF
一种基于标签的改进主题演化模型
4
作者 姚立 张曦煌 《计算机工程》 CAS CSCD 北大核心 2019年第4期205-210,216,共7页
传统主题演化(ToT)模型通常忽略原始数据中的标签元信息。为此,建立一种基于标签的改进ToT模型。针对传统权重算法忽略词汇在文档集类别间和类别内的分布对权重产生影响的问题,结合文档标题特征,使用改进词频-反重力距算法进行权重分析... 传统主题演化(ToT)模型通常忽略原始数据中的标签元信息。为此,建立一种基于标签的改进ToT模型。针对传统权重算法忽略词汇在文档集类别间和类别内的分布对权重产生影响的问题,结合文档标题特征,使用改进词频-反重力距算法进行权重分析,以扩展模型的生成过程。在ToT模型的基础上引入原始文档的标签属性,构建改进模型并使用吉布斯采样算法估计其参数。实验结果表明,与ToT模型相比,该模型具有较高的泛化能力。 展开更多
关键词 标签 主题演化模型 狄利克雷分配 词频-反重力距算法 吉布斯采样
下载PDF
一种融合标签语义的微博热点话题挖掘方法 被引量:3
5
作者 周福星 陈秀真 +1 位作者 马进 李生红 《计算机工程》 CAS CSCD 北大核心 2019年第10期283-287,共5页
由于微博文本的长度较短,直接使用隐狄利克雷分布(LDA)模型会导致特征向量高维稀疏。为此,提出一种融合标签语义的热点话题挖掘方法。利用公共块算法计算微博标签的相似度,合并标签相似度较高的微博文本。采用LDA模型对合并后的文本建模... 由于微博文本的长度较短,直接使用隐狄利克雷分布(LDA)模型会导致特征向量高维稀疏。为此,提出一种融合标签语义的热点话题挖掘方法。利用公共块算法计算微博标签的相似度,合并标签相似度较高的微博文本。采用LDA模型对合并后的文本建模,并通过K-means聚类算法挖掘微博热点话题。实验结果表明,与针对单一微博文本建模的方法以及直接合并相同标签的方法相比,该方法的困惑度较低,挖掘热点话题的准确性较高。 展开更多
关键词 微博文本 狄利克雷分布模型 标签语义 公共块 K-MEANS聚类
下载PDF
面向数字资源的自动标签模型 被引量:1
6
作者 雷智文 黄玲 《哈尔滨理工大学学报》 CAS 北大核心 2020年第3期144-150,共7页
针对数字资源标签数量不足,获取困难的问题,提出了一种新的自动标签方法,对于收集的公共文化资源数据集和其它公开数据集,能够有效的进行标签扩展。提出过程依据神经网络理论和生成学习理论,采用隐含狄利克雷分布(latent dirichlet allo... 针对数字资源标签数量不足,获取困难的问题,提出了一种新的自动标签方法,对于收集的公共文化资源数据集和其它公开数据集,能够有效的进行标签扩展。提出过程依据神经网络理论和生成学习理论,采用隐含狄利克雷分布(latent dirichlet allocation,LDA)和Word2Vec方法分别对资源和初始标签进行处理,生成资源和初始标签的表示向量,然后以此两种向量作为深度结构语义模型的输入,建立面向数字资源的自动标签模型。从结果来看,该方法的标签扩展效果在精确度、平均排序倒数、平均准确率等指标上表现上总体优于文中提到的其它对比方法,能够解决某些情况下资源标签不足的问题,提高资源的利用率。 展开更多
关键词 标签扩展 狄利克雷分布 Word2Vec
下载PDF
基于改进LDA的社会化标签主题识别方法
7
作者 邰悦 葛斌 李慧宗 《安徽理工大学学报(自然科学版)》 CAS 2021年第5期55-63,共9页
针对社会化标签中资源之间存在独立同分布特性,并且其对应的标签资源作为资源内容的特殊语义内容,提出一种联合特征词加权-LDA(Joint Feature Word Weighting-LDA)在资源内容和标签下联合主题识别方法,从而解决资源存在的独立同分布特... 针对社会化标签中资源之间存在独立同分布特性,并且其对应的标签资源作为资源内容的特殊语义内容,提出一种联合特征词加权-LDA(Joint Feature Word Weighting-LDA)在资源内容和标签下联合主题识别方法,从而解决资源存在的独立同分布特性以及特征词采样等问题。首先建立评论及对应标签资源在信息熵相似度条件下的潜在关系,对该潜在关系使用随机游走方法获取各组资源和各组标签的权值系数,消除资源间的独立同分布。通过加权方法加权至每个资源的特征词,形成资源特征词和标签特征词的权重值系数。在此基础上构建联合特征词加权-LDA模型,通过迭代学习方法获取社会化标签资源的隐含主题知识。通过实验表明,提出的联合特征词加权-LDA相对于其他主题模型具有更好的主题识别效果。 展开更多
关键词 社会化标签 信息熵相似度 独立同分布 加权方法 潜在狄利克雷分布(LDA)
下载PDF
面向用户需求挖掘的去中心化异步联邦LDA算法
8
作者 伍星 范玉顺 《计算机集成制造系统》 EI CSCD 北大核心 2023年第4期1055-1068,共14页
在云制造服务场景下,服务组合开发者往往需要基于用户的制造需求进行定制化服务组合开发。随着隐私保护法律法规的相继颁布,常用的用户需求挖掘算法如隐狄利克雷分布(LDA)主题模型已难以在实际中使用。本文通过对区块链和联邦学习技术... 在云制造服务场景下,服务组合开发者往往需要基于用户的制造需求进行定制化服务组合开发。随着隐私保护法律法规的相继颁布,常用的用户需求挖掘算法如隐狄利克雷分布(LDA)主题模型已难以在实际中使用。本文通过对区块链和联邦学习技术交叉研究,提出了面向用户需求挖掘的去中心化异步联邦隐狄利克雷分布算法(DAFedLDA)。在DAFedLDA中,本文基于对等分布式LDA,进一步提出了基于多链的权限控制机制(MCACS)以及基于随机丢弃的数据贡献质量监控机制(RDDMS)。本文基于ProgrammableWeb.com实例进行了一系列实验,验证了算法的有效性。 展开更多
关键词 用户需求挖掘 云制造服务 区块链 联邦学习 狄利克雷分布
下载PDF
基于LDA-HMM的专利技术主题演化趋势分析——以船用柴油机技术为例 被引量:47
9
作者 陈伟 林超然 +1 位作者 李金秋 杨早立 《情报学报》 CSSCI CSCD 北大核心 2018年第7期732-741,共10页
如何在专利数据海洋中挖掘技术主题的研究现状、识别具有潜力的研发热点,对企业和国家来说都是至关重要的战略议题。针对目前技术主题演化趋势预测研究中存在的不足:技术创新过程中随机特征的忽视、人工分类的缺陷以及专业术语难以识别... 如何在专利数据海洋中挖掘技术主题的研究现状、识别具有潜力的研发热点,对企业和国家来说都是至关重要的战略议题。针对目前技术主题演化趋势预测研究中存在的不足:技术创新过程中随机特征的忽视、人工分类的缺陷以及专业术语难以识别等问题,本研究提出一种组合方法,首先使用维特比(Viterbi)算法识别专利文献中的专业术语,其次利用机器学习中的隐含狄利克雷分布(LDA)算法捕捉专利文献中潜在的技术主题聚类,分析各时期技术主题的分布特征和演变规律,然后结合包含双重随机过程的隐马尔可夫模型(HMM)对未来技术趋势进行定量预测,最后以船用柴油机技术为例,应用上述组合方法分析船用柴油机技术的主题分布、演化规律及未来趋势。对比实验显示本文方法具有有效性和实用价值。 展开更多
关键词 主题模型 狄利克雷分布 马尔可夫过程 技术演化
下载PDF
基于LDA与新兴主题特征分析的新兴主题探测研究 被引量:58
10
作者 范云满 马建霞 《情报学报》 CSSCI 北大核心 2014年第7期698-711,共14页
本文尝试基于LDA主题模型探测文档集中的新兴主题.本文采用主题的新颖度、发文量指标,并引入被引量,得到新兴主题的特征指标,在此基础上对主题在进入成熟阶段前各个时期的特征进行了分析.并提出了针对上述新兴主题探测指标,基于LDA主题... 本文尝试基于LDA主题模型探测文档集中的新兴主题.本文采用主题的新颖度、发文量指标,并引入被引量,得到新兴主题的特征指标,在此基础上对主题在进入成熟阶段前各个时期的特征进行了分析.并提出了针对上述新兴主题探测指标,基于LDA主题模型抽取文档的语义主题词,利用文档-主题矩阵建立主题和文档的映射,得到主题的新颖度指标和发文量指标、被引量指标,并形成新兴主题探测表格和探测曲线VDP,从而探测出新兴主题,并对新兴主题VDP与基线VDP距离的发展趋势进行预测,根据拟合的曲线对其进行分析,得到最值得关注的新兴主题. 展开更多
关键词 狄利克雷分布 主题模型 新兴主题 主题特征 新颖度指标 发文量指标 被引量指标 生命周期
下载PDF
基于社交媒体的高影响力跨学科用户发现研究 被引量:9
11
作者 吴小兰 章成志 《情报学报》 CSSCI CSCD 北大核心 2017年第6期618-627,共10页
社交媒体环境中非正式学术交流与正式学术交流相互补充,已共同构成了有机的科学交流整体,探讨社交媒体中跨学科高影响力用户不仅可以作为正式交流中结构规律认识的补充与完善,还有助于社交媒体上普通用户或新用户快速与高影响力用户交... 社交媒体环境中非正式学术交流与正式学术交流相互补充,已共同构成了有机的科学交流整体,探讨社交媒体中跨学科高影响力用户不仅可以作为正式交流中结构规律认识的补充与完善,还有助于社交媒体上普通用户或新用户快速与高影响力用户交流寻得帮助。但现有跨学科用户研究大多依据科技文献来进行,并不能有效地发现社交网络上跨学科用户。为此,我们结合科技文献的领域分类语料,在科学网博客平台上进行跨学科高影响力用户发现。首先我们基于领域科技文献语料,完成科学网博文的学科领域划分,然后根据博文的学科分类计算用户学科属性及跨学科专业度,最后根据用户跨学科高影响力模型得到跨学高影响力科用户。这为社交媒体上跨学科用户发现提供了一定的借鉴。 展开更多
关键词 跨学科研究 社交媒体 跨学科用户发现 标签狄利克雷分布
下载PDF
图像分割中改进空间约束贝叶斯网络模型的应用 被引量:3
12
作者 张海艳 高尚兵 《计算机应用》 CSCD 北大核心 2017年第3期823-826,831,共5页
针对马尔可夫链蒙特卡罗方法普遍存在的迭代收敛性问题,在具有空间平滑约束的高斯混合模型条件上提出改进空间约束贝叶斯网络模型并在图像分割领域进行具体应用。所提模型应用隐狄利克雷分布(LDA)概率密度模型和高斯-马尔可夫定理的随... 针对马尔可夫链蒙特卡罗方法普遍存在的迭代收敛性问题,在具有空间平滑约束的高斯混合模型条件上提出改进空间约束贝叶斯网络模型并在图像分割领域进行具体应用。所提模型应用隐狄利克雷分布(LDA)概率密度模型和高斯-马尔可夫定理的随机域参数混合过程来实现参数平滑。所提方法根据空间信息先验平滑变换操作,在待处理像素点的上下文混合结构中引入LDA符合多项式分布,用来替换传统期望最大化算法中映射操作。LDA参数采用闭合形式将有利于准确估计最大后验概率(MAP)框架与上下文混合结构的相关比例。实验结果表明,应用PRI、Vo I、GCE和BDE指标进行效果比较,该方法比联合系统工程组(JSEG)、当前变换矩阵(CTM)和最大后验概率-最大似然法(MM)方法的图像分割应用效果较好,高斯噪声对于该算法的鲁棒性影响较小。 展开更多
关键词 狄利克雷分布 期望最大化方法 贝叶斯模型 高斯混合模型 图像分割
下载PDF
基于层次聚类的子话题检测算法 被引量:10
13
作者 代翔 黄细凤 +4 位作者 唐瑞 蒋梦婷 陈兴蜀 王海舟 罗梁 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第8期84-95,共12页
使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对... 使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对LDA模型分类结果粒度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测.首先对LDA模型建模结果进行优化,对话题-单词分布与文档-单词分布两个矩阵进行过滤;然后对重叠话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题.实验结果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控分析;与Single-Pass算法和K-均值聚类算法相比,该算法获得的结果更具有有效性;K的选取策略对基于层次聚类的子话题检测算法具有鲁棒性. 展开更多
关键词 话题模型 子话题 层次聚类 狄利克雷分布 话题检测
下载PDF
MB-HL模型的微博主题挖掘研究 被引量:1
14
作者 蒋权 郑山红 +1 位作者 刘凯 李万龙 《计算机应用研究》 CSCD 北大核心 2018年第11期3298-3301,3306,共5页
为了解决传统的文本主题模型对微博主题挖掘准确率低及不考虑主题之间关联的问题,针对中文微博语料本身的特点,分析LDA(latent Dirichlet allocation)和HMM(hidden Markov model)的优缺点,提出了微博主题挖掘模型MB-HL(microblog-HMM&am... 为了解决传统的文本主题模型对微博主题挖掘准确率低及不考虑主题之间关联的问题,针对中文微博语料本身的特点,分析LDA(latent Dirichlet allocation)和HMM(hidden Markov model)的优缺点,提出了微博主题挖掘模型MB-HL(microblog-HMM&LDA)。该模型用逐条微博作为处理单元,建立分布主题—词语矩阵并进行优化,通过LDA模型对微博用户不同的行为建模并提取特征,利用HMM模型强大的时序状态建模能力弥补LDA在主题相关性上的不足,采用Gibbs采样进行推理求解。在真实的新浪微博数据上对比实验表明MB-HL模型能提高近9%主题关键词的准确度,并能有效地发现主题之间的关联关系。 展开更多
关键词 微博 主题挖掘 潜在狄利克雷分布模型 马尔可夫模型 MB-HL模型 GIBBS采样
下载PDF
面向黑客论坛文本分析的黑客工具主题演化研究
15
作者 王志英 戴瑶 葛世伦 《软件导刊》 2021年第11期173-180,共8页
黑客论坛是有效识别黑客工具的数据来源,如何从中挖掘黑客工具的现状及热点是信息安全领域防范网络攻击的重要研究方向之一。基于隐含狄利克雷分布主题模型和隐马尔可夫模型,构建黑客工具主题模型与黑客工具主题演化模型,以Hackforums... 黑客论坛是有效识别黑客工具的数据来源,如何从中挖掘黑客工具的现状及热点是信息安全领域防范网络攻击的重要研究方向之一。基于隐含狄利克雷分布主题模型和隐马尔可夫模型,构建黑客工具主题模型与黑客工具主题演化模型,以Hackforums中的帖子文本作为数据来源验证模型的性能。在主题识别中共聚类出22个黑客工具主题,主题之间领域边界清晰。通过黑客工具主题演化研究发现,多数主题之间由于黑客工具的使用限制而不容易发生转移,少数主题之间的混淆程度各不相同。研究结果为黑客工具的识别与演化提供了可参考的模型,亦为黑客攻击的防御提供了实践指导。 展开更多
关键词 黑客论坛 黑客工具 狄利克雷分布 马尔可夫模型
下载PDF
一种结合主题模型的推荐算法 被引量:10
16
作者 曹占伟 胡晓鹏 《计算机应用研究》 CSCD 北大核心 2019年第6期1638-1642,共5页
针对传统协同过滤推荐算法存在的冷启动、数据稀疏以及相似度度量的准确性问题,基于LDA主题模型对文本隐式主题挖掘的有效性和KL散度在主题分布相似性度量的准确性,提出了结合LDA主题模型的矩阵分解推荐算法。首先,利用改进的LDA算法输... 针对传统协同过滤推荐算法存在的冷启动、数据稀疏以及相似度度量的准确性问题,基于LDA主题模型对文本隐式主题挖掘的有效性和KL散度在主题分布相似性度量的准确性,提出了结合LDA主题模型的矩阵分解推荐算法。首先,利用改进的LDA算法输出项目—主题分布,并用困惑度作为主题数设置的修正函数;然后分别基于余弦相似度和KL散度计算得到项目相似度矩阵,将得到的相似度矩阵结合原评分训练集输出预评分,再将预评分填充到训练集;最后将训练集输入ALS矩阵分解算法得到推荐结果。通过MovieLens数据集的实验结果表明,该算法在不同隐式参数设定下均能得到比ALS推荐算法以及更小的预测误差,并且最优预测误差小于传统推荐算法。该实验说明了通过集成LDA主题模型的ALS算法效果要优于其他推荐算法。 展开更多
关键词 推荐算法 矩阵分解 狄利克雷分布 KL散度 主题模型
下载PDF
国家高新技术产业开发区生物医药产业政策主题挖掘及量化评价研究 被引量:6
17
作者 乔晗 徐俐颖 +2 位作者 李旭 李树祥 褚淑贞 《中国药房》 CAS 北大核心 2020年第22期2689-2694,共6页
目的:为我国生物医药产业发展提供参考。方法:收集2010年1月-2019年12月我国全部169家国家高新技术产业开发区(以下简称"国家高新区")官方网站上发布的政策文件,从中筛选出专门针对生物医药产业方面的政策以及全部产业政策中... 目的:为我国生物医药产业发展提供参考。方法:收集2010年1月-2019年12月我国全部169家国家高新技术产业开发区(以下简称"国家高新区")官方网站上发布的政策文件,从中筛选出专门针对生物医药产业方面的政策以及全部产业政策中提及生物医药产业发展的政策,采用Excel 2019软件进行政策信息的汇总分析;使用Gensim包完成政策文本的预处理并构建隐合狄利克雷分布(LDA)主题模型,实现对政策文本中潜在语义信息的提取与分析。结果:共收集到相关政策文本518件,其中有效词汇共58617个,高频词汇包括项目、人才、支持、补贴、创新等;提取出8个主题,按主题强度排序依次为技术创新、人才建设、融资支持、项目金融支持、税收优惠、资源引领、出口贸易、中小企业建设,强度分别为0.299、0.168、0.134、0.116、0.113、0.063、0.058、0.049。结论:国家高新区生物医药产业政策以技术创新、人才建设和融资支持为主,缺乏对中小企业建设、资源引领、出口贸易的关注。今后国家高新区对生物医药产业的政策支持及体系建设应重点完善政策激励措施,平衡各领域政策运用比例;鼓励企业扩大海外市场,学习海外先进技术,加强科研等领域的多边合作;配套相应的政策以增进企业间的交流合作,发挥龙头企业和名牌产品的带动作用,促进中小企业发展。 展开更多
关键词 狄利克雷分布主题模型 国家高新技术产业开发区 生物医药产业 政策 主题挖掘 量化评价
下载PDF
基于Labeled-LDA模型的居民群体分类与出行特征分析 被引量:2
18
作者 王长硕 蒲英霞 《计算机应用与软件》 北大核心 2022年第11期17-24,共8页
如何使用海量社交媒体数据分析城市居民日常行为特征成为国内外学者广泛关注的问题。城市居民在不同时空间扮演的社会角色的不同将导致其出行行为特征随之变化,为此构建居民出行活动模式模型表征居民出行行为,引入自然语言处理领域内的... 如何使用海量社交媒体数据分析城市居民日常行为特征成为国内外学者广泛关注的问题。城市居民在不同时空间扮演的社会角色的不同将导致其出行行为特征随之变化,为此构建居民出行活动模式模型表征居民出行行为,引入自然语言处理领域内的标签狄利克雷分布模型Labeled-LDA完成群体分类,分析居民群体的出行行为特征,并讨论个体出行行为的不确定性。使用波士顿海量Twitter签到数据的实验表明,该方法能够有效区分典型的城市居民群体,并为居民在不同时空间表现出的不同出行行为特征提供概率解释。 展开更多
关键词 居民出行行为 标签狄利克雷分布(Labeled-LDA) 社交媒体大数据 移动模式
下载PDF
基于文本上下文和网络信息的链接预测方法 被引量:1
19
作者 任奕豪 张琨 +1 位作者 赵静 冯新淇 《计算机与数字工程》 2017年第10期1990-1995,共6页
对于链接预测问题,传统的预测模型通常仅考虑网络中节点的链接信息,而社会网络中普遍存在的文本信息可以用于提高链接预测的准确性,利用文本内容来帮助链接预测越发受到重视。结合文本上下文和网络链接,提出了一种基于层次隐狄利克雷分... 对于链接预测问题,传统的预测模型通常仅考虑网络中节点的链接信息,而社会网络中普遍存在的文本信息可以用于提高链接预测的准确性,利用文本内容来帮助链接预测越发受到重视。结合文本上下文和网络链接,提出了一种基于层次隐狄利克雷分布主题模型的链接预测模型。模型通过层次隐狄利克雷分布模型对文本数据进行训练,从迭代收敛的主题树中提取文本相似特征,然后利用支持向量机模型来训练特征数据以提高链接预测的精度,并得到二元分类器,根据该分类器,可以预测文本与其他文本链接的可能性。实验结果表明,所提出的模型相比于已有的相关模型,提高了预测文本网络中文档之间链接的准确度。 展开更多
关键词 链接预测 层次狄利克雷分布 主题树 文本相似特征 支持向量机
下载PDF
融合LDA的门控图卷积网络文本分类研究
20
作者 高维奇 黄浩 +1 位作者 胡英 吾守尔·斯拉木 《东北师大学报(自然科学版)》 CAS 北大核心 2021年第4期68-76,共9页
在现有文本图基础上引入隐狄利克雷分布,将文档-主题和主题-词信息融入文本图以丰富文本图中节点间关系,之后将该文本图送入一个基于图卷积网络门控机制模型.在多个数据集上进行验证.结果表明,所提出的模型优于现有图卷积网络文本分类模型.
关键词 文本分类 图卷积网络 狄利克雷分布 门控机制 文本图
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部