随着互联网和面向服务技术的发展,一种新型的Web应用——Mashup服务,开始在互联网上流行并快速增长.如何在众多Mashup服务中找到高质量的服务,已经成为一个大家关注的热点问题.寻找功能相似的服务并进行聚类,能有效提升服务发现的精度...随着互联网和面向服务技术的发展,一种新型的Web应用——Mashup服务,开始在互联网上流行并快速增长.如何在众多Mashup服务中找到高质量的服务,已经成为一个大家关注的热点问题.寻找功能相似的服务并进行聚类,能有效提升服务发现的精度与效率.目前国内外主流方法为挖掘Mashup服务中隐含的功能信息,进一步采用特定聚类算法如K-means等进行聚类.然而Mashup服务文档通常为短文本,基于传统的挖掘算法如LDA无法有效处理短文本,导致聚类效果并不理想.针对这一问题,提出一种基于非负矩阵分解的TWE-NMF(nonnegative matrix factorization combining tags and word embedding)模型对Mashup服务进行主题建模.所提方法首先对Mashup服务规范化处理,其次采用一种基于改进的Gibbs采样的狄利克雷过程混合模型,自动估算主题的数量,随后将词嵌入和服务标签等信息与非负矩阵分解相结合,求解Mashup服务主题特征,并通过谱聚类算法将服务聚类.最后,对所提方法的性能进行了综合评价,实验结果表明,与现有的服务聚类方法相比,所提方法在准确率、召回率、F-measure、纯度和熵等评价指标方面都有显著提高.展开更多
随着互联网上Mashup服务数量及种类的急剧增长,如何从这些海量的服务集合中快速、精准地发现满足用户需求的Mashup服务,成为一个具有挑战性的问题.针对这一问题,本文提出一种融合功能语义关联计算与密度峰值检测的Mashup服务聚类方法,...随着互联网上Mashup服务数量及种类的急剧增长,如何从这些海量的服务集合中快速、精准地发现满足用户需求的Mashup服务,成为一个具有挑战性的问题.针对这一问题,本文提出一种融合功能语义关联计算与密度峰值检测的Mashup服务聚类方法,用于缩小服务的搜索空间,提升服务发现的精度与效率.首先,该方法对Mashup服务进行元信息提取和描述文本内容整理,并根据Web API组合的标签对相应Mashup服务标签进行扩充.然后,用基于功能语义关联计算方法(Functional Semantic Association Calculation Method,FSAC)提取出各服务描述的功能名词集合,并通过功能名词的语义权重来构造Mashup语义特征向量.最后,通过基于密度信息的聚类中心检测方法(Clustering Center Detection Method based on Density Information,CCD-DI)检测出最为合适的K个Mashup语义特征向量作为K-means算法的初始中心,进行聚类划分.基于ProgrammableWeb的真实数据实验表明,本文所提聚类方法在纯度、精准率、召回率、熵等指标上均有良好表现.展开更多
文摘随着互联网和面向服务技术的发展,一种新型的Web应用——Mashup服务,开始在互联网上流行并快速增长.如何在众多Mashup服务中找到高质量的服务,已经成为一个大家关注的热点问题.寻找功能相似的服务并进行聚类,能有效提升服务发现的精度与效率.目前国内外主流方法为挖掘Mashup服务中隐含的功能信息,进一步采用特定聚类算法如K-means等进行聚类.然而Mashup服务文档通常为短文本,基于传统的挖掘算法如LDA无法有效处理短文本,导致聚类效果并不理想.针对这一问题,提出一种基于非负矩阵分解的TWE-NMF(nonnegative matrix factorization combining tags and word embedding)模型对Mashup服务进行主题建模.所提方法首先对Mashup服务规范化处理,其次采用一种基于改进的Gibbs采样的狄利克雷过程混合模型,自动估算主题的数量,随后将词嵌入和服务标签等信息与非负矩阵分解相结合,求解Mashup服务主题特征,并通过谱聚类算法将服务聚类.最后,对所提方法的性能进行了综合评价,实验结果表明,与现有的服务聚类方法相比,所提方法在准确率、召回率、F-measure、纯度和熵等评价指标方面都有显著提高.
文摘随着互联网上Mashup服务数量及种类的急剧增长,如何从这些海量的服务集合中快速、精准地发现满足用户需求的Mashup服务,成为一个具有挑战性的问题.针对这一问题,本文提出一种融合功能语义关联计算与密度峰值检测的Mashup服务聚类方法,用于缩小服务的搜索空间,提升服务发现的精度与效率.首先,该方法对Mashup服务进行元信息提取和描述文本内容整理,并根据Web API组合的标签对相应Mashup服务标签进行扩充.然后,用基于功能语义关联计算方法(Functional Semantic Association Calculation Method,FSAC)提取出各服务描述的功能名词集合,并通过功能名词的语义权重来构造Mashup语义特征向量.最后,通过基于密度信息的聚类中心检测方法(Clustering Center Detection Method based on Density Information,CCD-DI)检测出最为合适的K个Mashup语义特征向量作为K-means算法的初始中心,进行聚类划分.基于ProgrammableWeb的真实数据实验表明,本文所提聚类方法在纯度、精准率、召回率、熵等指标上均有良好表现.