期刊文献+
共找到277篇文章
< 1 2 14 >
每页显示 20 50 100
基于映射距离比离群因子的离群点检测算法
1
作者 张忠平 姚春辰 +3 位作者 孙光旭 刘硕 张睿博 魏永辉 《计算机集成制造系统》 EI CSCD 北大核心 2024年第5期1719-1732,共14页
针对基于邻近性的离群点检测方法需要花费大量时间过滤正常点,并且在检测全局离群点时难以检测出局部离群点的问题,提出一种基于映射距离比离群因子离群点检测(MDROF)算法。首先,为了减少正常点在检测过程中的时间消耗,给出了差异相似... 针对基于邻近性的离群点检测方法需要花费大量时间过滤正常点,并且在检测全局离群点时难以检测出局部离群点的问题,提出一种基于映射距离比离群因子离群点检测(MDROF)算法。首先,为了减少正常点在检测过程中的时间消耗,给出了差异相似度的概念,通过定义差异相似度剪枝因子过滤掉数据集中的大部分正常点。其次,定义映射k距离,通过映射距离与可达距离的比值刻画数据对象的局部离群程度,通过可达密度刻画数据对象的全局离群程度。最后,结合数据对象相互近邻点的平均排位定义映射距离比离群因子来检测离群点。在人工数据集以及真实数据集上分别对该算法与其他经典的离群点检测算法在精确率、AUC值和离群点发现曲线上进行实验对比分析。实验结果证明MDROF算法在离群点检测的准确性和稳定性上明显优于对比算法。 展开更多
关键词 数据挖掘 离群点检测 差异相似度剪枝 映射k距离 映射距离比
下载PDF
基于CART决策树的分布式数据离群点检测算法
2
作者 朱华 乔勇进 董国钢 《现代电子技术》 北大核心 2024年第16期157-162,共6页
在分布式计算环境中,离群点通常表示数据中的异常情况,例如故障、欺诈、攻击等。通过检测分布式数据的离群点,可以对这些异常数据进行集中处理,保护系统和数据的安全。而进行离群点检测时,不仅要考虑数据的规模和复杂性,还要在分布式环... 在分布式计算环境中,离群点通常表示数据中的异常情况,例如故障、欺诈、攻击等。通过检测分布式数据的离群点,可以对这些异常数据进行集中处理,保护系统和数据的安全。而进行离群点检测时,不仅要考虑数据的规模和复杂性,还要在分布式环境下高效地发现离群点。因此,提出一种基于CART决策树的分布式数据离群点检测算法。在构建CART决策树时,使用类间中心距离作为分裂准则,根据分离类别对训练数据进行分类,从而确定数据的类型。在上述基础上,考虑到离群点的分布模式与其周围数据对象不同,使用空间局部偏离因子(SLDF)对空间内各个数据对象之间的离群程度展开度量,同时在高维空间内展开网格划分,引入SLDF算法检测剩余离群点集,最终实现分布式数据离群点检测。实验结果表明,所提方法的离散点检测错误率在0.010以内,可以更加精准地实现分布式数据离群点检测,具有良好的检测性能。 展开更多
关键词 CART决策树 分布式数据 离群点检测 类间距离 数据分类 空间局部偏离因子
下载PDF
改进DPC聚类算法的离群点检测与解释方法
3
作者 周玉 夏浩 裴泽宣 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第8期68-85,共18页
为解决全局离群点检测方法无法对局部离群点进行检测,以及局部异常因子在面对大量局部离群点时性能下降的问题,利用k近邻(KNN)和核密度估计方法(KDE)提出一种基于改进快速搜索和发现密度峰值聚类算法(KDPC)的离群点检测与解释方法,该方... 为解决全局离群点检测方法无法对局部离群点进行检测,以及局部异常因子在面对大量局部离群点时性能下降的问题,利用k近邻(KNN)和核密度估计方法(KDE)提出一种基于改进快速搜索和发现密度峰值聚类算法(KDPC)的离群点检测与解释方法,该方法能够同时对数据点的全局和局部进行分析。首先,利用k近邻和核密度估计方法计算数据点的局部密度,代替传统DPC算法中根据截断距离计算的局部密度。其次,将数据点的k近邻距离之和作为全局异常值,并通过KDPC聚类算法计算簇密度以及数据点的局部异常值。最后,将数据点的全局与局部异常值进行乘积作为最终异常得分,选取异常得分最高的Top-n作为离群点,通过构建全局-局部异常值决策图对全局和局部离群点进行解释。利用人工数据集和UCI数据集进行实验并与10种常用离群点检测方法进行比较。结果表明,该方法对全局和局部离群点都有着较高的检测精度和检测性能,并且AUC方面受k值影响较小。同时,利用该方法对NBA球员数据进行分析讨论,进一步证明了该方法的实用性和有效性。 展开更多
关键词 离群点检测 聚类 密度峰值 K近邻 核密度估计
下载PDF
基于改进K-means的局部离群点检测方法
4
作者 周玉 夏浩 +1 位作者 岳学震 王培崇 《工程科学与技术》 EI CAS CSCD 北大核心 2024年第4期66-77,共12页
离群点检测任务是指检测与正常数据在特征属性上存在显著差异的异常数据。大多数基于聚类的离群点检测方法主要从全局角度对数据集中的离群点进行检测,而对局部离群点的检测性能较弱。基于此,本文通过引入快速搜索和发现密度峰值方法改... 离群点检测任务是指检测与正常数据在特征属性上存在显著差异的异常数据。大多数基于聚类的离群点检测方法主要从全局角度对数据集中的离群点进行检测,而对局部离群点的检测性能较弱。基于此,本文通过引入快速搜索和发现密度峰值方法改进K-means聚类算法,提出了一种名为KLOD(local outlier detection based on improved K-means and least-squares methods)的局部离群点检测方法,以实现对局部离群点的精确检测。首先,利用快速搜索和发现密度峰值方法计算数据点的局部密度和相对距离,并将二者相乘得到γ值。其次,将γ值降序排序,利用肘部法则选择γ值最大的k个数据点作为K-means聚类算法的初始聚类中心。然后,通过K-means聚类算法将数据集聚类成k个簇,计算数据点在每个维度上的目标函数值并进行升序排列。接着,确定数据点的每个维度的离散程度并选择适当的拟合函数和拟合点,通过最小二乘法对升序排列的每个簇的每1维目标函数值进行函数拟合并求导,以获取变化率。最后,结合信息熵,将每个数据点的每个维度目标函数值乘以相应的变化率进行加权,得到最终的异常得分,并将异常值得分较高的top-n个数据点视为离群点。通过人工数据集和UCI数据集,对KLOD、LOF和KNN方法在准确度上进行仿真实验对比。结果表明KLOD方法相较于KNN和LOF方法具有更高的准确度。本文提出的KLOD方法能够有效改善K-means聚类算法的聚类效果,并且在局部离群点检测方面具有较好的精度和性能。 展开更多
关键词 离群点检测 K均值聚类 最小二乘法 密度峰值 目标函数值
下载PDF
基于离群点检测和自适应参数的三支DBSCAN算法
5
作者 李志聪 孙旭阳 《计算机应用研究》 CSCD 北大核心 2024年第7期1999-2004,共6页
针对经典的DBSCAN算法存在难以确定全局最优参数和误判离群点的问题,该算法首先从选择最优参数角度出发,通过数据集的分布特征生成Eps和MinPts列表,将两个列表中的参数进行全组合操作,把不同的参数组合依次进行聚类,从而寻找准确率最高... 针对经典的DBSCAN算法存在难以确定全局最优参数和误判离群点的问题,该算法首先从选择最优参数角度出发,通过数据集的分布特征生成Eps和MinPts列表,将两个列表中的参数进行全组合操作,把不同的参数组合依次进行聚类,从而寻找准确率最高点对应的参数。最后从离群点角度出发,将三支决策思想与离群点检测LOF算法进行结合。该算法与多种聚类算法进行效果对比分析,结果表明该算法能够全自动化选择全局最优参数,并提高聚类算法的准确性。 展开更多
关键词 DBSCAN算法 三支聚类 自适应参数 离群点检测
下载PDF
基于多元离群点检测的动态目标去除SLAM方法
6
作者 王磊 张茗宇 +2 位作者 潘明然 张永鑫 郝涌汀 《探测与控制学报》 CSCD 北大核心 2024年第5期64-70,共7页
考虑动态环境下的目标移动对同步定位与建图(SLAM)位姿估计精度的影响,提出一种通过稠密光流计算像素运动并经过离群点检测的动态目标SLAM算法。采用稠密光流法计算图像序列的每个像素的运动信息进行动态目标判断,利用离群点检测对动态... 考虑动态环境下的目标移动对同步定位与建图(SLAM)位姿估计精度的影响,提出一种通过稠密光流计算像素运动并经过离群点检测的动态目标SLAM算法。采用稠密光流法计算图像序列的每个像素的运动信息进行动态目标判断,利用离群点检测对动态目标进行提取,通过均值滤波对动态目标进行模糊剔除,消除动态目标对SLAM精度的影响。在TUM数据集与定制数据集上进行实验,在TUM数据集测试中,与基于特征点法的Orb-slam3标杆算法进行对比分析,在动态目标影响条件下,该算法得到的轨迹误差降低43.25%;搭建开放式四旋翼无人机测试系统,在定制数据集中,进行飞行试验,得到的估计轨迹位置误差控制在1 m内,满足使用场景要求,进一步验证了算法的有效性。 展开更多
关键词 同步定位与建图 稠密光流 位姿估计 动态目标 离群点检测
下载PDF
基于局部信息熵的计算机网络高维数据离群点检测系统
7
作者 谭印 苏雯洁 《现代电子技术》 北大核心 2024年第10期91-95,共5页
通过离群点检测可以及时发现计算机网络中的异常,从而为风险预警和控制提供重要线索。为此,设计一种基于局部信息熵的计算机网络高维数据离群点检测系统。在高维数据采集模块中,利用Wireshark工具采集计算机网络原始高维数据包;并在高... 通过离群点检测可以及时发现计算机网络中的异常,从而为风险预警和控制提供重要线索。为此,设计一种基于局部信息熵的计算机网络高维数据离群点检测系统。在高维数据采集模块中,利用Wireshark工具采集计算机网络原始高维数据包;并在高维数据存储模块中建立MySQL数据库、Zooleeper数据库与Redis数据库,用于存储采集的高维数据包。在高维数据离群点检测模块中,通过微聚类划分算法划分存储的高维数据包,得到数个微聚类;然后计算各微聚类的局部信息熵,确定各微聚类内是否存在离群点;再依据偏离度挖掘微聚类内的离群点;最后,利用高维数据可视化模块呈现离群点检测结果。实验证明:所设计系统不仅可以有效采集计算机网络高维数据并划分计算机网络高维数据,还能够有效检测高维数据离群点,且离群点检测效率较快。 展开更多
关键词 计算机网络 高维数据 离群点检测 局部信息熵 Wireshark工具 微聚类划分
下载PDF
基于邻域平均距离的离群点检测算法
8
作者 史金余 杜晓涵 +1 位作者 孙禹明 李春慧 《计算机与数字工程》 2024年第7期1916-1920,共5页
离群点检测是数据挖掘领域的一个热点问题,离群点检测可以有效地识别出数据集中的离群点,为数据分析提供方便。为提高数据分析精度,有效筛选离群点,提出一种基于邻域平均距离的离群点检测算法。首先计算误差平方和并使用肘部法确定最佳... 离群点检测是数据挖掘领域的一个热点问题,离群点检测可以有效地识别出数据集中的离群点,为数据分析提供方便。为提高数据分析精度,有效筛选离群点,提出一种基于邻域平均距离的离群点检测算法。首先计算误差平方和并使用肘部法确定最佳聚类个数K,然后将K代入K-Means的优化算法二分K-Means中对数据集进行聚类处理,从而得到K个数据簇,最后分别计算每个簇中质心ε邻域的邻域平均距离,将与质心距离大于阈值距离的样本点作为离群点集。实验结果表明,在标准数据集UCI上,该算法的检测率有较好的表现。 展开更多
关键词 离群点检测 二分K-Means 肘部法 平均邻域距离
下载PDF
基于模糊邻域熵的离群点检测方法
9
作者 刘佳莉 陈锦坤 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期511-522,共12页
离群点检测(又称异常点检测)是数据挖掘领域中一个重要的研究方向,其目的是找出显著区别于其他数据的数据点.针对基于传统粗糙集理论的离群点检测方法存在忽略样本的模糊性和邻域关系等问题,利用模糊邻域粗糙集弥补经典粗糙集的不足,并... 离群点检测(又称异常点检测)是数据挖掘领域中一个重要的研究方向,其目的是找出显著区别于其他数据的数据点.针对基于传统粗糙集理论的离群点检测方法存在忽略样本的模糊性和邻域关系等问题,利用模糊邻域粗糙集弥补经典粗糙集的不足,并结合熵的不确定性,提出一种新的基于模糊邻域熵的离群点检测方法.首先,采用模糊邻域半径和混合模糊相似度构造模糊邻域近似空间;然后,定义一种特定的模糊邻域组合熵和相对模糊邻域组合熵来构建模糊邻域离群度,进而定义基于模糊邻域熵的离群因子实现离群点检测,并设计了基于模糊邻域熵的离群点检测算法(FNEOD).最后,将FNEOD算法与主要的离群点检测算法进行比较.实验结果表明,该方法具有较好的有效性和适应性. 展开更多
关键词 数据挖掘 离群点检测 模糊邻域组合熵 相对模糊邻域组合熵
下载PDF
基于混合近邻局部分布差异的离群点检测算法
10
作者 张君 范铭 金举 《计算机与数字工程》 2024年第2期301-306,共6页
离群点检测作为数据挖掘领域的重要任务,其目的是从表示事件或对象行为的数据中找出不一致数据。目前大部分传统的无监督离群点检测算法,如基于距离或密度的方法,识别多维度空间离群数据时都存在因维度诅咒导致检测精度衰退的问题。论... 离群点检测作为数据挖掘领域的重要任务,其目的是从表示事件或对象行为的数据中找出不一致数据。目前大部分传统的无监督离群点检测算法,如基于距离或密度的方法,识别多维度空间离群数据时都存在因维度诅咒导致检测精度衰退的问题。论文提出了基于混合近邻的离群点检测算法,该算法以数据项的混合近邻作为新的局部影响空间,以双向共享近邻和欧式距离重新定义了数据项的相似度计算方式,通过对比数据项与其局部影响空间中样本的平均局部分布差异衡量数据的局部离群程度,从而识别离群点。在合成和真实数据集上和其他同类算法的对比实验结果证明,该算法在离群点检测方面具有一定的提高。 展开更多
关键词 无监督 离群点检测 混合近邻 局部分布差异
下载PDF
IRCGN:用于高效多视图离群点检测的生成式网络
11
作者 郑啸 王权鑫 黄俊 《软件学报》 EI CSCD 北大核心 2024年第11期5163-5178,共16页
由于多视图数据特征复杂,多视图离群检测已经成为离群点检测中一个极具挑战性的研究课题.多视图数据中存在3种类型的离群点,分别为类离群点、属性离群点和类-属性离群点.早期多视图离群点检测方法大多基于聚类假设,当数据中没有聚类结... 由于多视图数据特征复杂,多视图离群检测已经成为离群点检测中一个极具挑战性的研究课题.多视图数据中存在3种类型的离群点,分别为类离群点、属性离群点和类-属性离群点.早期多视图离群点检测方法大多基于聚类假设,当数据中没有聚类结构时很难检测出离群点.近年来,许多多视图离群点检测方法使用多视图一致的近邻假设来代替聚类假设,但仍存在新增数据检测效率低的问题.此外,大多数现有的多视图离群点检测方法都是无监督的,在模型学习过程中会受到离群点的影响,处理高离群率的数据集时效果不佳.为了解决这些问题,提出一种用于高效多视图离群点检测的视图内重建和跨视图生成网络来检测3种类型的离群点,所提方法包含视图内重建和跨视图生成两个模块.通过使用正常数据训练,所提方法可以充分捕捉正常数据中每个视图的特征,并较好地重建和生成相应的视图.此外,还提出一个新的离群值计算方法,为每一个样本计算相应的离群值得分,从而高效地检测新增数据.大量的实验结果表明,所提出的方法明显优于现有的方法.这是将基于生成对抗网络的深度模型应用于多视图离群点检测的工作. 展开更多
关键词 离群点检测 多视图数据 半监督 视图内重建 跨视图生成
下载PDF
基于反向标签传播的多生成器主动学习算法及其在离群点检测中的应用研究
12
作者 邢开颜 陈文 《计算机科学》 CSCD 北大核心 2024年第4期359-365,共7页
当前正负类训练样本分布不均衡的问题已极大地限制了离群检测模型的性能。基于主动学习的离群点检测算法能够通过对样本分布的主动学习,自动合成离群点以平衡训练数据分布。然而,传统的基于主动学习的检测方法缺乏对合成离群点的质量评... 当前正负类训练样本分布不均衡的问题已极大地限制了离群检测模型的性能。基于主动学习的离群点检测算法能够通过对样本分布的主动学习,自动合成离群点以平衡训练数据分布。然而,传统的基于主动学习的检测方法缺乏对合成离群点的质量评估和过滤筛选,导致通过主动学习过程合成的训练样本点中存在样本噪声,并降低了分类模型的性能。针对上述问题,提出了基于反向标签传播的多生成器主动学习算法(Multi-Generator Active Learning Algorithm Based on Reverse Label Propagation,MG-RLP),其包括多个神经网络生成器和一个用于离群点边界检测的鉴别器。MG-RLP通过多个子生成器生成多分布特征的样本数据,以防止单生成器合成的训练样本过于聚集而导致的模式崩塌问题。同时,MG-RLP利用反向标签传播过程对神经网络生成的样本点进行质量评估,以筛选出可信的合成样本。筛选后的样本被保留在训练样本中用于对鉴别器进行迭代训练,以提升对离群点的检测性能。基于5个公共数据集,对比验证了MG-RLP与6种典型的离群点检测算法的性能,结果表明,MG-RLP在AUC和检测精度指标上分别提高了15%和22%,结果验证了MG-RLP的有效性。 展开更多
关键词 离群点检测 主动学习 生成对抗网络 标签传播
下载PDF
基于自适应距离的离群点检测算法
13
作者 曹霞 郑爱宇 郝静 《计算机技术与发展》 2024年第9期138-146,共9页
基于近邻的离群点检测方法根据数据对象周围的邻居来挖掘离群点,但该类方法受阈值参数的影响较大,且大多只在数据分布单一的情况下表现良好。针对数据分布多样的情况下离群点检测困难以及阈值参数的敏感性问题,提出了一种基于自适应距... 基于近邻的离群点检测方法根据数据对象周围的邻居来挖掘离群点,但该类方法受阈值参数的影响较大,且大多只在数据分布单一的情况下表现良好。针对数据分布多样的情况下离群点检测困难以及阈值参数的敏感性问题,提出了一种基于自适应距离的离群点检测算法。首先,通过动态地调整数据属性的贡献因子,使得关键属性在离群点检测中具有更大的影响力,能够准确反映关键属性与离群点之间的关联性;其次,综合考虑属性贡献因子和密度来计算数据对象之间的距离,以便更好地识别数据对象之间的位置关系和密度分布特征;最后,为了降低阈值参数的影响,逐步增大邻居的大小来计算数据对象的自适应距离的变化之和,将其累加作为离群得分。通过在人工合成数据集和公共数据集上进行实验,验证了提出的算法检测精度更高。 展开更多
关键词 数据挖掘 离群点检测 属性贡献因子 密度分布 自适应距离
下载PDF
安全离群点检测管理模式在医用气体智慧化系统的应用
14
作者 石瑀 《中国科技纵横》 2024年第9期49-51,共3页
为分析常规报警检测管理模式与安全离群点检测管理模式在医用气体智慧化系统中的管理效果,选择医用气体智慧化系统使用装置,以管理模式不同将其分为对照组和研究组。对照组采用常规报警检测管理模式,研究组采用安全离群点检测管理模式,... 为分析常规报警检测管理模式与安全离群点检测管理模式在医用气体智慧化系统中的管理效果,选择医用气体智慧化系统使用装置,以管理模式不同将其分为对照组和研究组。对照组采用常规报警检测管理模式,研究组采用安全离群点检测管理模式,比较两种管理模式在安全隐患、系统运行质量、满意度等方面的差异。研究组应用医用气体智慧化系统中的管理制度、设备设施、常规检查、应急处理来评分,其结果显著高于对照组。设备运行效率、报警频次、维修频次以及应急维修时间显著优于对照组;应用满意率显著高于对照组,组间差异具有统计学意义(P<0.05)。因此,将安全离群点检测管理模式应用于医用气体智慧化系统管理中具有较好的效果,可以查找设备管理中存在的问题,优化管理模式,提升医用气体系统的运行质量。 展开更多
关键词 常规报警检测管理模式 安全离群点检测管理模式 医用气体智慧化系统 管理效果
下载PDF
基于离群点检测的动力电池一致性快速辨识方法 被引量:2
15
作者 黄彧 王占国 +2 位作者 张言茹 王瑞 张维戈 《电测与仪表》 北大核心 2023年第10期66-72,共7页
动力电池成组后在使用过程中,由于初始生产工艺和环境因素等不可抗因素,逐渐产生不一致性并发展。面向动力电池组一致性的辨识需求,提出一种动力电池一致性快速辨识方法。所提方法基于统计分布的离群点检测方法对整组电池的单体电压数... 动力电池成组后在使用过程中,由于初始生产工艺和环境因素等不可抗因素,逐渐产生不一致性并发展。面向动力电池组一致性的辨识需求,提出一种动力电池一致性快速辨识方法。所提方法基于统计分布的离群点检测方法对整组电池的单体电压数据进行计算分析,辨识出电池组一致性状态、较极端单体及其异常原因与极端程度。方法涉及测试过程简单、计算量小,适用于日常性快速检测,经算例分析验证了辨识方法的可行性和有效性。 展开更多
关键词 动力电池 一致性 离群点检测 正态分布
下载PDF
基于自适应邻居图的离群点检测方法 被引量:3
16
作者 缑鹏飞 宋承云 《计算机应用研究》 CSCD 北大核心 2023年第11期3309-3314,共6页
离群点检测的目标是识别数据集中与其他样本明显不同的个体,以便检测数据中的异常或异常状态。现有的方法难以有效应对复杂、非线性分布的数据,并且面临参数敏感性和数据分布多样性的问题。为此,现提出一种新型图结构——自适应邻居图,... 离群点检测的目标是识别数据集中与其他样本明显不同的个体,以便检测数据中的异常或异常状态。现有的方法难以有效应对复杂、非线性分布的数据,并且面临参数敏感性和数据分布多样性的问题。为此,现提出一种新型图结构——自适应邻居图,以边为导向,通过迭代的方式对数据进行特征提取,并计算近邻可达度对离群点进行识别,减小了参数的影响,同时可适用于不同分布类型的数据。为了充分验证其性能,将该方法在多个合成与真实数据集上同其他方法进行了比较分析。实验结果表明,该方法在所有19个数据集中平均排名第一,在保持高精度的同时表现出稳定性。 展开更多
关键词 离群点检测 自适应邻居 面向边的方法 基于图的离群点检测
下载PDF
采用离群点检测技术的混合型数据聚类初始化方法 被引量:5
17
作者 杨志勇 江峰 +1 位作者 于旭 杜军威 《智能系统学报》 CSCD 北大核心 2023年第1期56-65,共10页
近年来,混合型数据的聚类问题受到广泛关注。作为处理混合型数据的一种有效方法,K-prototype聚类算法在初始化聚类中心时通常采用随机选取的策略,然而这种策略在很多实际应用中难以保证聚类结果的质量。针对上述问题,采用基于离群点检... 近年来,混合型数据的聚类问题受到广泛关注。作为处理混合型数据的一种有效方法,K-prototype聚类算法在初始化聚类中心时通常采用随机选取的策略,然而这种策略在很多实际应用中难以保证聚类结果的质量。针对上述问题,采用基于离群点检测的策略来为K-prototype算法选择初始中心,并提出一种新的混合型数据聚类初始化算法(initialization of K-prototype clustering based on outlier detection and density,IKP-ODD)。给定一个候选对象,IKP-ODD通过计算其距离离群因子、加权密度以及与已有初始中心之间的加权距离来判断候选对象是否是一个初始中心。IKP-ODD通过采用距离离群因子和加权密度,防止选择离群点作为初始中心。在计算对象的加权密度以及对象之间的加权距离时,采用邻域粗糙集中的粒度邻域熵来计算每一个属性的重要性,并根据属性重要性的大小为不同属性赋予不同的权重,有效地反映不同属性之间的差异性。在多个UCI数据集上的实验表明,相对于现有的初始化方法,IKP-ODD能够更好地解决K-prototype聚类的初始化问题。 展开更多
关键词 聚类初始化 混合型数据 离群点检测 邻域粗糙集 粒度邻域熵 距离离群因子 加权密度 加权距离
下载PDF
基于融合数据自表示的离群点检测算法 被引量:1
18
作者 高亚星 赵旭俊 曹栩阳 《计算机技术与发展》 2023年第12期41-48,共8页
数据自表示方法可以用于离群点检测,起到了放大数据间差异性和关联性的作用,但现有技术未能体现特征之间关联性对离群点检测的影响,因此无法用于高维数据。针对这个问题,提出了一种基于融合数据自表示的离群点检测算法,它可以有效地检... 数据自表示方法可以用于离群点检测,起到了放大数据间差异性和关联性的作用,但现有技术未能体现特征之间关联性对离群点检测的影响,因此无法用于高维数据。针对这个问题,提出了一种基于融合数据自表示的离群点检测算法,它可以有效地检测出高维数据中的离群点。首先,提出了一种基于特征关系的数据自表示方法,结合互信息与信息熵理论,度量高维数据特征间的关联性,并将其融于数据间的稀疏表示过程,体现了特征间和数据间的复杂关系。其次,提出了一种基于融合组间数据自表示的计算方法,采用点乘的方式将不同特征分组对应的自表示矩阵融于一体,形成全局数据自表示矩阵。最后,提出基于融合数据自表示的离群点检测算法,在全局数据自表示矩阵形成的有向加权图上,通过图随机游走检测离群点。实验结果表明,该算法在真实数据集和人工合成数据集上的检测性能均高于对比算法,证明该算法具有良好的泛化性和稳定性。 展开更多
关键词 离群点检测 数据自表示 特征分组 信息熵 随机游走
下载PDF
基于极差的隔离森林离群点检测算法 被引量:1
19
作者 刘俊成 董东 《软件导刊》 2023年第8期93-98,共6页
基于随机划分的隔离森林算法并没有考虑子样本中含有离群点的概率大小,针对此问题提出基于极差的隔离森林算法,在随机子采样过程中应用极差筛选样本子集,使样本子集中存在较多离群点的概率较大。同时,在隔离树构建过程中通过子节点与其... 基于随机划分的隔离森林算法并没有考虑子样本中含有离群点的概率大小,针对此问题提出基于极差的隔离森林算法,在随机子采样过程中应用极差筛选样本子集,使样本子集中存在较多离群点的概率较大。同时,在隔离树构建过程中通过子节点与其直接父节点的样本量比重控制树的生长形态,以避免生成性能较差的隔离树。在离群值检测数据库(ODDS)中的7个公开数据集以及KDD CUP 99数据集上与8种离群点检测算法比较结果显示,r-iForest算法的准确率高出其他算法2%~40%,且比iForest算法的时间消耗减少约15%。 展开更多
关键词 随机子采样 离群点检测 隔离森林算法 极差
下载PDF
基于离群点检测的关键顾客需求识别
20
作者 曹雪静 王宇 +3 位作者 曹进 张娜 李玉鹏 侯路遥 《计算机集成制造系统》 EI CSCD 北大核心 2023年第8期2801-2812,共12页
对关键顾客需求进行分析和研究是获取产品(再)设计信息的有效途径。在考虑顾客需求重要度动态性的背景下,提出一种基于离群点检测的关键顾客需求识别方法。首先,基于邻域粗糙集理论确定顾客需求项的邻域关系;根据顾客需求项邻域关系所... 对关键顾客需求进行分析和研究是获取产品(再)设计信息的有效途径。在考虑顾客需求重要度动态性的背景下,提出一种基于离群点检测的关键顾客需求识别方法。首先,基于邻域粗糙集理论确定顾客需求项的邻域关系;根据顾客需求项邻域关系所包含的知识确定顾客需求项之间的相似程度进而构建邻域信息网络。然后,结合马尔科夫随机游走策略构建关键顾客需求评估指标,并根据稳态向量识别关键顾客需求。最后,以某汽车产品的关键顾客需求识别为例,通过对比分析验证了方法的可行性和有效性。 展开更多
关键词 关键顾客需求 离群点检测 邻域粗糙集 复杂网络
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部