MonteCloPi算法是一种基于蒙特卡洛树搜索(Monte Carlo tree search,MCTS)的任意时间子群发现算法,旨在使用MCTS策略构建非对称的最佳优先搜索树来发现高质量的多样性模式集,但是限制了目标为二值变量.为此,本文结合了数值目标的特点,...MonteCloPi算法是一种基于蒙特卡洛树搜索(Monte Carlo tree search,MCTS)的任意时间子群发现算法,旨在使用MCTS策略构建非对称的最佳优先搜索树来发现高质量的多样性模式集,但是限制了目标为二值变量.为此,本文结合了数值目标的特点,通过为置信度上界(upper confidence bound,UCB)公式选取合适的C值、动态调整各个样本的拓展权重并对搜索树进行剪枝、使用自适应top-k均值更新策略,将MonteCloPi算法拓展到了数值目标.最后,在UCI数据集、全国健康与营养调查(national health and nutrition examination survey,NHANES)听力测试数据集上的实验结果表明本文的算法相比其他算法可以发现更高质量的多样性模式集,并且最优子群的可解释性也更好.展开更多
FSSD(fast and efficient subgroup set discovery)是一种子群发现算法,旨在短时间内提供多样性模式集,然而此算法为了减少运行时间,选择域数量少的特征子集,当特征子集与目标类不相关或者弱相关时,模式集质量下降.针对这个问题,提出一...FSSD(fast and efficient subgroup set discovery)是一种子群发现算法,旨在短时间内提供多样性模式集,然而此算法为了减少运行时间,选择域数量少的特征子集,当特征子集与目标类不相关或者弱相关时,模式集质量下降.针对这个问题,提出一种基于集成特征选择的FSSD算法,它在预处理阶段使用基于ReliefF(Relief-F)和方差分析的集成特征选择来获得多样性和相关性强的特征子集,再使用FSSD算法返回高质量模式集.在UCI数据集、全国健康和营养调查报告(NHANES)数据集上的实验结果表明,改进后的FSSD算法提高了模式集质量,归纳出更有趣的知识.在NHANES数据集上,进一步分析模式集的特征有效性和阳性预测值.展开更多
文摘MonteCloPi算法是一种基于蒙特卡洛树搜索(Monte Carlo tree search,MCTS)的任意时间子群发现算法,旨在使用MCTS策略构建非对称的最佳优先搜索树来发现高质量的多样性模式集,但是限制了目标为二值变量.为此,本文结合了数值目标的特点,通过为置信度上界(upper confidence bound,UCB)公式选取合适的C值、动态调整各个样本的拓展权重并对搜索树进行剪枝、使用自适应top-k均值更新策略,将MonteCloPi算法拓展到了数值目标.最后,在UCI数据集、全国健康与营养调查(national health and nutrition examination survey,NHANES)听力测试数据集上的实验结果表明本文的算法相比其他算法可以发现更高质量的多样性模式集,并且最优子群的可解释性也更好.
文摘FSSD(fast and efficient subgroup set discovery)是一种子群发现算法,旨在短时间内提供多样性模式集,然而此算法为了减少运行时间,选择域数量少的特征子集,当特征子集与目标类不相关或者弱相关时,模式集质量下降.针对这个问题,提出一种基于集成特征选择的FSSD算法,它在预处理阶段使用基于ReliefF(Relief-F)和方差分析的集成特征选择来获得多样性和相关性强的特征子集,再使用FSSD算法返回高质量模式集.在UCI数据集、全国健康和营养调查报告(NHANES)数据集上的实验结果表明,改进后的FSSD算法提高了模式集质量,归纳出更有趣的知识.在NHANES数据集上,进一步分析模式集的特征有效性和阳性预测值.