期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于稳健距离的大数据Logistic回归最优子抽样
1
作者 韩潇 王明秋 赵胜利 《统计与决策》 CSSCI 北大核心 2024年第15期59-64,共6页
大数据统计分析在有限的计算资源下面临一些挑战性问题,用子数据代替全数据进行统计分析成为一种选择。文章基于最小协方差行列式的稳健距离,为大数据Logistic回归模型提出了一种更高效的子数据选择算法。通过大量的数值模拟,在不同的... 大数据统计分析在有限的计算资源下面临一些挑战性问题,用子数据代替全数据进行统计分析成为一种选择。文章基于最小协方差行列式的稳健距离,为大数据Logistic回归模型提出了一种更高效的子数据选择算法。通过大量的数值模拟,在不同的标准下比较了所提算法与其他已有算法的性能。结果表明,所提算法具有较高的估计效率和计算效率,与全数据相比,计算时间显著减少。与其他算法相比,所提算法得到的子数据信息矩阵行列式的值更大。同时,当协变量之间存在高度相关性时,所提算法具有稳健性。最后,通过对实际数据集的分析,说明了所提算法的预测误差更小。 展开更多
关键词 最小协方差行列式 信息矩阵 最优子抽样
原文传递
基于改进最优子抽样算法的大数据分析提效方法
2
作者 孙涛 王华彬 《佳木斯大学学报(自然科学版)》 CAS 2024年第9期22-25,共4页
在处理大规模数据时,传统抽样方法存在一定的局限性,如抽样效率低下、计算复杂度较高等,难以应对日益增长的大数据分析需求。为此,提出一种基于改进最优子抽样算法的大数据分析提效方法,通过多阶段迭代过程,逐步优化抽样策略,以适应不... 在处理大规模数据时,传统抽样方法存在一定的局限性,如抽样效率低下、计算复杂度较高等,难以应对日益增长的大数据分析需求。为此,提出一种基于改进最优子抽样算法的大数据分析提效方法,通过多阶段迭代过程,逐步优化抽样策略,以适应不同维度数据的特征变化。实验结果显示,所提算法在保持高精度的同时,能够显著提升数据处理速度,降低资源消耗。 展开更多
关键词 改进最优子抽样算法 大数据 抽样策略 信息熵
下载PDF
基于最优子抽样的大数据泊松回归系数估计
3
作者 温雪俊 《山东理工大学学报(自然科学版)》 CAS 2024年第6期59-64,共6页
为了快速且准确地求解泊松回归估计量,提出建立在最优子抽样算法基础上的泊松回归模型。通过证明子样本估计量的渐近性质,提出了两步最优子抽样算法,并根据A-最优性思想和L-最优性准则设计了两种抽样概率下的抽样方法。性能对比试验显示... 为了快速且准确地求解泊松回归估计量,提出建立在最优子抽样算法基础上的泊松回归模型。通过证明子样本估计量的渐近性质,提出了两步最优子抽样算法,并根据A-最优性思想和L-最优性准则设计了两种抽样概率下的抽样方法。性能对比试验显示,本文提出的最优子抽样算法的均方误差显著低于其他方法;运行时间对比显示,L-最优性准则对应抽样概率的抽样方法比A-最优性思想对应抽样算法在估计回归系数上运行时间更少;超大样本和维度下,最优子抽样算法在两种维度中的运行时间平均比杠杆子抽样算法分别减少了61.84%、70.64%。以上结果表明,所提出的最优子抽样算法基础上的泊松回归可有效逼近全部数据下的最大似然估计,在估计回归系数上更具有优越性。 展开更多
关键词 最优子抽样 渐近性质 泊松回归 运行时间 均方误差
下载PDF
大数据下Logistic模型的最优子抽样算法研究 被引量:1
4
作者 韩坤凌 《德州学院学报》 2023年第4期1-4,共4页
抽样方法在大数据研究中发挥着重要作用,子抽样作为其中之一可以非常高效地解决数据量大的问题,无论是线性回归模型还是Logistic回归模型都有相应的子抽样方法。本文使用大数据下基于二元Logistic模型的两种子抽样方法,分别是普通子抽... 抽样方法在大数据研究中发挥着重要作用,子抽样作为其中之一可以非常高效地解决数据量大的问题,无论是线性回归模型还是Logistic回归模型都有相应的子抽样方法。本文使用大数据下基于二元Logistic模型的两种子抽样方法,分别是普通子抽样方法和两阶段最优子抽样方法,并利用实际数据评估了算法的优良性,得出以下结论:基于两阶段子抽样算法建立的Logistic回归模型在估计精度上优于基于普通子抽样建立的模型;基于L最优准则下的子抽样虽然比基于A最优准则下的子抽样估计精度略低,但耗费的运算时间更短。 展开更多
关键词 最优子抽样 大数据 LOGISTIC模型
下载PDF
大样本Gamma回归的最优子抽样
5
作者 尚建敏 张齐 《应用数学进展》 2022年第4期1632-1649,共18页
随着计算机行业的迅猛发展,人类社会逐渐迈入大数据时代。面对大规模右偏性和厚尾分布的数据,Gamma回归模型发挥着非常重要的作用。然而如何快速并准确估计出Gamma回归中感兴趣参数成为值得思考的热点问题。在本文中,我们提出两种两步... 随着计算机行业的迅猛发展,人类社会逐渐迈入大数据时代。面对大规模右偏性和厚尾分布的数据,Gamma回归模型发挥着非常重要的作用。然而如何快速并准确估计出Gamma回归中感兴趣参数成为值得思考的热点问题。在本文中,我们提出两种两步算法分别有效地逼近Φ已知Gamma回归和Φ未知Gamma回归在全数据下的最大似然估计,从而解决了单参数与双参数大样本Gamma回归估计问题。首先在Φ已知情况下,可证明出在给定全数据下一般子抽样估计量渐近服从正态分布,推导出使估计量渐近均方误差最小的最优子抽样概率。为了进一步降低计算量,我们还提出了另一种最优子抽样概率。由于最优子抽样概率取决于未知参数,我们还提出了单参数两步算法。其次在Φ未知情况下,我们基于单参数两步算法提出了双参数两步算法。最后使用数值模拟表明两种算法的计算效率高,也证实了通过单参数两步算法得到的估计量与双参数两步算法得到的估计量差距不明显。 展开更多
关键词 大样本 Gamma回归 最优子抽样 抽样概率
下载PDF
异方差大数据下联合均值与方差模型的α-最优子抽样 被引量:2
6
作者 熊正榆 吴刘仓 杨兰军 《系统科学与数学》 CSCD 北大核心 2024年第7期2146-2172,共27页
随着信息技术的发展,经济、金融、工业等领域产生了异常庞大的数据,这些数据往往具有异方差特性,传统统计模型和统计方法难以解决该类大数据的建模问题.子抽样是处理大数据的重要方法.文章针对联合均值与方差模型,在异方差大数据环境下... 随着信息技术的发展,经济、金融、工业等领域产生了异常庞大的数据,这些数据往往具有异方差特性,传统统计模型和统计方法难以解决该类大数据的建模问题.子抽样是处理大数据的重要方法.文章针对联合均值与方差模型,在异方差大数据环境下研究了子抽样问题.文章主要贡献如下:对具有异方差特性的大数据建立联合均值与方差模型,在一定条件下,基于A-最优准则和L-最优准则讨论了子样本参数估计的一致性和渐近正态性;首次提出了异方差大数据下联合均值与方差模型的α-最优子抽样算法.数值模拟和实证分析的结果表明,该抽样算法能提高估计的精确性,减少计算成本. 展开更多
关键词 异方差大数据 联合均值与方差模型 α-最优子抽样
原文传递
基于岭回归模型大数据最优子抽样算法研究 被引量:9
7
作者 李莉莉 靳士檑 周楷贺 《系统科学与数学》 CSCD 北大核心 2022年第1期50-63,共14页
随着大数据时代的来临,为了提高计算效率,Wang等(2018)提出基于logistic回归的最优子抽样算法,在保证参数估计精度的前提下,节省了大量的运算时间.为解决变量间的多重共线性,文章提出基于岭回归模型的最优子抽样算法,并证明岭回归模型... 随着大数据时代的来临,为了提高计算效率,Wang等(2018)提出基于logistic回归的最优子抽样算法,在保证参数估计精度的前提下,节省了大量的运算时间.为解决变量间的多重共线性,文章提出基于岭回归模型的最优子抽样算法,并证明岭回归模型中参数估计的一致性与渐近正态性.利用数值模拟与实证分析对最优子抽样算法进行评估,结果表明,利用最优子抽样构建的模型与全样本构建的模型在参数估计的精度相近,并大幅减少了运算时间. 展开更多
关键词 大数据 最优子抽样算法 岭回归
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部