摘要
对于时间序列挖掘过程中的缺失值处理,目前有许多方法。在处理数据变量成一定的相关的数据集时,回归模型不失为较好的插补方法。利用均值插补、一元线性回归、多元线性回归、迭代回归方法对水文时间序列数据集的缺失数据进行处理,比较不同的皮氏相关系数下各方法的优劣及适用性。文中研究表明当数据集中存在与缺值变量相关度较大的变量时,一元线性回归的插补简单直观,且有较高的精度,结果接近真实;当数据集中不存在与缺值变量显著相关的自变量时,一元线性回归的结果变差,多元线性回归与多元迭代回归具有较好的结果,但多元迭代回归迭代次数难以确定,插补代价较大,多元线性回归为最佳选择;当缺值变量与其他自变量相关系数均较小时,回归插补的结果不理想,此时可考虑其他插补方法。
There are many methods for dealing with missing value on time series data. When the variables of the data are correlative, the regression model is better than other methods. Handles missing value of hydrological by using mean interpolation, single linear regression, multiple linear regression and interative regression method. Shows that when the data set exists the variable which relates with given variable elosely, the single linear regression is better than other methods. If the data set doesn't,multiple linear regression is best. If the pearson correlation between the given variable and other variables is small, may consider other interpolation method.
出处
《计算机技术与发展》
2008年第10期43-45,共3页
Computer Technology and Development
基金
福建省自然科学基金资助项目(A031008)
关键词
时间序列
皮氏相关系数
回归模型
迭代回归模型
time series
pearson correlation
one - stepregression model
iterative regression model