对于具有线性关系的两个变量,可以用一个线性方程来表示它们之间的关系。描述因变量y如何依赖于自变量x和误差项ε的方程称为回归模型,只涉及一个自变量的一元线性回归模型可表示为:y=β0+β1x+ε。对这一模型,有以下几个主要假定:
(1)因变量y与自变量x之间具有线性关系。
(2)在重复抽样中,自变量x的取值是固定的,即假定x是非随机的。
(3)误差项ε是一个期望值为0的随机变量,即E(ε)=0。由于β0和β1都是常数,所以有E(β0)=β0,E(β1)=β1。因此对于一个给定的x值,y的期望值为E(y)=β0+β1x,这实际上等于假定模型的形式为一条直线。
(4)对于所有的x值,ε的方差σ2都相同。对于一个特定的x值,y的方差也都等于σ2。
(5)误差项ε是一个服从正态分布的随机变量,且独立,即ε~N(0,σ2)。独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关。因此,对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关。在x取某个确定值的情况下,y的变化由误差项ε的方差σ2来决定。当σ2较小时,y的观测值非常靠近直线;当σ2较大时,y的观测值将偏离直线。由于σ2是常数,所以y的取值不受x取值的影响。由于自变量x在数据收集前假设是固定的,因此,对于任何一个给定的x值,y都服从期望值为β0+β1x、方差为σ2的正态分布,且对于不同的x具有相同的方差。