第三部分 回归分析
在经济和金融分析中,经常要对变量之间的相互关系进行分析,回归分析是分析变量之间关系的一种重要分析方法。
只有一个解释变量的线性回归分析称一元线性回归分析,含有多个解释变量的线性回归分析称多元线性回归分析。
回归分析作为有效方法应用在经济或者金融数据分析中,具体遵循以下步骤:
第一步,模型设定;
第二步,参数估计;
第三步,模型检验;
第四步,模型应用。
八、一元回归模型的含义和特征
1、相关关系分析
变量和变量之间通常存在两种关系:确定性函数关系和相关关系。
确定性函数关系表示变量之间存在一一对应的确定关系;
相关关系表示一个变量的取值不能由另外一个变量唯一确定,即当变量X取某一个值时,变量Y对应的不是一个确定的值,而是对应着某一种分布,各个观测点对应在一条直线上。
分析两个变量之间的相关关系,通常通过观察变量之间的散点图和求解相关系数的大小来度量变量之间线性关系的相关程度。
补充知识:通过散点图看相关关系
线性相关:变量之间的关系近似地表现为一条直线
非线性相关或者曲线相关:变量之问的关系近似地表现为一条曲线
完全相关:如果一个变量的取值完全依赖于另一个变量,各个观测点落在一条直线上
无相关关系:两个变量的观测点很分散,无任何规律。
相关系数的计算公式:
相关系数r的取值范围为:-1≤r≤1。
当 l r l 越接近于1时,表示两者之间的相关关系越强;
当 l r l 越接近于0时,表示两者之间的相关关系越弱。
当r>0时,表示两者之间存在正向的相关关系;
当r<0时,表示两者之间存在负向的相关关系;
当r=0时,并不表示两者之间没有关系,而是两者之间不存在线性关系。
2、 一元线性回归模型的基本假定
yi称为因变量或被解释变量,xi称为自变量或解释变量;ui是一个随机变量,称为随机(扰动)项;a和β是两个常数,称为回归参数;下标i表示变量的第i个观察值或与随机项。
4、一元线性回归模型的检验
(一)拟合优度
反映回归直线与样本观察值拟合程度的量,这个量就是拟合优度,又称样本“可决系数”,常用R2表示。
TSS为总离差平方和,ESS为回归平方和,RSS为残差平方和。显然,在总离差平方和一定时,回归平方和越大,拟合优度越大,映了线性回归效果越好,说明了回归直线和样本观察值拟合程度越好。
反之,则越差。R2的取值范围为:0≤R2≤1,R2越接近1,拟合效果越好;R2越接近0。拟合效果越差。
5、、一元线性回归分析的预测
在预测期内自变量已知时,预测因变量的值,我们称之为无条件预测,如果在预测期内自变量未知,这时的因变量预测值就是有条件预测。
(一)点预测
设回归模型为:yi=α+βxi+μi(i=1,2,3,…,n)。
假定抽样期之外的某预测期f的自变量xf已知,上述模型适用于该预测期,这时因变 yf= α+βxf+μf ,并且随机项满足基本假定。则 yf 的预测值存在两个,一个是期望值,另一个就是yf 的点预测值。
2.y个别值的区间预测
一元线性回归时y的真实值yf的置信度为1-α的置信区间为:
6、案例分析
(一)分析目的
以2015年2月2日至2015年3月16日美元指数为解释变量(x),同期的黄金现货价格(y,美元)为被解释变量,样本容量为31,试对其建立简单的一元线性回归模型。
(二)模型的设定
1.画散点图
首先将美元指数(x)和黄金现货价格(Y)导入到SPSS 20.0里,然后点击SPSS菜单栏中的“图形一旧对话框一散点/点状”,在弹出散点图”对话框中,选择“简单分布”,再点击“定义”按钮,在弹出的“简单散点图”对话框中,将变量Y导入到“Y轴框”中,变量x导入到“x轴框”中,最后点击“确定”按钮,弹出图4—1所示的散点图。
从 散点图可以看出,被解释变量Y和解释变量x具有较为明显的负向相关关系。进一步,求出两者之间的相关系数。
2.求相关系数
单击菜单栏中的“分析一相关一双变量”,在弹出的“双变量相关”对话框中,将变量x、Y导人到“变量框”中,相关系数选用默认的“Pearson相关系数”,最后点击“确定”按钮,弹出表4-1所示的结果。
从表4-1的输出结果可以看出,被解释变量Y和解释变量x之间的Pearson相关系数约为-0.843,且在1%的显著性水平下拒绝相关系数为零的原假设,表明两者的线性关系程度高。可以对其建立一元线性回归分析。
将被解释变量Y和解释变量x建立如下的一元线性回归模型:
其中,Yt和Xt分别表示被解释变量和解释变量,α、β表示待估计的参数。μt为随机扰动项,反映了除解释变量Xt和被解释变量Yt之间的线性关系之外的随机因素对被解释变量Yt的影响,是不能由xt和Yt之间的线性关系所解释的变异部分。
3.参数估计
点击“分析一回归一线性”,在弹出的“线性回归”对话框中,将x导入到“自变量”框中,将变量Y导入到“因变量”框中,最后点击 “确定”按钮,得到如下表4-2~表4-4所示的输出结果。
根据上述输出结果,得出如下参数估计:
4.模型的检验
(1)拟合优度检验。
由表4-2可以看出,可决系数R2约等于0.711,说明所建立的一元线性回归模型整体上对样本数据拟合效果较好,解释变量“美元指数”解释了被解释变量“黄金现货价格”变动的71.1%。
(2)回归模型的预测。
当2015年3月17日美元指数为99.66,根据上述模型估计结果,预测2015年3月17日黄金现货价格为多少美元?(把99.66带入前面得到的回归方程中即可。)
九、多元线性回归模型的含义和特征
1、多元线性回归模型的含义
多元线性回归主要用于分析影响因变量的因素中,不仅涉及一个自变量,可能涉及多个自变量。
例如,我们在分析一家公众公司价值时,需要研究其多个财务指标,比如负债比例,资产回报率等指标序列(每个月指标),这些指标构成公司价值(序列)的核心影响因素,我们定义公司价值(序列)为因变量时,这些财务指标(序列)就是自变量。
多元线性回归模型分析一个因变量和几个自变量之间的关系。形式如下:
yi=β0+ β1x1i+ β2x2i+…+ βkxki+ui
其中,i=1,2,…,n;yi是x1i,x2i,…,xki 的线性部分加上随机扰动项 ui; β0, β1, β2,…, βk 是参数;随机扰动项 ui 指的是包含在Yi中但不能被k个自变量的线性关系所解释的变异性。
3、多元线性回归模型的参数估计
关于多元线性回归模型的参数估计,我们也是利用样本数据估计未知参数,从而获得回归模型去推断总体。
同一元回归分析模型的原理一样,按照最小二乘准则,采用使残差平方和最小的原则去确定样本回归函数。
4、多元线性回归模型的检验
(一)拟合优度
对于多元线性回归模型的拟合优度检验常采用多重可决系数,记为R2。它表示总离差平方和中线性回归解释的部分所占的比例,即
显然,R2越接近于1,线性回归模型的解释力越强。
当利用R2来度量不同多元线性回归模型的拟合优度时,存在一个严重的缺点,R2的值随着解释变量的增多而增大,即便引入一个无关紧要的解释变量,也会使得R2变大。
(二)F检验
多元线性回归模型的F检验,又称为回归方程的显著性检验或回归模型的整体性检验,反映的是多元线性回归模型中被解释变量与所有解释变量之间线性关系在总体上是否显著。
第一步,提出假设。设原假设H0:β1= β2=…= βk=0,备择假设H1:βj(j=1,2,…,k)不全为零。
第二步,构造F统计量。
即F统计量服从分子自由度为k,分母自由度为n-k-1的F分布。
第三步,给定的著水平α,查分子自由度为k,分母自由度为n-k-1的F分布表,得临界值Fa(k,n-k-1)。
第四步,根据决策准则,如果F>Fa( k,n-k-1),则拒绝H0:β1= β2=…=βk=0的原假设,接受备择假设H1:βj(j=1,2,…,k)不全为零,表明回归方程线性关系显著;若F
(三)t检验
与一元线性回归分析中的t检验相同,t检验有如下4个步骤:
第一步,提出假设。设原假设H0:βj=0(j=1,2,…,k),备择假设H1:βj≠0(j=1,2,…,k)。
第二步,构造t统计量。
即服从自由度为n-k-1的t分布。
第三步,给定显著水平a,查自由度为n-k-1的t分布表,得临界值tα/2(n-k-1)。
第四步,根据决策准则,如果|t|>ta/2(n-k-1),则拒绝H0:βj=0(j=1,2,…,k)的原假设,接受备择假设H1:βj≠0(j=1,2,…,k),表明在其他解释变量不变的情况下,解释变量xj对被解释变量y的影响显著;若|t|< ta/2(n-k-1),则不能拒绝
H0:βj=0(j=1,2,…,k)的原假设,表明在其他解释变量不变的情况下,解释变量xj对被解释变量y的影响不显著。
5、案例分析
(一)分析目的
为分析纽约原油价格(WTI)、黄金ETF持仓(吨)和美国标准普尔500指数,对黄金价格的影响,收集了2004年11月21日至2013年11月24日每周末的周度数据,样本容量为471,试对其进行多元线性回归分析。
(二)模型设定
取黄金期货价格为因变量,纽约原油价格(美元/桶)、黄金ETF持有量(吨)、美国标准普尔500指数为自变量。
首先对变量取对数,建立多元线性回归模型为:
其中,变量依次分别为黄金期货价格(GOLD)(美元/盎司)、纽约原油价格(WTT)、黄金ETF持有量(吨)和美国标准普尔500指数各自取对数;β0、β1、β2和β3为待估计的参数;µt为随机扰动项,包含在因变量中但不能被3个自变量的线性关系所解释的变异性。
(三)模型的估计
同一元线性回归分析中的SPSS操作步骤一样,首先将变量“Ln_GOLD、Ln_WTI、Ln_ETF、Ln_SP500”数据导入到SPSS中,采用普通最小二乘法,最终得到如下输出结果(见表4-5~表4-7)
2.F检验
针对H0:β1=β2=β3=0,根据表4-6中的F值所对应的Sig.值等于0.000<0.05,表明在5%的显著性水平下拒绝原假设。
说明回归方程线性关系显著,表明“纽约原油价格”、“黄金ETF持有量”和“美国标准普尔500指数”联合起来对“黄金期货价格”产生显著的影响。
3.t检验
分别针对H0:βj=0(j=1,2,3),给定显著性水平α=0.05,从表4-7中可以看出βj样本的t统计量值所对应的Sig.值均为0.000<0.05,表明在5%的显著性水平下拒绝原假设,各回归系数均通过显著性检验,
也就是说,当其他解释变量保持不变的情况下,解释变量“纽约原油价格”、“黄金ETF持有量”和“美国标准普尔500指数’,分别对被解释变量“黄金期货价格”均有显著的影响。
(五)模型的应用
1.回归系数的含义
从模型估计结果可以得出,在假定其他条件保持不变的情况下,当纽约原油价格每提高1%时,黄金价格平均提高0.193%;当黄金ETF持有量每增加1%时,黄金价格平均提高0.555%;当美国标准普尔500指数每提高1%时,黄金价格平均提高0.329%。
2.模型的预测
利用以上回归模型对黄金价格做出预测。
对于各自变量给出预测假设:原油价格为50美元桶,黄金ETF持有量为700吨,美国标准普尔500指数为1 800点,将其代入模型,得到纽约黄金价格的预测值约为990.832美元/盎司。
十、非线性模型线性化的原理
变量y与x之间可能不存在线性关系,有一部分可以通过变量的替换,转化为线性的回归模型处理。
线性关系只是要求参数和随机扰动项是线性的,而并不要求变量之间是线性关系。
例如:y=α+β / X+ε ,只要将z=1/x代入变换即可线性化。
十一、回归模型常见问题和处理方法
在经济和金融实务中,常常出现数据不能满足线性模型的系列假定,比如随机扰动项不能满足同方差的假定,或产生自相关现象等。为此,需要对模型遇到的该类问题做技术处理。
1、多重共线性
(1)多重共线性概念与产生原因
在经典多元线性回归模型
yi=β0+ β1x1i+ β2x2i+… βkxki+ui
或用矩阵表示:Y= βX+U 中,其基本假设之一是解释变量之间不存在线性关系。
如果解释变量之间存在严格或者近似的线性关系,这就产生了多重共线性问题。
产生多重共线性的原因复杂,一般常见原因有:
(1)经济变量之间有相同或者相反的变化趋势;
(2)模型中包含有滞后变量;
(3)从总体中取样受到限制等。
(2)多重共线性后果
1)多重共线性使得参数估计值不稳定,并对于样本非常敏感;
2)使得参数估计值的方差增大;
3)由于参数估计值的方差增大,会导致参数估计置信区间增大,从而降低预测精度;
4)严重的多重共线性发生时,模型的检验容易做出错误的判断。例如,参数估计方差增大,导致对于参数进行显著性t检验时,会增大不拒绝原假设的可能性。
(3)多重共线性检验
1)简单相关系数检验法。
通过求出解释变量之间的简单相关系数r作出判断,通常情况下,若l r l接近1,则可以认为多重共线性的程度越高。
2)综合统计检验法。
采用最小二乘原理进行参数估计时,当出现可决系数R2较大,模型参数的联合检验(F检验)显著性明显,但单个参数的t检验可能不显著,甚至可能得出估计的回归系数与实际的符号相反的结论时,可以认为模型存在多重共线性问题。
(4)消除多重共线性影响的方法
1)逐步回归法。
以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。根据拟合优度的变化以及结合F检验和t检验的显著性决定是否保留新引入的变量。
如果新引入了变量后使得F检验和t检验均显著,并且增加了拟合优度,则说明新引入的变量是一个独立解释变量,可考虑在模型中保留该变量;
如果新引入的变量未能明显改进拟合优度值,或者F检验和t检验出现了不显著现象,则说明新引入的变量与其他变量之间存在共线性。
使用逐步回归法找出引起多重共线性的解释变量,将其剔除。最后保留在模型中的解释变量对被解释变量具有较好的解释作用。
需要注意的是,逐步回归法有可能会剔除掉重要的解释变量从而导致模型产生设定偏误。
2)变换模型的形式。
通过将原模型作适当的变换,可能会消除或减弱原模型中的解释变量之间的相关性,例如,可以将原模型:yi=β0+ β1x1i+ β2x2i+… +βkxki+ui
变化为差分模型:
△yi=β1△x1i+ β2△x2i+…+βk△xki+△ui
这样可以有效地消除原模型中存在的多重共线性。
3)增加样本容量。
多重共线性的主要后果是参数估计量具有较大的方差,所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。
增加样本容量,可使参数估计量的方差和标准误差减少,因此,尽可能增加样本容量,使样本容量远大于解释变量的个数,从而改进模型参数的估计。
4)岭回归法。
岭回归(ridge regression)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。
散点图中显示了不同类型的异方差与同方差之间的差异。
(2)异方差产生的原因
(1)模型的设定问题。在模型的设定过程中,省略了重要解释变量,或者由于变量之间本为非线性关系而设定为线性关系从而导致异方差的产生。
(2)测量误差。由于观测解释变量和被解释变量出现了偏误而产生了异方差。
(3)横截面数据中各单位的差异。由于同一时点不同对象的差异通常会大于同一对象不同时间上的差异,因此横截面数据比时间序列数据更容易产生异方差。
(3)异方差的后果
计量经济学模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:(1)OLS估计量仍然具有无偏性,但OLS估计的方差不再是最小的。
(2)显著性检验失去意义。
(3)模型的预测失效。当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对被解释变量Y的预测误差变大,降低预测精度,预测功能失效。
(4)异方差的检验方法
1)图示判断法。
异方差的检验方法很多,可以通过散点图做出直观判断,还可以利用X-e2残差图判断异方差性,看是否形成一斜率零的直线,作为判断基础。
2)统计检验方法。
检验异方差的方法很多,常用的方法有帕克(Park)检验与戈里瑟(Gleiser)检验、戈德菲尔德-匡特(Goldfeld-Quandt)检验(G-Q检验)、怀特(White)检验、ARCH检验等。
(2)异方差问题的处理
当模型检验出存在异方差性时,常用加权最小二乘法(WLS)进行估计。
其基本思想为:加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用OLS估计其参数,现在常用的统计或者数学计算软件均支持该算法。
除此之外,还可以对模型进行对数变换,即将解释变量和被解释变量分别取对数后,再做OLS估计,这样通常可以降低异方差性的影响。
3、序列相关性问题
(1)序列相关概念及后果
对于回归模型Y=XB+U,基本假设之一是随机误差项互不相关,如果对于不同的样本点,随机误差项之间存在某种相关性,则出现序列相关性。其他条件不变时,序列相关性表示
Cov(μi,uj)≠(i,j)。常见的自相关为一阶自相关,其表示形式为:ui=pui-1+vi,
其中,ρ为自相关系数,通常-1
若模型出现序列相关性,仍采用OLS估计模型参数,则会产生下列不良后果:
(1)参数估计量的线性和无偏性虽不受影响,但是参数估计量失去有效性;
(2)模型的显著性检验失去意义;
(3)模型的预测失效。
(2)序列相关的检验
序列相关性检验方法有多种,但基本思路相同:首先采用OLS对模型做估计,获得随机误差项的估计量。再通过分析这些估计量之间的相关性,以判断随机误差项是否具有序列相关性。
常用的序列相关性检验的方法有:图示检验法、回归检验法、杜宾 一瓦森(Durbin—Watson)检验法、拉格朗日乘数(Lagrange Muhiplier)检验等,
图示法简单,回归检验法可以满足任何类型序列相关性检验,拉格朗日乘数检验适用于高阶序列相关以及模型中存在滞后被解释变量的情形。但是较多使用的是杜宾一瓦森检验(DW检验)。
2)DW检验。
该检验假设条件为解释变量x为非随机变量,随机扰动项满足下述一阶自回归形式:
µi=ρµi-1+vi,并且回归模型中不应含有滞后因变量作为解释变量,且回归模型含有不为零的截距项。
DW检验具体步骤如下:
第一步,计算DW值;
第二步,给定显著性水平α,由样本容量n和解释变量的个数k(不包含常数项)的值查DW分布表,得临界值下限dL和上限dU;
第三步,判断是否存在自相关性。当DW值在2附近时,模型不存在阶自相关。当DW为其他数值时,需要查表比较。
(3)消除自相关影响方法
若模型经检验证明存在序列相关性,则常采用广义差分法、一阶差分法、科克伦一奥克特迭代法和德宾两步法等方法估计模型。
一级建造师二级建造师消防工程师造价工程师土建职称公路检测工程师建筑八大员注册建筑师二级造价师监理工程师咨询工程师房地产估价师 城乡规划师结构工程师岩土工程师安全工程师设备监理师环境影响评价土地登记代理公路造价师公路监理师化工工程师暖通工程师给排水工程师计量工程师
执业药师执业医师卫生资格考试卫生高级职称护士资格证初级护师主管护师住院医师临床执业医师临床助理医师中医执业医师中医助理医师中西医医师中西医助理口腔执业医师口腔助理医师公共卫生医师公卫助理医师实践技能内科主治医师外科主治医师中医内科主治儿科主治医师妇产科医师西药士/师中药士/师临床检验技师临床医学理论中医理论