自相关函数与偏自相关函数
自相关函数与偏自相关函数
上一节介绍了随机过程的几种模型。实际中单凭对时间序列的观察很难确定其属于哪一种模型,而自相关函数和偏自相关函数是分析随机过程和识别模型的有力工具。
1、自相关函数定义
在给出自相关函数定义之前先介绍自协方差函数概念。由第一节知随机过程{x t }中的每一个元素x t ,t = 1, 2, … 都是随机变量。对于平稳的随机过程,其期望为常数,用μ表示,即
E (x t ) =μ,t =1,2,
随机过程的取值将以 μ 为中心上下变动。平稳随机过程的方差也是一个常量
2
,t =1,2, Var (x t ) =σx
σx 2用来度量随机过程取值对其均值μ的离散程度。
相隔k 期的两个随机变量x t 与x t -k 的协方差即滞后k 期的自协方差,定义为:
γk =Cov (x t , x t -k ) =E [(x t -μ)(x t -k -μ)]
自协方差序列:γk ,k =0,1,2,
2
称为随机过程{x t }的自协方差函数。当k = 0 时,γ0=Var (x t ) =σx 。
自相关系数定义:ρk =
2
因为对于一个平稳过程有:Var (x t ) =Var (x t -k ) =σx
所以ρk =
Cov (x t , x t -k )
σx 2
=
γk γk
=,当 k = 0 时,有ρ0=1。 σx 2γ0
以滞后期k 为变量的自相关系数列ρk (k =0,1,2, )称为自相关函数。因为ρk =ρ-k ,即Cov (x t -k , x t ) = Cov (x t , x t +k ) ,自相关函数是零对称的,所以实际研究中只给出自相关函数的正半部分即可。
2、自回归过程的自相关函数 (1)平稳AR(1)过程的自相关函数 AR(1) 过程:x t =φ1x t -1+u t ,|φ1|
x t x t -k =φ1x t -1x t -k +u t x t -k
上式两侧同取期望:γk =φ1γk -1
其中E (u t x t -k ) =0(why? )(由于x t = u t + φ1 ut -1 + φ12 ut -2 +… ,所以x t-k = u t-k + φ1 ut-k-1 +
φ12 ut-k-2 +…,而u t 是白噪音与其t - k 期及以前各项都不相关)。
两侧同除 γ0 得:ρk =φ1ρk -1=φ12ρk -2= =φ1k ρ0 因为ρo = 1,所以有ρk =φ1k (k ≥0)
对于平稳序列有 | φ1|
1> φ1 > 0 -1
图 AR(1) 过程的自相关函数
同理,对于φ1 =1和φ1 >1情形即非平稳和强非平稳过程的自相关函数如下图。
φ1 = 1.1(强非平稳过程) φ1 = 1(随机游走过程)
(2)AR(p ) 过程的自相关函数
用x t -k (k > 0) 同乘平稳的 p 阶自回归过程x t =φ1x t -1+φ2x t -2+ +φp x t -p +u t 的两侧,得:x t -k x t =φ1x t -k x t -1+φ2x t -k x t -2+ +φp x t -k x t -p +x t -k u t
对上式两侧分别求期望得:γk =φ1γk -1+φ2γk -2+ +φp γk -p ,k > 0 用 γ0分别除上式的两侧得Yule-Walker 方程:
ρk = φ1 ρk -1 + φ2 ρk -2 + … + φp ρk -p , k > 0
其中L 为k 的滞后算子,这里G ∏(1- G L ) ,
i
i =1p
令Φ(L ) =1-φ1L -φ2L - -φp L =
2p
-1
i ,
i = 1, 2, …, p 是特征方程Φ(L ) =0的根。为保证随机过程的平稳性,要求G i
1-φ1G i -1-φ2G i -2- -φp G i -p =0,也即G i k =φ1G i k -1+φ2G i k -2+ +φp G i k -p 。
可证:ρk =AG 11+A 2G 2+ +A p G p (*)
其中A i , i = 1, … ,p 为待定常数。(提示:可把(*)式代入到Yule-Walker 方程中证明) 由(*)式知道会遇到如下几种情形。
k ① 当G i 为实数时,(*)式中的AG 称为指数衰减。 i i 将随着k 的增加而几何衰减至零,
k k k
② 当G i 和G j 表示一对共轭复数时,设G i =a +bi ,G j =a -bi a 2+b 2= R ,则G i ,
G j 的极座标形式是:
G i =R (cosθ+i sin θ)
G j =R (cosθ-i sin θ)
若AR(p ) 过程平稳,则G i
G i k =R k (cosk θ+i sin k θ)
G j k =R k (cosk θ-i sin k θ)
自相关函数(*)式中的相应项G i k , G j k 将按正弦振荡形式衰减。
注意:实际中的平稳自回归过程的自相关函数常是由指数衰减和正弦衰减两部分混合而成。
③ 从(*)式可以看出,当特征方程的根取值远离单位圆时,k 不必很大,自相关函数就会衰减至零。
④ 有一个实数根接近1时,自相关函数将衰减的很慢,近似于线性衰减。当有两个以上的根取值接近1时,自相关函数同样会衰减的很慢。
两个特征根为实根 两个特征根为共轭复根图
AR(2) 过程的自相关函数
3、移动平均过程的自相关函数 (1)MA(1) 过程的自相关函数。 对于MA(1)过程x t =u t +θ1u t -1,有:
γk =E (x t x t -k ) =E [(u t +θ1u t -1)(u t -k +θ1u t -k -1)]
当k = 0时,
γ0=E (x t x t ) =E [(u t +θ1u t -1)(u t +θ1u t -1)]=E (u t 2+2θ1u t u t -1+u t 2-1)
=(1+θ12) σ2 当k = 1时,
γ1=E (x t x t -1) =E [(u t +θ1u t -1)(u t -1+θ1u t -2)]
=E (u t u t -1+θ1u t 2-1+θ1u t u t -2+θ12u t -1u t -2) =θ1σ2
当 k > 1 时,
γk =E (x t x t -k ) =E [(u t +θ1u t -1)(u t -k +θ1u t -k -1)]
=E (u t u t -k +θ1u t u t -k -1+θ1u t -1u t -k +θ12u t -1u t -k -1) =0
综合以上三种情形,MA(1)过程自相关函数为
⎧θ1
⎪1+θ2, k =1γk
1 ρk = = ⎨
γ0
⎪
0, k >
1
θ1 > 0 θ1
图 MA(1)过程的自相关函数
可见MA(1) 过程的自相关函数具有截尾特征。当k > 1时,ρk = 0。
(2) MA(q ) 过程的自相关函数 MA(q ) 过程的自相关函数是
⎧θk +θ1θk +1+θ2θk +2+... +θq -k θq
, k =1, 2, , q ⎪222
1+θ1+θ2+... +θq ρk = ⎨ ⎪0, k >q ⎩
当k > q 时,ρk = 0,说明 ρk , k = 0, 1, … 具有截尾特征。
例如,对于MA(2) 过程,自相关函数是
θ2
ρ1=θ1+θ1θ2, ρ2=, ρk = 0, k > 2。
2222
1+θ1+θ21+θ1+θ2
4、 ARMA (1, 1) 过程的自相关函数
ARMA (1, 1) 过程的自相关函数ρk 从 ρ1开始指数衰减。ρ1的大小取决于 φ1和 θ1, ρ1
的符号取决于 (φ1 -θ1 ) 。若 φ1 > 0,指数衰减是平滑的,或正或负。若 φ1
对于ARMA (p , q ) 过程,p , q ≥ 2时,自相关函数的表现形式比较复杂,可能是指数衰减、正弦衰减或二者的混合衰减。
5、相关图(correlogram ,或估计的自相关函数,样本自相关函数) 对于一个有限时间序列(x 1, x 2, …, x T )用样本平均数
1
=
T
∑x
t =1T
T
t
估计总体均值 μ,用样本方差 1
s =
T
2
∑(x
t =1
t
-) 2
估计总体方差σx 2。
当用样本矩估计随机过程的自相关函数,则称其为相关图或估计的自相关函数,记为 r k =
C k
, k = 0, 1 , 2, …, K , ( K
r k 是对ρk 的估计。其中
1
C k =
T -k
是对γk 的估计。 1
C 0 =
T
T -k t =1
∑(x -)(x
t
t +k
-), k = 0, 1, 2, …, K ,
∑(x
t =1
T
t
-) 2
是对γ0的估计。T 是时间序列数据的样本容量。实际中T 不应太小,最好能大于60。
注意:C k 为有偏估计量。但在小样本条件下更有效。
相关图是对自相关函数的估计。由于MA 过程和ARMA 过程中的MA 分量的自相关函数具有截尾特性,所以通过相关图可以估计MA 过程的阶数q 。相关图是识别MA 过程阶数和ARMA 过程中MA 分量阶数的一个重要方法。对于年度时间序列数据,相关图一般取k = 15就足够了。
,r k 的方差近似为T -1。所以在观察相关图时,若r k 的绝对值超过2T -(2个标准差)就被认为是显著地不为零。当T 充分大时,近似有:(r k -0) -=r k T
12
~ N (0, 1)
第五节 偏自相关函数
偏自相关函数是描述随机过程结构特征的另一种方法。用 φkj 表示k 阶自回归过程中第j 个回归系数,则k 阶自回归模型表示为:
x t =φk 1x t -1+φk 2x t -2+ +φkk x t -k +u t
其中φkk 是最后一个回归系数。若把φkk 看作是滞后期k 的函数,则称
φkk ,k =1,2,
为偏自相关函数。它由下式中的红项组成。
x t =φ11x t -1+u 1t
x t =φ21x t -1+φ22x t -2+u 2t
x t =φk 1x t -1+φk 2x t -2+ +φkk x t -k +u kt
因偏自相关函数中每一个回归系数φkk 恰好表示x t 与x t -k 在排除了其中间变量x t -1,
x t -2, ,x t -k +1 影响之后的相关系数,
x t -φk 1x t -1-φk 2x t -2- -φkk -1x t -k +1=φkk x t -k +u kt
所以偏自相关函数由此得名。
用φkj 表达Yule-Walker 方程ρk =φ1ρk -1+φ2ρk -2+ +φp ρk -p , 得
ρj =φk 1ρj -1+φk 2ρj -2+ +φkk ρj -k
用矩阵形式表示上式,
⎡ρ1⎤⎢ρ⎥2
⎢⎥= ⎢... ⎥⎢⎥⎣ρk ⎦
或
⎡1⎢ρ⎢1⎢... ⎢⎣ρk -1
ρ1
1...
ρ2ρ1
...
ρk -2ρk -3
... ρk -1⎤... ρk -2⎥⎥... ... ⎥
⎥
... 1⎦⎡φk 1⎤⎢φ⎥
⎢k 2⎥ ⎢... ⎥⎢⎥⎣φkk ⎦
ρ = P φ. 则
φ = P -1ρ,
将k = 1, 2 , … 代入上式连续求解,可求得偏自相关函数 φ 11 = ρ1,
⎡φ21⎤⎡1⎢φ⎥=⎢ρ⎣22⎦⎣1
ρ1⎤
1⎥⎦
-1
-ρ1⎤⎡ρ1⎤⎡ρ1-ρ1ρ2⎤⎡1
⎢⎢ρ⎥⎢ρ-ρ2⎥1⎥⎡ρ1⎤⎣-ρ11⎦⎦⎣2⎦⎣2
= ⎢ρ⎥=2
1ρ1-ρ1⎣2⎦1ρ11
其中
ρ2-ρ12
21-ρ1
φ 22 = …
对于AR(1)过程,x t = φ11 x t -1 +u t ,当k = 1时,φ11 ≠ 0;当k > 1时,φkk =0。所以AR(1)过程的偏自相关函数特征是在k = 1出现峰值(φ11 = ρ1)然后截尾。
0. 0. 0. 0. 0. -0. -0. -0. -0.
0. 0. 0. 0. 0. -0. -0. -0. -0.
φ11 > 0 φ11
AR(1) 过程的偏相关图
对于AR(2)过程,当k ≤ 2时,φkk ≠0;当k >2时,φkk =0。偏自相关函数在滞后期2以后有截尾特性。
对于AR(p ) 过程,当k ≤ p 时,φkk ≠0;当k > p时,φkk =0。偏自相关函数在滞后期p 以后有截尾特性,因此可用此特征识别AR(p ) 过程的阶数。
对于MA(1)过程x t =u t + θ1 ut -1,有 [1/ (1+ θ1 L )]x t =u t , (1- θ1 L + θ12 L 2 - … )x t =u t ,
x t = θ1 x t-1 - θ12 x t-2 +θ13 x t-3 - … +u t
当θ1 > 0时,自回归系数的符号是正负交替的;当θ1
因为MA(1) 过程可以转换为无限阶的AR 过程,所以MA(1) 过程的偏自相关函数呈指数衰减特征。
0. 0. 0. 0. 0. -0. -0. -0. -0.
0. 0. 0. 0. 0. -0. -0. -0. -0.
θ1 > 0 θ1
MA(1) 过程的偏自相关函数
对于MA(2) 过程,若Θ (L ) = 0的根是实数,偏自相关函数由两个指数衰减形式叠加而成。若Θ (L ) = 0的根是复数,偏自相关函数呈正弦衰减形式。
因为任何一个可逆的MA(q ) 过程都可以转换成一个无限阶的系数按几何递减的AR 过程,所以MA(q ) 过程的偏自相关函数呈缓慢衰减特征。
ARMA( p , q ) 过程的偏自相关函数也是无限延长的,其表现形式与MA(q ) 过程的偏自相关函数相类似。根据模型中移动平均部分的阶数q 以及参数θi 的不同,偏自相关函数呈指数衰减和(或)正弦衰减混合形式。
对于时间序列数据,偏自相关函数通常是未知的。可以用样本计算 φ11, φ22, … 的估计ˆ, φˆ, …。估计的偏自相关函数 量 φ1122
ˆ, k = 1, 2, …, K , φkk
称为偏相关图。因为AR 过程和ARMA 过程中AR 分量的偏自相关函数具有截尾特性,所以可利用偏相关图估计自回归过程的阶数p 。实际中对于偏相关图取k = 15就足可以了。
ˆ的方差近似为T -1。当T 充分大时,近似有 φkk
ˆ- 0) / T-1/2 = T 1/2φˆ ~ N (0, 1) (φkk kk
ˆ的绝对值超过2 T -1/2(2个标准差)所以在观察偏相关图时,若φ,就被认为是显著地不为kk
零。
注:2个标准差 = 2 T -1/2 = 2(1/7)= 0.286。图中虚线表示到中心线2个标准差宽度。
补充知识:检验过程是否为白噪声的Q 统计量
在介绍Q 统计量之前,先介绍序列y t 的估计的自相关函数(相关图)的定义,
r k =
1
T -k
t =k +1
T
∑(y
1T
t =1
T
t
-t )(y t -k -t )
, k = 1, 2, ….
t
∑(y
-t ) 2
其中r k 表示y t 与y t-k 估计的自相关系数,是对自相关系数ρk 的估计。
定义t -k = (∑y t -k )/ (T -k ) ,t = (∑y t )/ T 。
模型残差序列是否为白噪声的检验是用Box-Pierce (1970) 提出的Q 统计量完成的。Q 检验的零假设是
H :ρ1 = ρ2 = … = ρK = 0
即序列是一个白噪声过程。其中ρi 表示自相关系数。Q 统计量定义为
Q = T
∑
k =1
K
r k 2 (r k 是用残差序列计算的自相关系数的估计值)
2
随着T →∞,Q 渐近服从χ(K -p -q ) 分布,其中T 表示样本容量,K 表示自相关系数的
个数,p 表示模型自回归部分的最大滞后值,q 表示移动平均部分的最大滞后值。
Ljung 和Box 认为定义的Q 统计量的分布与χ2(K -p -q ) 分布存在差异(相应值偏小),于是提出修正的Q 统计量。
r k Q = T (T +2) T -k k =1∑K 2
其中r k ,K ,p ,q 的定义如上式。修正的Q 统计量渐近服从χ2(K -p -q ) 分布。且它的近似性比原Q 统计量的近似性更好。(注意:EViews 中给出的Q 统计量就是按修正的Q 统计量定义的。)
用残差序列计算Q 统计量的值。显然若残差序列不是白噪声,残差序列中必含有其他成份,自相关系数不等于零。则Q 值将很大,反之Q 值将很小。判别规则是:
若Q ≤χα2(K -p -q ) ,则接受H 0。
若Q >χα2(K -p -q ) ,则拒绝H 0。
其中α 表示检验水平;p ,q 分别表示时间序列模型中自回归和移动平均滞后项的个数。 实际检验中,K 取15左右即可。
11