본문 바로가기
통계/시계열 분석

[시계열 분석] 자기회귀모형 (AR; Autoregressive model) (2)

by 근수짜세 2022. 8. 14.

 

 이전 포스팅에서 AR(1)모형의 정의와 성질에 대해 다뤘다. 이를 일반화시킨 AP(p)과정의 정의와 성질에 대해 살펴보려고 한다. AR(p) 모형은 시계열 $y_{t}$를 설명하는데 $y_{t-1},\, y_{t-2},...,y_{t-p}$가 정보를 가지고 있고 $y_{t-p}$이후의 값은 지수적으로 감소하는 정보를 가지는 형태다. 우선 AR(p)의 모형은 다음과 같이 정의된다.


$$y_{t} = \phi_{1}y_{t-1} + \phi_{2}y_{t-2} + \cdots + \phi_{p}y_{t-p} + a_{t} \tag{1}$$


 AR(1)모형과 마찬가지로 평균과 관련된 모수는 demeaned process에 의해 평균을 0으로 조절할 수 있고 변동성엔 영향을 미치지 않으므로 없다고 가정한다. 자기공분산과 자기상관계수를 유도해보자.


  • 자기공분산 $\gamma_{k}$ : 

\begin{align} \gamma_{k} & = Cov(y_{t}, \, y_{t-k}) \\ & = Cov(\phi_{1}y_{t-1} + \cdots + \phi_{p}y_{t-p} + a_{t} \, , \, y_{t-k}) \\ & = \phi_{1} \gamma_{|k-1|} + \phi_{2} \gamma_{|k-2|} + \cdots + \phi_{p}\gamma_{|k-p|} \\ \end{align}

  • 자기상관함수 $\rho_{k}$ : 

$$\rho_{k} = \frac{\gamma_{k}}{\gamma_{0}}=  \phi_{1} \rho_{|k-1|} + \phi_{2} \rho_{|k-2|} + \cdots + \phi_{p}\rho_{|k-p|} \tag{2}$$


특별히 식(2)를 율-워커(Yule-Waler)방정식이라 부른다. 이 방정식을 k=1,...,p까지 대입해서 풀어써보자.


  • AR(1) Yule-Walker Equation :

$$\rho_{1} = \phi_{1}$$

  • AR(2) Yule-Walker Equation :

\begin{align} & \rho_{1} = \phi_{1} + \rho_{1} \phi_{2} \\ & \rho_{2} = \rho_{1} \phi_{1} + \phi_{2} \\ \end{align}

  • AR(p) Yule-Walker Equation :

\begin{align} & \rho_{1} = \phi_{1} + \rho_{1} \phi_{2} + \rho_{2} \phi_{3} + \cdots + \rho_{p-1} \phi_{p} \\ & \rho_{2} = \rho_{1} \phi_{1} + \phi_{2} + \rho_{2} \phi_{3} + \cdots + \rho_{p-1} \phi_{p} \\ & \vdots \\ & \rho_{p} = \rho_{p-1} \phi_{1} + \rho_{p-2} \phi_{2} + \rho_{p-3} \phi_{3} + \cdots + \phi_{p} \\ \end{align}


 이 율-워커 방정식은 어떻게 쓰일까? ACF와 PACF를 설명하는 포스팅에서 sample ACF의 계산식을 정의했다. sample ACF의 계산은 단순하데 이 계산된 sample ACF로부터 위의 방정식을 풀게 되면 AR 모형의 모수 $\phi_{i}$에 대한 추정치 $\hat{\phi_{i}}$를 구할 수 있어서 유용하다고 할 수 있다.

 

 다음으로 AR(p)모형의 정상성 조건은 어떻게 구하는지 알아보자. 그 전에 주목해야 할 점은 AR(1)모형에서는 ACF가 $\phi_{i}$의 함수로 직접 표현되지만, $p \geq 2$ 부터는 ACF가 $\phi_{i}$의 함수로 직접 표현되지 않는다는 점이다. 따라서 ACF가 -1부터 1사이 값을 가져야하는 성질을 이용해 정상성 조건을 구하는 방법은 AR(1)에서는 단순히 알 수 있지만 AR(2)부터는 그렇지 않다. 모든 $\rho_{1},...,\rho_{p}$에 대해서 $\phi_{i}$의 함수로 나타내야하기에 식이 굉장히 복잡해지기 때문이다. 그렇다면 AR(p)모형에 대한 정상성 조건을 어떻게 단순화 시켜 표현할 수 있을까? 우선 후행연산자(Backshift operator)의 정의와 후행연산자를 이용한 AR(p)모형을 다시 나타내보자. 


  • 후행연산자 정의 : 

$$B^{k} \cdot y_{t} = y_{t-k}$$

  • AR(p)를 후행연산자를 이용한 표현 : 

$$\phi_{p}(B)\cdot y_{t} = (1-\phi_{1}B - \phi_{2}B^{2} - \cdots - \phi_{p}B^{p})y_{t} = a_{t}$$


 후행연산자는 이름에서 유추할 수 있듯 시계열 $y_{t}$를 과거 시계열로 돌려주는 연산자다. 위 식에서 $\phi_{p}(B)=0$를 AR(p)모형의 특성 방정식(characteristic equation)이라고 부르는데, 이 특성 방정식의 모든 p개의 근 $B_{1}, B_{2},...,B_{p}$들의 절댓값이 1보다 크면 AR(p)모형은 정상성을 만족하게 된다. (참고한 교재에서는 따로 증명이 없었다. AR(2)의 예로 ACF의 성질을 이용해 정상성의 조건을 구하는 방법과 특성 방정식을 이용해 정상성을 구하는 방법이 같다는 정도만 보이고 바로 AR(p)모형을 확장할 수 있다고만 설명했다.)

 


정상성조건 : $ \phi_{p}(B)=0$의 모든 근의 절댓값은 1보다 커야한다.


 다음으로 AR(p)모형의 PACF는 어떤 값을 가질까? Durbin Levinson Algorithm을 사용해 복잡하게 계산되겠지만, 어느경우에 그 값이 0이되는지만 직관적으로 알아보자.

 AR(P) 모형에서 시계열 $y_{t}$는위의 네모박스에 포함된 $y_{t-1},...y_{t-p}$들로만 직접적인 관계를 가진다. 그 외의 시계열들도 $y_{t}$와 상관관계를 가지지만 $y_{t-1},...,y_{t-p}$로 인해 간접적으로 상관관계를 가지는 거다. 시계열 $y_{t-1},...,y_{t-p}$가 고정된 상수로 주어진다면, t-p 이전 시점의 시계열들과의 PACF는 전부 0이 된다. 따라서 AR(P)모형에서 sample PACF는 시차 p+1부터 절단된 형태를 가지게 된다.

 

마지막으로 정상성을 만족하는 가상의 모형 AR(3)에서 sample ACF와 sample PACF 그림을 출력해보자. R의 'forecast' 패키지를 이용했다.

library(forecast)
at <- runif(200, min=-0.5, max=0.5)
yt <- rep(0, 200)
for(i in 4:200) yt[i] = 0.2*yt[i-1] + 0.2*yt[i-2] + 0.2*yt[i-3] + at[i]
ggtsdisplay(ts(data=yt), main = "AR(3)")

 sample ACF가 지수적으로 감소하며, sample PACF는 시차 4부터 절단된 형태를 가진다. 따라서 만약 임의의 시계열 데이터가 위의 그림과 같은 형태를 띈다면 AR(3)을 모형의 후보로 선택할 수 있어야한다. 또한 AR(3)의 모형이 참이라면, sample PACF는 유의수준 0.05에서 유의하다. 달리 말해, 20개 시차에 대한 sample PACF 중 1개 정도는 기준치인 파란색 선을 초과할 것으로 기대된다고 해석할 수 있다

댓글