본문 바로가기
통계/시계열 분석

[시계열 분석] 자기회귀모형 (AR; Autoregressive Model) (1)

by 근수짜세 2022. 8. 13.

 

 

 

AR(1) 모형

 시계열 데이터 $y_{t}$를 설명하는데 있어 과거의 모든 시점 t-1, t-2, ... 의 정보를 이용하는건 자연스러운 가정이라 할 수 있다. 이런 가정을 모형화한게 자기회귀모형 (AR; Autoregressive model)이다. 자기회귀모형은 차수 $p$와 함께 AR(p)로 나타낸다. 이번 포스팅에서는 AR(p)모형의 특별한 경우인 AR(1)의 모형을 살펴볼 것이다. 우선 AR(1)의 경우 다음과 같이 정의된다.


  • $E[y_{t}]=\mu$인 경우의 모형 : $$ y_{t} = \theta_{0} + \phi_{1}y_{t-1} + a_{t} \tag{1}$$
  • $E[y_{t}]=0$인 경우의 모형 :  $$ y_{t} = \phi_{1}y_{t-1} + a_{t} \tag{2}$$

 

 여기서 $a_{t}$는 평균이 0이고 분산이 $\sigma^{2}$인 백색잡음(White Noise)이고 $\theta_{0}$는 평균을 결정하는 모수이다. (2)와 같이 시계열 데이터의 평균을 0으로 가정하는 것 보단 (1) 처럼 평균이 존재한다고 가정하는게 일반적인 모형이라 할 수 있다. 하지만 (1) 역시 demeaned process를 통해 평균을 0으로 조절할 수 있고 데이터의 변동성엔 영향을 미치지 않으므로 편의상 (2)의 모형을 사용해서 AR(1)의 성질들을 살펴보자. 

 

 모형이 복잡하진 않지만 식 안에 많은 정보를 담고 있다. 먼저 AR 모형은 과거의 모든 시점의 데이터를 이용한다고 했다. 그런데 식 (2)에서는 t-1 시점을 제외하면 다른 과거의 시점은 이용하지 않는 것 처럼 보인다. 모형의 식을 재귀(?)적으로 풀어보자.


\begin{align} y_{t} & = a_{t} + \phi_{1}( a_{t-1} + \phi_{1}y_{t-2}) \\ & = a_{t} + \phi_{1} a_{t-1} + \phi_{1}^{2}(a_{t-2} + \phi_{1}y_{t-3}) \\ & =a_{t} + \phi_{1} a_{t-1} + \phi_{1}^{2} a_{t-2} + \phi_{1}^{3}(a_{t-3} + \phi_{1}y_{t-4}) \\ & = a_{t} + \phi_{1} a_{t-1} + \phi_{1}^{2} a_{t-2} + \phi_{1}^{3} a_{t-3} + \cdots \end{align}


 $y_{t}$가 과거의 모든 시점의 백색잡음으로 표현됨을 알 수 있다. 여기서 추가적으로 고려할 점은 $y_{t}$를 설명하는데 t-1시점에서 가장 많은 정보를 가지고 있어야하고 그 이후의 시점들은 점차 (지수적으로) 감소하는 형태의 정보를 갖고 있어야 합리적인 모형이라는 거다. 즉, $|\phi_{1}| < 1$이어야하고 이는 AR(1) 모형의 정상성을 갖기 위한 조건과 동치이다. 

 

 다음으로 자기공분산과 자기상관함수를 유도해보자. 마찬가지로 재귀적으로 풀어서 계산 가능하다. 시차 $k$에 대한 자기 공분산을 $\gamma_{k}$로 나타내자.


  • 자기공분산 $\gamma_{k}$ :

\begin{align} \gamma_{k} = E[y_{t}\cdot y_{t-k}] & = E[(\phi_{1}y_{t-1} + a_{t}) y_{t-k}] \\ & = \phi_{1}E[y_{t-1} \cdot y_{t-k}] + \cancel{E[a_{t}y_{t-k}]} \\ & = \phi_{1} E[(\phi_{1}y_{t-2} + a_{t-1}) y_{t-k}] \\ & = \phi_{1}^{2} E[y_{t-2} \cdot y_{t-k}] + \cancel{E[a_{t-1}y_{t-k}]} \\ & \qquad \vdots \\ & = \phi_{1}^{k} \cdot \gamma_{0} \\ \end{align}

  • 자기상관함수 $\rho_{k}$ :

\begin{align} \rho_{k} = \frac{\gamma_{k}}{\gamma_{0}} = \phi_{1}^{k} \end{align}


 자기상관함수(ACF) $\rho_{k}$는 정상성 조건에 의해 $| \phi_{1} | < 1$ 여야하고 k가 커짐에 따라 감소해야한다. (상관계수는 -1~1사이에서 정의 된다는 사실을 이용해도 똑같은 정상성 조건을 구할 수 있으며, 차수 $p$가 1이 아니라 2일 경우 상관계수 정의에 의해 정상성 조건을 따지는 것이 맞다.) 따라서, AR(1) 모형을 가정했을 때 sample ACF는 지수적으로 감소하는 형태를 가진다.

 

 다음으로, 부분자기상관함수(PACF)를 살펴보자. 내가 참고한 책에는 유도과정을 따로 설명해두지는 않았지만 직관적으로 유추해볼 수 있다. 모형 식 (2)로부터 $y_{t}$가 직접적으로 관계를 가지는 데이터는 $y_{t-1}$뿐이다. $y_{t-2}$와도 관계를 가지고 있지만, $y_{t-1}$로부터 간접적으로 관계를 가지고 있다고 볼 수 있다. 도식화해서 나타내보자.

 즉, AR(1)모형에서 PACF $\phi_{kk}$는 시차가 $k=1$일 때만 유효하고 그 다음 시차부터는 전부 0의 값을 가지게 된다. 따라서 AR(1)모형에서 sample PACF는 시차 2부터 절단된 형태를 가지게 된다.

 

 가상의 AR(1)모형에서 생성된 시계열 데이터의 sample ACF와 sample PACF를 살펴보자. R에서 'forecast' 패키지를 사용하면 시각적으로 깔끔한 그림과 함께 sample ACF와 PACF를 출력해준다.

library(forecast)
at <- runif(200, min=-0.5, max=0.5)
yt <- rep(0, 200)
for(i in 2:200) yt[i] = 0.7*yt[i-1] + at[i]
ggtsdisplay(ts(data=yt), main = "AR(1) with phi=0.7")

 

sample ACF가 지수적으로 감소하며 sample PACF는 시차 2부터 절단된 형태임을 알 수 있다. 따라서 만약 임의의 시계열 데이터가 위의 그림과 같은 형태로 나타난다면, AR(1) 모형을 후보로 선택할 수 있어야한다.

 

 파란색 선의 값은 어떻게 결정될까?. AR모형에서 sample PACF의 standard error는 근사적으로 $SE(\hat{\phi_{kk}}) \simeq 1/\sqrt{n}$이다. 즉, 파란색 선의 값은 $1.96 \cdot SE(\hat{\phi_{kk}}) \simeq 0.138$이 되고 출력된 모든 $\hat{\phi_{kk}}$는 유의수준 0.05에서 유의하다. 달리 말하면 20개의 시차에 대한 sample PACF 중 1개 정도는 이 기준치를 초과할 것으로 기대된다고도 해석할 수 있다.

 

마지막으로 $-1 < \phi_{1} < 0$값을 가지면 어떻게 될까? 가상의 AR(1) 모형에서 확인해보자.

library(forecast)
at <- runif(200, min=-0.5, max=0.5)
yt <- rep(0, 200)
for(i in 2:200) yt[i] = -0.8*yt[i-1] + at[i]
ggtsdisplay(ts(data=yt), main = "AR(1) with phi=-0.7")

 

 시계열의 자기상관계수가 음의 값을 가지게 되므로 sample ACF가 지수적으로 감소하기는 하되 파동형을 띄는 것을 알 수 있다. 

댓글