본문 바로가기
통계/시계열 분석

[시계열 분석] 자기상관함수(ACF)와 부분자기상관함수(PACF)

by 근수짜세 2022. 8. 12.

 자기상관함수(ACF; Autocorrelation function)와 부분 자기상관함수(PACF; Partial Autocorrelation function)는 어려운 개념은 아니지만 ARMA(p,q)모형의 차수를 식별하는데 중요한 정보를 제공하고 잔차분석에도 사용되기 때문에 한 번 정리하고 넘어가보려고 한다. 우선 자기상관함수와 부분자기상관함수는 다음과 같이 정의된다.


  • ACF : $\rho_{k} = Corr(y_{t}, \, y_{t-k})$
  • PACF : $\phi_{kk} = Corr(y_{t}, \, y_{t-k} | y_{t-k+1},...,y_{t-1})$

 수식이 어렵지 않아 두 함수가 어떤 의미를 가지는 이해하는데 큰 어려움이 없다. ACF의 경우 두 시점의 단순 자기상관계수이며, PACF는 기준이 되는 두 시점을 제외한 그 사이 시점들을 모두 고정시켜 살펴본 자기상관계수이다. 시차 $k$가 2이면서 다음과 같이 세 시점이 관계를 가지고 있을 때, $y_{t}$와 $y_{t-2}$의 ACF와 PACF를 예로 들어보자.

 $y_{t}$와 $y_{t-2}$가 $y_{t-1}$로 인해 간접적으로 관계를 가지고 있으므로 ACF는 0이 아니다. 반면 조건부 통계량으로 시점 $y_{t-1}$가 상수로써 주어졌다고 가정한다면, $y_{t}$와 $y_{t-2}$는 그림처럼 서로 영향을 미치지 못해 PACF의 값은 0이 된다.

 

 그렇다면 ACF와 PACF를 사용해 어떻게 ARMA(p,q)모형을 식별할 수 있을까? ARMA(p,q)의 특별한 경우인 MA(q)모형에서 이론적으로 $q$시차 이후의 ACF는 전부 0이며 PACF는 지수적으로 감소한다. 반대로 AR(p)의 경우 $p$시차 이후의 PACF는 전부 0이며 ACF는 지수적으로 감소한다. 추후 포스팅에서 ARMA모형의 성질을 다룰 때 수식으로 풀어보자.

 

 ACF와 PACF는 추정의 대상(Estimand)이 되는 모수(Parameter)이다. ARMA모형을 식별하는데 ACF와 PACF를 직접 이용하면 좋겠지만, ACF와 PACF 역시 시계열 데이터를 통해 추정을 해야한다. sample ACF는 다음과 같이 정의한다.


  • sample ACF  :  $\hat{\rho}_{k} = \frac{\Sigma_{t=1}^{n-k} (y_{t} - \bar{y}) (y_{t+k} - \bar{y})}  {\Sigma_{t=1}^{n} (y_{t} - \bar{y})^{2} }$

 sample correlation과 거의 유사한 형태다. 주의할 점은 $k$만큼의 시차가 있기 때문에 $k$개의 표본의 누락이 발생하고 전체 $n$개의 표본에서 이를 제외하여 correlation을 계산해야한다. sample PACF의 식은 생략하였는데, 식이 굉장히 복잡하기 때문이다. (쓰기 귀찮아서 그런게 아니다.) 무튼 sample PACF는 Durbin Levinson Algorithm을 사용해 sample ACF로 재귀적으로 계산된다고 하니 참고만 하고 넘어가자.

 

 마지막으로 AR(p)를 가정한 모형에서 sample PACF의 분산은 근사적으로 $1/n$이고, MA(q)를 가정한 모형의 sample ACF의 분산 역시 근사적으로 $1/n$이 된다. 이 사실을 알고 있어야 쉽게 ARMA의 차수를 결정할 수 있고, 식별된 모형이 어느정도 오류를 포함하는지 수치적으로 나타낼 수 있다.

댓글