본문 바로가기
통계/시계열 분석

[시계열 분석] 이동평균모형 (MA; Moving Average)

by 근수짜세 2022. 8. 15.

AR(p)모형은 시계열 $y_{t}$를 설명하는데 $y_{t-1},...,y_{t-p}$가 정보를 가지고 있고 $y_{t-p-1}$ 이후 시점의 시계열들은 지수적으로 감소하는 형태의 정보를 가진다. 그렇다면 어떤 시계열 $y_{t}$를 설명하는데 오직 시계열 $y_{t-1},...,y_{t-q}$(이전 q개의 시계열)의 정보만 이용한다면 어떻게 표현할 수 있을까? 이를 모형화한게 이동평균모형 (MA; moving Average Model)이라 할 수 있다. 모형의 식을 보자.


  • MA(q) :

$$y_{t}=a_{t}-\theta_{1}a_{t-1} -, \cdots -\theta_{q}a_{t-q} \tag{1} $$

  • 후행연산자를 사용한 MA(q) 모형 :

$$y_{t} = (1-\theta_{1}B- \theta_{2}B^{2}- \cdots -\theta_{q}B^{q})a_{t} = \theta_{q}(B)a_{t}   $$


 AR모형과 마찬가지로 평균 모수는 demeaned process를 통해 제거될 수 있으므로 생략할 수 있다. 분산, 자기공분산 $\gamma_{k}$과 자기상관함수 $\rho_{k}$는 $a_{t}$가 평균이 0이고 분산이 $\sigma_{a}^{2}$인 백색잡음과정이기에 다음과 같이 간단하게 유도할 수 있다.


  • 분산 $\gamma_{0}$ :

\begin{align}  \gamma_{0} = Var(y_{t}) & = Var(a_{t}-\theta_{1}a_{t-1} -, \cdots -\theta_{q}a_{t-q})   \\ & = (1+\theta_{1}^{2}+\theta_{2}^{2}+,\cdots ,+\theta_{q}^{2})\sigma_{a}^{2} \end{align}

  • 자기공분산 $\gamma_{k}$ :

\begin{align}  \gamma_{k} &     = E[( a_{t}-\theta_{1}a_{t-1} -, \cdots -\theta_{q}a_{t-q}) \cdot (a_{t-k}-\theta_{1}a_{t-k-1} -, \cdots -\theta_{q}a_{t-k-q})] \\ & \\ & = \begin{cases} (-\theta_{k} + \theta_{1} \theta_{k+1} + \cdots + \theta_{q-k} \theta_{q})\sigma_{a}^{2} & k \leq q \\ 0 & k > q \\ \end{cases} \end{align}

  • 자기상관함수(ACF) $\rho_{k}$ :

\begin{equation} \rho_{k} = \begin{cases} \frac{(-\theta_{k} + \theta_{1} \theta_{k+1} + \cdots + \theta_{q-k} \theta_{q})}{(1+\theta_{1}^{2}+\theta_{2}^{2}+,\cdots ,+\theta_{q}^{2})} & k \leq q \\ 0 & k > q \\ \end{cases} \end{equation}


쓰고 보니까 굉장히 너저분한데,, 무튼 $a_{t}$와 $a_{t-i}$들의 uncorrelated 성질만 이용하면 쉽게 유도된다. ACF가 $k \geq q$에서 0이 된다는 사실을 조금 더 직관적으로 이해할 수 있다. MA(q)모형 자체가 시계열 $y_{t}$은 t-1,...,t-q 시점만 정보를 가지고 있기 때문에 t-q-1 이후 시점들의 정보와는 무관하다고 할 수 있다. 따라서 $k \geq q$에서는 ACF가 모두 0이다. 만약 MA(q)모형의 sample ACF를 그린다면 q+1 시점부터 절단된 형태를 가질것이다.

 

 MA(q)모형은 AR(p)모형과 달리 항상 정상성을 가진다. 직관적으로 한번 생각해보자. MA(q)모형이 추세선을 가진다고 가정해보자. 그렇다면 시계열 $y_{t}$를 설명하는데 $y_{0}, y_{1},...,$ 모든 시점의 시계열 정보를 이용한다는 뜻이다. 이는 MA(q)모형이 t-1,...,t-q 시점까지만 이용한다는 사실과 모순이므로 MA(q)모형은 추세선을 가져서는 안된다. 따라서 MA(q) 모형은 항상 정상성을 가지게 된다.

 

 대신 MA(q)모형에서는 가역성(Invertibility)를 따져야한다. 먼저 가역성 조건이 어떻게 되는지 알아보자.


가역성 조건 : $\theta_{q}(B)=0$의 모든 근의 절댓값이 1보다 커야한다.


AR(p)모형의 정상성 조건과 형태가 유사하다. 가역성 조건이 왜 이렇게 나타나는지 MA(1)의 경우에서만 살펴보고 q에 대해서는 증명없이 확장해서 받아들이자. 우선 MA(1)에서 특성방정식 $1-\theta_{1}B=0$으로부터 근은 $\theta_{1}^{-1}$이다.


\begin{align} a_{t} & = y_{t} + \theta_{1}a_{t-1} \\ & = y_{t} + \theta_{1}(y_{t-1} + \theta_{1}a_{t-2}) \\ & \qquad \vdots \\ & =y_{t} + \theta_{1}y_{t-1} + \theta_{1}^{2}y_{t-2} + \theta_{1}^{3}y_{t-3} + \cdots \end{align}

이므로

$$y_{t} = -\theta_{1}y_{t-1} -\theta_{1}^{2} y_{t-2} -\theta_{1}^{3} y_{t-2} - \cdots + a_{t} $$


 따라서 $|\theta_{1}| < 1$인 경우에만 AR()로 표현될 수 있다. 

 

마지막으로 가상의 MA(1)모형의 sample ACF와 PACF의 그림을 그려보자


library(forecast)
at <- runif(200, min=-0.5, max=0.5)
yt <- rep(0, 200)
for(i in 2:200) yt[i] = at[i] - 0.7*at[i-1]
ggtsdisplay(ts(data=yt), main = "MA(1)")

 sample ACF가 시차2부터 절단된 형태를 가진다. 만약 임의의 시계열의 sample ACF와 PACF의 그림을 그렸을 때 위와 같은 형태를 띄게 된다면 MA(1)모형으로 식별할 수 있어야한다. 또한 유의수준 0.05에서 유의하므로 MA(1)모형이 참이라는 가정하에 20개 시차에 대한 sample ACF 중 1개정도는 기준치를 초과할 것으로 기대된다고 해석할 수 있다. 

댓글