본문 바로가기
통계/시계열 분석

[시계열 분석] 정상성(Stationary)이란?

by 근수짜세 2022. 8. 12.

 시계열이 정상성(Stationary)을 가진다고 하면 다음 세 조건을 만족하는 경우를 말한다.


  1. $E(y_{t}) = \mu \quad ^{\forall} t$
  2. $Var(y_{t}) = \sigma^{2} \,   \quad ^{\forall} t$
  3. $Cov(y_{t},\, y_{t+k})=\gamma(|k|) $

 처음 정상성이라는 개념을 접했을 때 조건 1,2를 받아들이는데는 큰 어려움이 없다. 시계열 데이터가 증가하거나 감소하는 추세(Trend)가 아닌 모든 시간 $t$에 대해 데이터가 일정한 범위 내에 속하기만 하면 되기 때문이다. 하지만 3의 조건은 단순히 수식으로만 보면 잘 받아들여지지 않았다. 3의 조건을 말로 쓰자면 "두 시점 사이의 자기공분산은 시차(TIme lag) $k$에 대한 함수이다."  라 할 수 있다. 조금 더 풀어쓰자면  "두 시점 사이의 관계는 시간 $t$에 의해서 결정되는 것이 아니라 오직 시차 $k$에 의해서만 결정되어야한다." 쯤으로 풀이될 수 있다.

 

 3의 조건을 조금 더 자세히 살펴보자. 만약 두 시점 사이의 자기공분산이 존재하지 않는다면 어떻게 될까? 너무 당연한 얘기지만 만약 그렇다면 시계열분석을 하는데 아무 의미가 없게 된다. 시계열분석이라 함은 과거와 현재의 데이터가 어떤 관계를 가지고 있다는 믿음에서 미래에도 비슷한 패턴을 보일 것이라는 가정으로부터 시작이 된다. 그런데 시점이 다른 과거의 두 데이터가 아무런 관계를 맺고 있지 않다면 시계열분석보다는 시간을 고려하지 않은 다른 통계 모델링을 하는 것이 더 합리적이다.

 

 다음으로 자기공분산이 존재하긴 하는데 시차$k$에 의해서만 결정되는 것이 아니라, 시점 $t$에 의해서도 결정되면 어떻게 될까? 가장 대표적인 예로 "계절성(Seasonality)"이 존재하는 데이터가 여기에 해당된다. 계절성은 주로 1년 내외의 단기에서 특정 시점마다 주기적인 패턴을 보이는 요인이다. 간단히 계절에 따른 아이스크림 판매량을 예로 들 수 있겠다. 무튼 이런 계절성을 가지는 데이터의 경우 정상성을 가진다고 할 수 없다. 

 

 그렇다면 왜 시계열분석에서 정상시계열을 중요하게 다룰까? 일반적인 시계열 데이터의 경우 추세와 계절성이 존재하는 경우가 더 많은데, 두 요인 중 하나라도 존재한다면 정상성을 만족 못하는데 말이다. 정답은 차분(Differencing)이라는 과정을 통해 (확률적) 추세가 존재하거나 계절성이 존재하는 비정상시계열 데이터를 정상시게열 데이터로 바꿔줄 수 있기 때문이다. 즉, 다양한 형태의 시계열 데이터를 정상시계열로 바꿔줌으로써 일관된 시계열분석기법을 적용할 수 있다.

 

T = 50
at <- runif(T, min=-0.5, max=0.5)
yt <- rep(0, T)
for(i in 2:T){yt[i] = -0.5*yt[i-1] + at[i]}
RW.ts <- ts(data=yt)
plot(RW.ts, main="AR(1)")
abline(h = 0)

정상성을 만족하는 시계열 데이터 예시

댓글