본문 바로가기
교육은 한 사람의 인생을 바꾼다/AI교육

완전 초짜 ORANGE 3 : 시계열 분석

by 함께 만드는 블로그 2021. 9. 7.
반응형

▷시계열 분석(Time Series Analysis)

-시간의 흐름에 따라 일정 간격으로 사건을 관찰 기록한 데이터로 미래 관측값을 예측하는 것

-시계열 자료 + 분석 = 시계열 분석

-시계열 자료 :

 1) 연속 시계열 : 연속적으로 생성되는 자료

 2) 이산 시계열 : 일정한 시차를 두고 생성되는 자료

-시계열의 요인 :

 1) 추세 요인 (Trend Factor) 

 2) 계절 요인 (Seasonal Factor) - 고정된 주기에 따라 자료 변화

 3) 추세 요인 + 계절 요인 혼합

 4) 순환 요인 (Cyclical Factor - 알려지지 않은 주기를 가지고 자료 변화

 5) 불규칙 요인 (Irregular Factor) - 일상의 대부분의 시계열 자료들

 

 

▷차분(Differencing)

-정상 과정(Stationary Process) : 시계열성(시간의 흐름)에 상관없이 평균과 분산이 일정한 상태

-시계열 분석의 기초가 되는 가정임. 정상성을 가진 자료만을 시계열 분석할 수 있음.

-그러나 대부분의 현실 data는 비정상성(Nonstationary)을 가짐.

-따라서 비정상성 >> 정상성을 띄는 데이터로 바꾸는 과정을 차분(Differencing)이라고 함.

-차분 : 본래의 데이터와 한 시점 미룬 데이터의 차를 구함.

X   D1(1차차분)
2 X Y
7 2 7-2=5
10 7 10-7=3
5 10 5-10=-5
8 5 8-5=3

-차분의 과정을 반복하면 비정상데이터가 정상데이터로 바뀔 확률이 높아짐.

-2차 차분은 두시점 미룬 데이터와의 차를 구하는 것. 대부분의 데이터는 2차 차분이면 충분

-정상성을 띄는 데이터는 계절성, 추세성을 가지지 않음.

 

 

▷시계열 모형

-자기회귀모델 (Auto Regressive Model) : 종속변수의 과거값을 독립변수 값으로 하는 회귀 분석

-이동평균 (Moving Average) : 각 시점에서의 에러값을 독립변수로 투입해 y 시점의 값을 확인하는 분석

-ARIMA 모델 (Auto Regressive + I + Moving Average) : 자귀회귀모델과 이동평균모델을 합한 분석모델

-VAR (Vector Auto Regressive Model) : 벡터자기회귀모델 / ARIMA 모델이 얘측변수를 통해 결과를 예측하는 단방향성 모델이라면, VAR은 예측변수를 통해 결과를 예측하고 그 결과가 다시 예측변수가 되어 다른 내생변수에 영향을 줌.

 

 

▷평가모델

-우도(Likelihood) : 가능도 / 데이터와 회귀분석을 통해 구축한 모델이 잘 맞으면 우도가 높음 / 잘 안 맞으면 우도가 낮음 

-AIC 모델 = -2log(likelihood) + 2p / p는 변수의 개수 

-BIC 모델 = -2log(likelihood) + plog(n) / n은 데이터의 수 / BIC 모델이 AIC 모델보다 더 보수적

-AIC / BIC 값이 너무 많이 차이나면 성능이 떨어지는 모델

-따라서 최적의 시계열 분석을 위해선 다양한 시계열 위젯을 모두 적용하고 평가해봐야 함.

 

 

▷시계열 분석 위젯

 

▷As Timeseries

-As Timeseries 는 데이터 테이블을 시계열 개체로 재해석하는 위젯이다. 시계열로 배열되어 있지 않은 데이터도 이 위젯으로 시계열화 시킬 수 있다. 시계열 분석의 결과는 주로 Line Chart 위젯을 사용한다.

-옆의 Transpose 는 데이터의 행과 렬을 바꿔주는 위젯이다. 

 

 

▷ Granger Causality / Seasonal Adjustment

-위의 두 위젯은 시계열 '분석'을 하는 위젯이다.  Granger Causality는 한 시계열 그레인저가 다른 시계열을 유발하는지 테스트한다. 한 시계열이 다른 시계열을 유발한다면, 전자로 후자를 예측할 수 있다.

-Seasonal Adjustment 는 시계열의 계절 성분을 제거하는 위젯이다.

 

 

▷Difference / ARIMA Model / VAR Model / Model Evaluaation

-Difference 는 데이터를 차분하는 위젯. 차분을 통해 정상성을 가진 데이터로 만든다.

-시계열 분석의 대표적인 모델로 ARIMA Model 과 VAR Model 이 있다. 자세한 설명은 위에 있다.

 

-모델들 중 어떤 모델이 더 적합한지 평가하기 위해서 Model Evaluation을 사용한다. 위의 경우, AIC와 BIC의 값이 압도적으로 작은 VAR 모델이 훨씬 더 적합한 모델로 보인다.

반응형

댓글