▷시계열 분석(Time Series Analysis)
-시간의 흐름에 따라 일정 간격으로 사건을 관찰 기록한 데이터로 미래 관측값을 예측하는 것
-시계열 자료 + 분석 = 시계열 분석
-시계열 자료 :
1) 연속 시계열 : 연속적으로 생성되는 자료
2) 이산 시계열 : 일정한 시차를 두고 생성되는 자료
-시계열의 요인 :
1) 추세 요인 (Trend Factor)
2) 계절 요인 (Seasonal Factor) - 고정된 주기에 따라 자료 변화
3) 추세 요인 + 계절 요인 혼합
4) 순환 요인 (Cyclical Factor - 알려지지 않은 주기를 가지고 자료 변화
5) 불규칙 요인 (Irregular Factor) - 일상의 대부분의 시계열 자료들
▷차분(Differencing)
-정상 과정(Stationary Process) : 시계열성(시간의 흐름)에 상관없이 평균과 분산이 일정한 상태
-시계열 분석의 기초가 되는 가정임. 정상성을 가진 자료만을 시계열 분석할 수 있음.
-그러나 대부분의 현실 data는 비정상성(Nonstationary)을 가짐.
-따라서 비정상성 >> 정상성을 띄는 데이터로 바꾸는 과정을 차분(Differencing)이라고 함.
-차분 : 본래의 데이터와 한 시점 미룬 데이터의 차를 구함.
X | D1(1차차분) | |
2 | X | Y |
7 | 2 | 7-2=5 |
10 | 7 | 10-7=3 |
5 | 10 | 5-10=-5 |
8 | 5 | 8-5=3 |
-차분의 과정을 반복하면 비정상데이터가 정상데이터로 바뀔 확률이 높아짐.
-2차 차분은 두시점 미룬 데이터와의 차를 구하는 것. 대부분의 데이터는 2차 차분이면 충분
-정상성을 띄는 데이터는 계절성, 추세성을 가지지 않음.
▷시계열 모형
-자기회귀모델 (Auto Regressive Model) : 종속변수의 과거값을 독립변수 값으로 하는 회귀 분석
-이동평균 (Moving Average) : 각 시점에서의 에러값을 독립변수로 투입해 y 시점의 값을 확인하는 분석
-ARIMA 모델 (Auto Regressive + I + Moving Average) : 자귀회귀모델과 이동평균모델을 합한 분석모델
-VAR (Vector Auto Regressive Model) : 벡터자기회귀모델 / ARIMA 모델이 얘측변수를 통해 결과를 예측하는 단방향성 모델이라면, VAR은 예측변수를 통해 결과를 예측하고 그 결과가 다시 예측변수가 되어 다른 내생변수에 영향을 줌.
▷평가모델
-우도(Likelihood) : 가능도 / 데이터와 회귀분석을 통해 구축한 모델이 잘 맞으면 우도가 높음 / 잘 안 맞으면 우도가 낮음
-AIC 모델 = -2log(likelihood) + 2p / p는 변수의 개수
-BIC 모델 = -2log(likelihood) + plog(n) / n은 데이터의 수 / BIC 모델이 AIC 모델보다 더 보수적
-AIC / BIC 값이 너무 많이 차이나면 성능이 떨어지는 모델
-따라서 최적의 시계열 분석을 위해선 다양한 시계열 위젯을 모두 적용하고 평가해봐야 함.
▷시계열 분석 위젯
▷As Timeseries
-As Timeseries 는 데이터 테이블을 시계열 개체로 재해석하는 위젯이다. 시계열로 배열되어 있지 않은 데이터도 이 위젯으로 시계열화 시킬 수 있다. 시계열 분석의 결과는 주로 Line Chart 위젯을 사용한다.
-옆의 Transpose 는 데이터의 행과 렬을 바꿔주는 위젯이다.
▷ Granger Causality / Seasonal Adjustment
-위의 두 위젯은 시계열 '분석'을 하는 위젯이다. Granger Causality는 한 시계열 그레인저가 다른 시계열을 유발하는지 테스트한다. 한 시계열이 다른 시계열을 유발한다면, 전자로 후자를 예측할 수 있다.
-Seasonal Adjustment 는 시계열의 계절 성분을 제거하는 위젯이다.
▷Difference / ARIMA Model / VAR Model / Model Evaluaation
-Difference 는 데이터를 차분하는 위젯. 차분을 통해 정상성을 가진 데이터로 만든다.
-시계열 분석의 대표적인 모델로 ARIMA Model 과 VAR Model 이 있다. 자세한 설명은 위에 있다.
-모델들 중 어떤 모델이 더 적합한지 평가하기 위해서 Model Evaluation을 사용한다. 위의 경우, AIC와 BIC의 값이 압도적으로 작은 VAR 모델이 훨씬 더 적합한 모델로 보인다.
'교육은 한 사람의 인생을 바꾼다 > AI교육' 카테고리의 다른 글
완전 초짜 ORANGE 3 : 시스템 제작 과정 (0) | 2021.09.09 |
---|---|
완전 초짜 ORANGE 3 : 네트워크 분석 (0) | 2021.09.08 |
완전 초짜 ORANGE 3 : 연관 분석 (0) | 2021.09.06 |
완전 초짜 ORANGE 3 : 지오코딩 (0) | 2021.09.05 |
완전 초짜 ORANGE 3 : 내가 분석한 실습예제 (3) | 2021.09.04 |
댓글