시계열 분석이란 ?
- 과거의 흐름으로 미래를 예측하는 방법론 중 하나
시계열 데이터 = '시간에 따라 정렬된 데이터'
단, 데이터는 주기적으로 기록되며, 이를 동일한 시간단계(time step)으로 분포한다고 정의
ex) 주식, 가정의 전기 소비량 등
다른 머신러닝과 달리 시계열 데이터는 시간, 측정 값 단 2개의 데이터로만 이루어져 있음.
모든 시계열 데이터는 세 가지 구성요소를 가짐.
1. 트렌드
- 시간이 지남에 따라 지속적이고 일관된 방향으로 변화하는 장기적 패턴
- 증가, 감소, 혹은 일정한 상태
2. 계절성
- 일정한 시간 주기에 따라 반복되는 패턴
- 주로 연간 주기를 따르며, 특정 계절에 따라 데이터가 반복적인 변동을 보이는 경우
- 계절성은 일반적으로 시간에 관련된 고정된 주기를 가지고 있으며, 특정 시점에서 데이터가 규칙적으로 상승 or 하락
ex ) 여름철 에어컨 판매 증가, 연말 쇼핑 시즌 매출 상승 등
3. 주기성 (Cycles)
- 경제적, 사회적, 정치적 요인에 의해 발생하는 불규칙한 변동 패턴
- 계절성과 다른 점은 장기적이고 불규칙한 패턴이라는 점
ex) 반도체 업사이클, 다운 사이클 등
@ 계절성과 주기성의 차이점
- 계절성 -> 일정한 간격으로 반복, 주기 -> 불규칙적으로 발생
- 발생원인 : 계절성 -> 계절적인 요인, 주기 -> 경제, 사회적인 요인
- 계절성 -> 규칙적이므로 예측 가능, 주기 -> 변동성이 커서 예측 어려움
- 시간 범위 : 계절성 -> 1년 이내, 주기 -> 수년 이상
4. 잔차(Residual)
- 잔차는 시계열 데이터에서 추세와 계절성을 제거한 후 남는 무작위적 변화량
- 특정 패턴을 가지지 않으며, 주로 백색소음(White Noise)처럼 랜덤한 요소
ex) 추세와 계절성 요인을 제거한 후 남는 예측 불가능한 변화량
시계열 분해 (Time Series Decomposition)
- 시계열 분해를 통해 각 구성요소를 시각화하면 원래 데이터로는 파악하기 어려운 추세와 계절적 패턴을 파악하는데 도움이 된다.
- statsmodels나 prophet 모델은 시계열 분해와 그 결과를 시각화하는 기능을 제공
시계열 예측 vs 회귀 예측
- 회귀는 데이터 순서가 중요하지 않음. 독립변수를 기반으로 종속변수를 예측할 때, 상관관계만 파악.
- 시계열 분석에서는 시간에 따라 데이터의 순서가 중요.
- 시계열 데이터의 순서를 섞을 경우 모델이 올바른 패턴을 학습하지 못함. > 이를 시간 종속성을 해쳤다고 표현
- 회귀 분석에서는 여러 피처를 사용해 목표 변수를 예측하는 것이 일반적이나 시계열 분석은 시간의 흐름에 따라 특정 시점에 관측된 값에 기반해, 주로 과거의 값(피처)를 사용하여 미래의 값을 예측함.
즉, 과거 시점의 데이터 자체가 피처 역할을 하며, 시간 의존성이 핵심. 이러한 이유로 시계열에서는 자기회귀 모델(AR)과 이동평균 모델(MA)이 등장.
- 자기회귀 모델(AR)은 과거 값을 기반으로 미래 값을 예측
- 이동평균 모델(MA)은 과거의 잔차(Residuals)를 활용해 예측
'TIL > 머신러닝' 카테고리의 다른 글
시계열 데이터 분석 2 (1) | 2024.09.26 |
---|---|
머신러닝| 딥러닝 (0) | 2024.08.22 |
비지도학습 K-Means Clustering 군집화 (0) | 2024.08.20 |
의사결정나무, 랜덤포레스트, KNN, 부스팅 알고리즘 (1) | 2024.08.20 |
데이터분석 예측 모델링 실습 (0) | 2024.08.19 |