TIL/머신러닝

시계열 데이터 분석 2

jojoon2786 2024. 9. 26. 16:26

3. 확률 보행 프로세스

   3.1 확률 보행(Random Walk)란?

  •  평균과 분산이 시간이 지나도 일정하지 않은 비정상 시계열  
  •  시간이 지남에 따라 무작위로 이동하는 경로를 설명하는 수학적 모델
  •  확률이 개입하는 다양한 현상을 설명하는 데 필수적인 모델, 자연과학, 경제학, 컴퓨터 공학 등에 응용

  • yt : 현재 값
  • yt-1 : 이전 시간 단계의 값
  • C : 상수, 기본적으로 시계열이 가지는 평균 값
  • εt​  : 백색 소음, 표준정규분포를 따르는 난수로 시계열에 포함된 무작위적 요소(노이즈)

이 공식에서 현재 값과거 값, 상수, 백색소음의 입력 값으로 결정된 함수라는 점을 기억

-> 현재 값이 과거 정보와 랜덤한 변동의 영향을 받는다는 의미!

 

   3.1 정상성이란 ?

  • 시계열의 통계적 성질이 시간에 따라 변하지 않는 상태
  • 정상성 시계열*의 정의와 조건 세 가지
  1. 시계열의 평균이 시간에 따라 변하지 않고 일정함.

   2. 시계열의 분산이 시간에 따라 일정함.

   3. 시계열의 두 시점 간 공분산이 시간(t)에 의존하지 않고 시간의 차(h)에만 의존함.

  • Cov() : 두 시점 사이의 선형관계를 나타냄. 크면 두 시점이 강한 상관관계, 0이면 두 시점의 관계가 없음
  • 표준편차를 분모로 넣으면 상관관계가 됨.

  • r(h) : 시차를 갖는 두 시점 사이의 공분산 함수

   3.4 정상성 확보를 위한 데이터 변환 기법(전처리)

   

   1. 평균 안정화

   ● 차분

  • 차분은 시계열에서 추세, 계절성을 제거하기 위한 방법
  • 특정 시점과 그 직전 시점 사이 발생하는 일련의 변화를 계산

yt : 원본 데이터

y't : 차분 후 데이터

 

   ● 이동평균 평활화(Moving Average Smoothing)

  • 이동평균을 사용하면 시계열에서 단기적인 변동성을 제거하고, 전체적인 추세를 더 명확히 볼 수 있으며 평균을 안정화하는 데 도움이 됨.

*주어진 기간의 값을 모두 더하고 평균을 내어 평균을 구하겠다는 의미.

 

   2. 분산 안정화

   ● 로그 변환

  • 시계열 데이터의 분산을 안정화, 큰 값을 축소시켜 분산의 변동을 줄임.
  • ex) 기하급수적으로 증가하는 데이터(ex 기업 매출액, GDP), 비율 데이터

   ● 제곱근 변환

  • 분산을 줄이는 방법으로, 양수 데이터를 대상으로 사용
  • ex) 일반적인 빈도 데이터, 자연현상 데이터처럼 큰 변동성이 있는 데이터

   ● z-score 표준화

  • 데이터의 평균과 분산을 일정하게 만들기 위해 표준화를 사용
  • 평균 0, 분산 1

   ● Box-Cox 변환

  • 분산을 안정화 할 뿐만 아니라 데이터의 정규성을 보장하는 데도 유용
  • 이 변환은 파라미터 람다에 따라 데이터 변환 방식을 유연하게 조정

  • 람다 = 1 : 원본 데이터 유지
  • 람다 = 1 : 로그 변환
  • 0 < 람다 < 1 : 데이터가 클수록 변동성이 줄어들며 큰 값의 변동성을 완화
  • 람다 < 0 : 데이터를 뒤집어 역변환. 큰 값은 작게, 작은 값은 크게 변환

Q : 공분산 안정화는 왜 없나요 ?

A : 평균과 분산의 안정화를 꾀하면 자연스럽게 공분산도 시간(t)에 독립적이고 시차(h)에 만 의존하는 특성을 가지기 때문!