TIL/머신러닝

머신러닝 - 선형회귀 이론

jojoon2786 2024. 8. 8. 20:54

AI ⊃ 머신러닝 ⊃ 딥러닝

AI : 인간의 지능을 요구하는 업무를 수행하기 위한 시스템

Machine Learning : 관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘

Deep Learning : 인공 신경망을 이용한 머신러닝

 

머신러닝의 종류

 

머신러닝 종류

  • Supervised Learning(지도 학습)
  • Unsupervised Learning(비지도 학습)
  • Reinforcement Learning(강화 학습)

머신러닝 적용 분야

  • 금융 : 신용평가, 사기탐지, 주식 예측
  • 헬스케어 : 질병 예측, 환자 데이터 분석
  • 이커머스 : 고객 구매 패턴 분석, 추천 시스템, 가격 최적화, 장바구니 분석
  • 자연어처리 : 번역, 챗봇, 텍스트분석
  • 이미지 & 영상처리 : 얼굴인식, 이미지 생성

1. 선형회귀 이론

통계학에서 사용하는 선형회귀 식

Y = B0 + B1X + e
  • Y는 종속 변수, 결과변수
  • X는 독립 변수, 원인변수
  • B0 : 편향(Bias)
  • B1 : 회귀 계수
  • e : 오차(에러), 모델이 설명하지 못하는 Y의 변동성

머신러닝/딥러닝에서 사용하는 선형회귀 식

Y = wX + b
  • w : 가중치
  • b : 편향(Bias)

* 머신러닝/딥러닝 모델에서 오차 항은 명시적으로 다루지 않는다. b = B0 + e라고 생각

 

2. 회귀분석 평가 지표

1) MSE(Mean squared Error)

MSE

  • 실제 데이터 y에서 예측 데이터인 y^ 를 뺀다.
  • 음수, 양수가 둘다 나올 수 있기에 모두 양수로 바꿔주기 위해 제곱을 해준다.
  • 제곱한 값을 모두 더해준 후, 데이터의 갯수로 나눠준다.

* 숫자 예측 문제는 모두 MSE 지표를 최소화하는 방향으로 진행하고 평가하게 될 것임.

 

2) RMSE(Root MSE)

 

RMSE

  • Root를 씌워 제곱 된 단위를 다시 맞춤.

3) MAE(Mean Absolute value Error)

MAE

  • 절대값을 이용하여 오차를 계산

+

선형 회귀만의 평가 지표 - R Square

  • SSR : 회귀가 설명할 수 있는 값
  • SSE : 에러가 설명하는 값
  • SST : 실제로 예측해야 하는 값

 

  • SSR/SST : 모델의 설명력

선형 회귀분석 정리

장점

  1. 직관적이며 이해하기 쉽다.
  2. X-Y 관계를 정량화 할 수 있다.
  3. 모델이 빠르게 학습된다.(가중치 계산이 빠름)

단점

  1. X-Y간의 선형성 가정 필요
  2. 평가지표가 평균(mean)을 포함해 이상치에 민감
  3. 범주형 변수 인코딩시 정보 손실 발생

3. 선형회귀 적용

데이터 사이언스 파이썬 라이브러리

  • scikit-learn : Python 머신러닝 라이브러리
  • numpy : Python 고성능 수치 계산을 위한 라이브러리
  • pandas : 테이블 형 데이터를 다룰 수 있는 라이브러리
  • matplotlib : 대표적인 시각화 라이브러리, 그래프가 단순하고 설정 작업 많음
  • seaborn : matplot 기반의 고급 시각화 라이브러리, 상위 수준의 인터페이스를 제공

자주 쓰는 함수

- sklearn.linear_model.LinearRegression : 선형회귀 모델 클래스

  • coef_: 회귀 계수
  • intercept: 편향(bias)
  • fit: 데이터 학습
  • predict: 데이터 예측