AI : 인간의 지능을 요구하는 업무를 수행하기 위한 시스템
Machine Learning : 관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘
Deep Learning : 인공 신경망을 이용한 머신러닝
머신러닝의 종류
- Supervised Learning(지도 학습)
- Unsupervised Learning(비지도 학습)
- Reinforcement Learning(강화 학습)
머신러닝 적용 분야
- 금융 : 신용평가, 사기탐지, 주식 예측
- 헬스케어 : 질병 예측, 환자 데이터 분석
- 이커머스 : 고객 구매 패턴 분석, 추천 시스템, 가격 최적화, 장바구니 분석
- 자연어처리 : 번역, 챗봇, 텍스트분석
- 이미지 & 영상처리 : 얼굴인식, 이미지 생성
1. 선형회귀 이론
통계학에서 사용하는 선형회귀 식
Y = B0 + B1X + e
- Y는 종속 변수, 결과변수
- X는 독립 변수, 원인변수
- B0 : 편향(Bias)
- B1 : 회귀 계수
- e : 오차(에러), 모델이 설명하지 못하는 Y의 변동성
머신러닝/딥러닝에서 사용하는 선형회귀 식
Y = wX + b
- w : 가중치
- b : 편향(Bias)
* 머신러닝/딥러닝 모델에서 오차 항은 명시적으로 다루지 않는다. b = B0 + e라고 생각
2. 회귀분석 평가 지표
1) MSE(Mean squared Error)
- 실제 데이터 y에서 예측 데이터인 y^ 를 뺀다.
- 음수, 양수가 둘다 나올 수 있기에 모두 양수로 바꿔주기 위해 제곱을 해준다.
- 제곱한 값을 모두 더해준 후, 데이터의 갯수로 나눠준다.
* 숫자 예측 문제는 모두 MSE 지표를 최소화하는 방향으로 진행하고 평가하게 될 것임.
2) RMSE(Root MSE)
- Root를 씌워 제곱 된 단위를 다시 맞춤.
3) MAE(Mean Absolute value Error)
- 절대값을 이용하여 오차를 계산
+
선형 회귀만의 평가 지표 - R Square
- SSR : 회귀가 설명할 수 있는 값
- SSE : 에러가 설명하는 값
- SST : 실제로 예측해야 하는 값
- SSR/SST : 모델의 설명력
선형 회귀분석 정리
장점
- 직관적이며 이해하기 쉽다.
- X-Y 관계를 정량화 할 수 있다.
- 모델이 빠르게 학습된다.(가중치 계산이 빠름)
단점
- X-Y간의 선형성 가정 필요
- 평가지표가 평균(mean)을 포함해 이상치에 민감
- 범주형 변수 인코딩시 정보 손실 발생
3. 선형회귀 적용
데이터 사이언스 파이썬 라이브러리
- scikit-learn : Python 머신러닝 라이브러리
- numpy : Python 고성능 수치 계산을 위한 라이브러리
- pandas : 테이블 형 데이터를 다룰 수 있는 라이브러리
- matplotlib : 대표적인 시각화 라이브러리, 그래프가 단순하고 설정 작업 많음
- seaborn : matplot 기반의 고급 시각화 라이브러리, 상위 수준의 인터페이스를 제공
자주 쓰는 함수
- sklearn.linear_model.LinearRegression : 선형회귀 모델 클래스
- coef_: 회귀 계수
- intercept: 편향(bias)
- fit: 데이터 학습
- predict: 데이터 예측
'TIL > 머신러닝' 카테고리의 다른 글
머신러닝 - 다중 로지스틱회귀 실습 (0) | 2024.08.13 |
---|---|
머신러닝 - 로지스틱회귀 실습 (0) | 2024.08.13 |
머신러닝 - 로지스틱회귀 이론 (0) | 2024.08.12 |
머신러닝 - 다중 선형회귀 이론, 실습 (0) | 2024.08.12 |
머신러닝 - 선형회귀 실습 (0) | 2024.08.12 |