TIL/머신러닝

머신러닝 - 로지스틱회귀 이론

jojoon2786 2024. 8. 12. 20:56

로지스틱회귀란 ?

- 독립변수 Y의 선형 결합을 이용해 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법

 

로지스틱회귀 이론

만약 X를 연속형 변수로 두고 Y를 특정 상황이 일어날 확률(p)로 설정한다면, 선형회귀로는 표현이 불가능함.

선형 함수는 발산하기 때문에 실제 확률이 0보다 작거나 1보다 크게 나올 수 있음.

 

이 한계를 보완하고자 로지스틱회귀를 사용

아래 그래프를 보면 함수에 로그를 걸어 Y값이 0과 1로 수렴하도록 된 것을 볼 수 있다.

즉, Y가 특정 범주에 속할 때 범주형 변수에 대한 분석으로 로지스틱 회귀가 적합하다는 것을 알 수 있음.

 

로지스틱회귀 수식

1. Odds Ratio

Odds Ratio(오즈비)란 실패확률 대비 성공확을 뜻함.

확률 p에 대해 다음과 같이 정의됨.

예를 들어 어떤 상황이 일어날 확률이 80%라고 한다면 오즈비는 (80)/(20) = 4가 됨.

즉, 1번 일어나지 않으면 4번은 일어난다고 해석 가능

 

2. Logit

하지만, 확률이 클수록 오즈비는 급격하게 발산하게 되어 선형회귀함수(y = wx + b)의 y값으로 사용하기 어려워짐.

이를 해결하고자 오즈비에 로그를 씌워 확률이 완만하게 증가하게 해줌. 이를 Logit이라고 함.

 

로짓을 p에 대해 정리하면 로짓의 범위는 [−∞,∞] 확률의 범위는 [0,1] 이 됨.

x축 y축 변경

로짓을 Y로 두고 선형회귀함수 식과 합치면 아래처럼 됨.

여기에 지수 e를 취하면 아래의 식이 됨.

X값이 w1만큼 증가할 때 오즈비는 e^w1 만큼 증가한다고 해석가능

p에 대해 정리한 식에서 로짓에 선형회귀식을 대입하면 아래와 같은 식이 도출됨.

즉, w1(가중치) 값을 알면 X값이 주어졌을 때 해당 사건이 일어날 확률 p를 알 수 있다.

이때, 확률 0.5를 기준으로 0.5 이상이면 사건이 일어남 p(y) = 1, 0.5 이하면 사건이 일어나지 않음 p(y) = 0 으로 판단하면 분류예측에 사용함.

 

분류분석 평가 지표

분류분석의 평가지표로는 정확도와 F1-Score을 사용함.

 

실제와 예측값에 대한 모든 경우의 수를 표현한 행렬은 혼동행렬 (Confusion matrix)라고 함.

  • 실제와 예측이 같으면 True/ 다르면 False
  • 예측을 양성으로 했으면 Positive/ 음성으로 했으면 Negative

Actual Values : 실제

Predicted Values : 예측

여기서 TP와 TN만이 올바르게 분류된 경우임. --> (실제와 예측이 같아야 하므로)

 

1. 정밀도 Precision

모델이 양성으로 예측한 결과 (예측Y) 중 실제 양성의 비율 (모델의 관점 = TP 기준 가로)

2. 재현율 Recall

실제 값이 양성인 데이터 (실제Y) 중 모델이 양성으로 예측한 비율 (데이터의 관점 = TP 기준 세로)

3. F1-Score

정밀도와 재현율의 조화 평균

4. 정확도 Accuracy

정확도 = (맞춘 데이터) / (전체 데이터)

 

분류에서 특히 Y값이 unbalance 하지 못할 때 정확도가 제 기능을 못할 수도 있음.

따라서 이를 위해 Y 범주의 비율을 맞춰주거나 평가 지표를 F1 - Score 을 사용함으로써 이를 보완함.

 

선형회귀 vs 로지스틱회귀 비교