로지스틱회귀란 ?
- 독립변수 Y의 선형 결합을 이용해 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법
로지스틱회귀 이론
만약 X를 연속형 변수로 두고 Y를 특정 상황이 일어날 확률(p)로 설정한다면, 선형회귀로는 표현이 불가능함.
선형 함수는 발산하기 때문에 실제 확률이 0보다 작거나 1보다 크게 나올 수 있음.
이 한계를 보완하고자 로지스틱회귀를 사용
아래 그래프를 보면 함수에 로그를 걸어 Y값이 0과 1로 수렴하도록 된 것을 볼 수 있다.
즉, Y가 특정 범주에 속할 때 범주형 변수에 대한 분석으로 로지스틱 회귀가 적합하다는 것을 알 수 있음.
로지스틱회귀 수식
1. Odds Ratio
Odds Ratio(오즈비)란 실패확률 대비 성공확을 뜻함.
확률 p에 대해 다음과 같이 정의됨.
예를 들어 어떤 상황이 일어날 확률이 80%라고 한다면 오즈비는 (80)/(20) = 4가 됨.
즉, 1번 일어나지 않으면 4번은 일어난다고 해석 가능
2. Logit
하지만, 확률이 클수록 오즈비는 급격하게 발산하게 되어 선형회귀함수(y = wx + b)의 y값으로 사용하기 어려워짐.
이를 해결하고자 오즈비에 로그를 씌워 확률이 완만하게 증가하게 해줌. 이를 Logit이라고 함.
로짓을 p에 대해 정리하면 로짓의 범위는 [−∞,∞] 확률의 범위는 [0,1] 이 됨.
로짓을 Y로 두고 선형회귀함수 식과 합치면 아래처럼 됨.
여기에 지수 e를 취하면 아래의 식이 됨.
X값이 w1만큼 증가할 때 오즈비는 e^w1 만큼 증가한다고 해석가능
p에 대해 정리한 식에서 로짓에 선형회귀식을 대입하면 아래와 같은 식이 도출됨.
즉, w1(가중치) 값을 알면 X값이 주어졌을 때 해당 사건이 일어날 확률 p를 알 수 있다.
이때, 확률 0.5를 기준으로 0.5 이상이면 사건이 일어남 p(y) = 1, 0.5 이하면 사건이 일어나지 않음 p(y) = 0 으로 판단하면 분류예측에 사용함.
분류분석 평가 지표
분류분석의 평가지표로는 정확도와 F1-Score을 사용함.
실제와 예측값에 대한 모든 경우의 수를 표현한 행렬은 혼동행렬 (Confusion matrix)라고 함.
- 실제와 예측이 같으면 True/ 다르면 False
- 예측을 양성으로 했으면 Positive/ 음성으로 했으면 Negative
Actual Values : 실제
Predicted Values : 예측
여기서 TP와 TN만이 올바르게 분류된 경우임. --> (실제와 예측이 같아야 하므로)
1. 정밀도 Precision
모델이 양성으로 예측한 결과 (예측Y) 중 실제 양성의 비율 (모델의 관점 = TP 기준 가로)
2. 재현율 Recall
실제 값이 양성인 데이터 (실제Y) 중 모델이 양성으로 예측한 비율 (데이터의 관점 = TP 기준 세로)
3. F1-Score
정밀도와 재현율의 조화 평균
4. 정확도 Accuracy
정확도 = (맞춘 데이터) / (전체 데이터)
분류에서 특히 Y값이 unbalance 하지 못할 때 정확도가 제 기능을 못할 수도 있음.
따라서 이를 위해 Y 범주의 비율을 맞춰주거나 평가 지표를 F1 - Score 을 사용함으로써 이를 보완함.
선형회귀 vs 로지스틱회귀 비교
'TIL > 머신러닝' 카테고리의 다른 글
머신러닝 - 다중 로지스틱회귀 실습 (0) | 2024.08.13 |
---|---|
머신러닝 - 로지스틱회귀 실습 (0) | 2024.08.13 |
머신러닝 - 다중 선형회귀 이론, 실습 (0) | 2024.08.12 |
머신러닝 - 선형회귀 실습 (0) | 2024.08.12 |
머신러닝 - 선형회귀 이론 (0) | 2024.08.08 |