2024/08/12 3

머신러닝 - 로지스틱회귀 이론

로지스틱회귀란 ?- 독립변수 Y의 선형 결합을 이용해 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법 로지스틱회귀 이론만약 X를 연속형 변수로 두고 Y를 특정 상황이 일어날 확률(p)로 설정한다면, 선형회귀로는 표현이 불가능함.선형 함수는 발산하기 때문에 실제 확률이 0보다 작거나 1보다 크게 나올 수 있음. 이 한계를 보완하고자 로지스틱회귀를 사용아래 그래프를 보면 함수에 로그를 걸어 Y값이 0과 1로 수렴하도록 된 것을 볼 수 있다.즉, Y가 특정 범주에 속할 때 범주형 변수에 대한 분석으로 로지스틱 회귀가 적합하다는 것을 알 수 있음. 로지스틱회귀 수식1. Odds RatioOdds Ratio(오즈비)란 실패확률 대비 성공확을 뜻함.확률 p에 대해 다음과 같이 정의됨.예를 들어 어떤 상황이 일..

TIL/머신러닝 2024.08.12

머신러닝 - 다중 선형회귀 이론, 실습

다중선형회귀실제의 데이터들은 비선형적 관계를 가지는 경우가 많고, X 데이터가 압도적으로 많음.이를 위해서 X변수를 추가하거나 변형할 줄 알아야 함. 수치형 데이터연속형 데이터 : 두 개의 값이 무한한 개수로 나누어진 데이터 ex) 키, 몸무게이산형 데이터 : 두 개의 값이 유한한 개수로 나누어진 데이터 ex) 주사위 눈, 나이범주형 데이터순서형 자료 : 자료의 순서 의미가 있음 ex) 학점, 등급명목형 자료 : 자료의 순서 의미가 없음 ex) 혈액형, 성별> 범주형 데이터를 머신러닝 모델에 훈련시키려면 해당 데이터를 숫자로 바꿔야함.   이를 Encoding 과정이라 함. 다중 선형회귀 실습전 포스팅에서 실습했던 sklearn의 tips 데이터셋으로 다중선형회귀를 실습해보고자 한다. '성별' 컬럼을 X..

TIL/머신러닝 2024.08.12

머신러닝 - 선형회귀 실습

머신러닝 선형회귀분석 실습1. 사용할 라이브러리 설치2. 데이터 확인 (seaborn tips)3. 선형회귀 모델 훈련4. 모델 평가 1. 라이브러리 설치우선 사용할 라이브러리를 모두 importimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport numpy as npimport sklearn    # scikit-learn 말고 이렇게 적어야 함. 라이브러리가 없으면 pip install 라이브러리명  2. 데이터 확인실습에 활용할 데이터는 Seaborn 라이브러리의 tips 데이터 주제) 해당 데이터에 대해 total_bill (X) 당 얼마의 tip (Y)를 받을 수 있을 지 예측해보자. 모델을 훈련하기에 앞서, ..

TIL/머신러닝 2024.08.12