전체 글 83

머신러닝 - 로지스틱회귀 이론

로지스틱회귀란 ?- 독립변수 Y의 선형 결합을 이용해 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법 로지스틱회귀 이론만약 X를 연속형 변수로 두고 Y를 특정 상황이 일어날 확률(p)로 설정한다면, 선형회귀로는 표현이 불가능함.선형 함수는 발산하기 때문에 실제 확률이 0보다 작거나 1보다 크게 나올 수 있음. 이 한계를 보완하고자 로지스틱회귀를 사용아래 그래프를 보면 함수에 로그를 걸어 Y값이 0과 1로 수렴하도록 된 것을 볼 수 있다.즉, Y가 특정 범주에 속할 때 범주형 변수에 대한 분석으로 로지스틱 회귀가 적합하다는 것을 알 수 있음. 로지스틱회귀 수식1. Odds RatioOdds Ratio(오즈비)란 실패확률 대비 성공확을 뜻함.확률 p에 대해 다음과 같이 정의됨.예를 들어 어떤 상황이 일..

TIL/머신러닝 2024.08.12

머신러닝 - 다중 선형회귀 이론, 실습

다중선형회귀실제의 데이터들은 비선형적 관계를 가지는 경우가 많고, X 데이터가 압도적으로 많음.이를 위해서 X변수를 추가하거나 변형할 줄 알아야 함. 수치형 데이터연속형 데이터 : 두 개의 값이 무한한 개수로 나누어진 데이터 ex) 키, 몸무게이산형 데이터 : 두 개의 값이 유한한 개수로 나누어진 데이터 ex) 주사위 눈, 나이범주형 데이터순서형 자료 : 자료의 순서 의미가 있음 ex) 학점, 등급명목형 자료 : 자료의 순서 의미가 없음 ex) 혈액형, 성별> 범주형 데이터를 머신러닝 모델에 훈련시키려면 해당 데이터를 숫자로 바꿔야함.   이를 Encoding 과정이라 함. 다중 선형회귀 실습전 포스팅에서 실습했던 sklearn의 tips 데이터셋으로 다중선형회귀를 실습해보고자 한다. '성별' 컬럼을 X..

TIL/머신러닝 2024.08.12

머신러닝 - 선형회귀 실습

머신러닝 선형회귀분석 실습1. 사용할 라이브러리 설치2. 데이터 확인 (seaborn tips)3. 선형회귀 모델 훈련4. 모델 평가 1. 라이브러리 설치우선 사용할 라이브러리를 모두 importimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport numpy as npimport sklearn    # scikit-learn 말고 이렇게 적어야 함. 라이브러리가 없으면 pip install 라이브러리명  2. 데이터 확인실습에 활용할 데이터는 Seaborn 라이브러리의 tips 데이터 주제) 해당 데이터에 대해 total_bill (X) 당 얼마의 tip (Y)를 받을 수 있을 지 예측해보자. 모델을 훈련하기에 앞서, ..

TIL/머신러닝 2024.08.12

프로그래머스| 자동차 대여 기록 별 대여 금액 구하기(MySQL)

문제 설명다음은 어느 자동차 대여 회사에서 대여 중인 자동차들의 정보를 담은 CAR_RENTAL_COMPANY_CAR 테이블과 자동차 대여 기록 정보를 담은 CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블과 자동차 종류 별 대여 기간 종류 별 할인 정책 정보를 담은 CAR_RENTAL_COMPANY_DISCOUNT_PLAN 테이블 입니다. CAR_RENTAL_COMPANY_CAR 테이블은 아래와 같은 구조로 되어있으며, CAR_ID, CAR_TYPE, DAILY_FEE, OPTIONS 는 각각 자동차 ID, 자동차 종류, 일일 대여 요금(원), 자동차 옵션 리스트를 나타냅니다.   나의 풀이)SELECT distinct b.HISTORY_ID,                ROUND(a..

TIL/SQL 2024.08.09

머신러닝 - 선형회귀 이론

AI : 인간의 지능을 요구하는 업무를 수행하기 위한 시스템Machine Learning : 관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘Deep Learning : 인공 신경망을 이용한 머신러닝 머신러닝의 종류 Supervised Learning(지도 학습)Unsupervised Learning(비지도 학습)Reinforcement Learning(강화 학습)머신러닝 적용 분야금융 : 신용평가, 사기탐지, 주식 예측헬스케어 : 질병 예측, 환자 데이터 분석이커머스 : 고객 구매 패턴 분석, 추천 시스템, 가격 최적화, 장바구니 분석자연어처리 : 번역, 챗봇, 텍스트분석이미지 & 영상처리 : 얼굴인식, 이미지 생성1. 선형회귀 이론통계학에서 사용하는 선형회귀 식Y = B0 + B1X + eY는 ..

TIL/머신러닝 2024.08.08

아티클 스터디| 엑셀로 이해하는 SQL : 엑셀로 온라인 서비스의 RDB 이해하기

출처 : 비개발자를 위한 엑셀로 이해하는 SQL: ① 엑셀로 온라인 서비스의 RDB 이해하기 | 요즘IT (wishket.com) 비개발자를 위한 엑셀로 이해하는 SQL: ① 엑셀로 온라인 서비스의 RDB 이해하기 | 요즘ITVOD 강의부터 부트캠프에 이르기까지, SQL(Structured Query Language, 데이터베이스 시스템에서 자료를 처리하는 용도로 사용되는 구조적 데이터 질의 언어)의 수요가 늘고 있다. 이제는 비단 백엔드 엔yozm.wishket.com 위 아티클은 excel과 sql 의 같은점과 차이점에 대해 기술해놓은 아티클이다. 엑셀이 제공하는 핵심 기능은 "데이터의 기록과 관리" 이다.정확하게는 행과 열로 이루어진 표에 데이터를 기록, 관리, 수정하기 위한 도구이자, 이를 쉽게 ..

아티클 2024.08.08

프로그래머스| 입양 시각 구하기(2) (MySQL) <RECURSIVE CTE>

문제 설명ANIMAL_OUTS 테이블은 동물 보호소에서 입양 보낸 동물의 정보를 담은 테이블입니다. ANIMAL_OUTS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, NAME, SEX_UPON_OUTCOME는 각각 동물의 아이디, 생물 종, 입양일, 이름, 성별 및 중성화 여부를 나타냅니다. 문제보호소에서는 몇 시에 입양이 가장 활발하게 일어나는지 알아보려 합니다. 0시부터 23시까지, 각 시간대별로 입양이 몇 건이나 발생했는지 조회하는 SQL문을 작성해주세요. 이때 결과는 시간대 순으로 정렬해야 합니다. 본 테이블에 19시까지 밖에 없었음. 0시 20시, 21시, 22시, 23시까지 추가해야 함.RECURSIVE CTE (재귀 쿼리문)를 사용해서 추가해줌...

TIL/SQL 2024.08.07

데이터 분석과 통계 6

가설검정의 주의1. 재현 가능성재현 가능성이란 ?동일한 연구나 실험을 반복했을 때, 일관된 결과가 나오는지 여부. 연구의 신뢰성을 높이는 중요한 요소임.최근 p값에 대한 논쟁이 두드러지고 있다.p값을 사용하지 않는 것이 좋다유의수준을 0.05에서 변경하는 것이 좋다가설검정 원리상의 문제나 가설검정의 잘못된 사용이 낮은 재현성으로 이어진다는 문제가 발생중요성결과가 재현되지 않는다면 해당 가설의 신뢰도가 떨어진다.원인완전 동일한 조건으로 똑같은 실험을 수행하는 것이 쉽지 않음.또한 가설검정 자체도 100% 검정력을 가진 것이 아니기 때문에 오차가 나타날 수 있다.가설검정 사용방법에 있어서 잘못됨p값이 0.05가 유도되게끔 조작하는 것이 가능(p해킹)실제로는 통계적으로 아무 의미가 없음에도 의미가 있다고 해버..

카테고리 없음 2024.08.07

데이터 분석과 통계 5

1. 피어슨 상관계수피어슨 상관계수란 ?두 연속형 변수(= 숫자형) 간의 선형 관계를 측정하는 지표-1 ~ 1의 값을 가짐. 1 : 양의 선형 관계, -1 : 음의 선형 관계, 0 : 선형 관계가 없음"데이터가 정규분포로 존재할 것이다" 라는 가정을 할 수 있는 경우에만 쓸 수 있다.언제 사용하는가 ?선형적인 관계가 예상 될 때비선형 관계에선 사용할 수 없다. import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns from scipy.stats import pearsonr # 예시 데이터 생성 np.random.seed(0) study_hours = np.random.rand(100) * 10exam..

카테고리 없음 2024.08.07

아티클 스터디| 그 데이터는 잘못 해석되었습니다

자료 : 그 데이터는 잘못 해석되었습니다 | 요즘IT (wishket.com) 그 데이터는 잘못 해석되었습니다 | 요즘IT무엇이든 데이터가 있으면 쉽게 결정을 내릴 수 있을 것 같습니다. 하지만 현업에서는 데이터가 있어도 결정을 내리기 어려운 상황들이 있습니다. 특히 데이터를 통한 의사결정을 내릴 때, 가장yozm.wishket.com 데이터를 통한 의사결정을 내릴 때, 가장 경계해야 할 점은 데이터가 있음에도 이를 잘못 해석해 잘못된 결론으로 가는 상황이다. 위 아티클은 데이터를 잘못 해석하는 상황별 유형과 제대로 해석할 수 있는 방법에 대해 알려준다. 데이터를 잘못 해석하는 상황별 유형1) 생존자 편향의 오류- 지표를 어떤 방향으로 해석하느냐에 따라 잘못된 해석이 발생할 수 있음. 2) 심슨의 역설-..

아티클 2024.08.06