전체 글 83

데이터 분석과 통계 4

1. 단순선형회귀단순선형회귀란 ?하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법회귀식Y = β0 + β1X, 여기서 β0는 절편, β1는 기울기특징독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측한다.데이터가 직선적 경향을 따를 때 사용함.간단하고 해석이 용이하다.데이터가 선형적이지 않을 경우 적합하지 않다.단순선형회귀는 어떨 때 사용하는가 ?- 하나의 독립변수와 종속변수와의 관계를 분석 및 예측할 때광고비(X)와 매출(Y) 간의 관계를 분석할 때현재의 광고비를 바탕으로 예상되는 매출을 예측 가능import numpy as np import pandas as pd import matplotlib.pyplot as pltfrom sklearn.lin..

카테고리 없음 2024.08.06

데이터 분석과 통계 3

유의성 검정1. A/B 검정A/B 검정이란 ?두 버전 (A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법.마케팅, 웹사이트 디자인 등에서 많이 사용됨.사용자들을 두 그룹으로 나누고, 각 그룹에 다른 버전을 제공한 후, 반응을 비교목적) 두 그룹 간의 변화가 우연이 아니라 통계적으로 유의미 한지를 확인import numpy as np import scipy.stats as stats # 가정된 전환율 데이터 group_a = np.random.binomial(1, 0.30, 100) # 30% 전환율 group_b = np.random.binomial(1, 0.45, 100) # 45% 전환율# t-test를 이용한 비교t_stat, p_val = stats.ttest_ind(gro..

카테고리 없음 2024.08.06

데이터 분석과 통계2

1. 모집단과 표본모집단(Population) : 관심의 대상이 되는 전체 집단. ex) 한 국가의 모든 성인표본(Sample) : 모집단에서 추출한 일부. ex) 그 국가의 성인 중 일부를 조사 표본을 사용하는 이유 ?1) 현실적인 제약비용과 시간접근성2) 대표성표본의 대표성 : 잘 설계된 표본은 모집단의 특성을 반영할 수 있음. 이를 모집단 전체에 일반화3) 데이터 관리데이터 처리의 용이성 : 작은 표본은 데이터 처리와 분석이 훨씬 용이함.데이터 품질 관리 : 작은 표본에서는 데이터 품질을 더 쉽게 관리하고, 오류나 이상값을 식별하여 수정 가능4) 모델 검증 용이모델 적합도 테스트 : 표본 데이터를 사용하여 통계적 모델을 검증할 수 있음. 모델이 표본 데이터에 잘 맞는다면, 모집단에도 잘 맞을 가능성..

카테고리 없음 2024.08.05

프로그래머스| 명예의 전당(1) (Python3)

문제 설명 "명예의 전당"이라는 TV 프로그램에서는 매일 1명의 가수가 노래를 부르고, 시청자들의 문자 투표수로 가수에게 점수를 부여합니다. 매일 출연한 가수의 점수가 지금까지 출연 가수들의 점수 중 상위 k번째 이내이면 해당 가수의 점수를 명예의 전당이라는 목록에 올려 기념합니다. 즉 프로그램 시작 이후 초기에 k일까지는 모든 출연 가수의 점수가 명예의 전당에 오르게 됩니다. k일 다음부터는 출연 가수의 점수가 기존의 명예의 전당 목록의 k번째 순위의 가수 점수보다 더 높으면, 출연 가수의 점수가 명예의 전당에 오르게 되고 기존의 k번째 순위의 점수는 명예의 전당에서 내려오게 됩니다. 이 프로그램에서는 매일 "명예의 전당"의 최하위 점수를 발표합니다. 예를 들어, k = 3이고, 7일 동안 진행된 가수..

TIL/Python 2024.08.05

프로그래머스| 오프라인/온라인 판매 데이터 통합하기(My SQL)

문제 설명 다음은 어느 의류 쇼핑몰의 온라인 상품 판매 정보를 담은 ONLINE_SALE 테이블과 오프라인 상품 판매 정보를 담은 OFFLINE_SALE 테이블 입니다. ONLINE_SALE 테이블은 아래와 같은 구조로 되어있으며, ONLINE_SALE_ID, USER_ID, PRODUCT_ID, SALES_AMOUNT, SALES_DATE는 각각 온라인 상품 판매 ID, 회원 ID, 상품 ID, 판매량, 판매일을 나타냅니다.동일한 날짜, 회원 ID, 상품 ID 조합에 대해서는 하나의 판매 데이터만 존재합니다. OFFLINE_SALE 테이블은 아래와 같은 구조로 되어있으며, OFFLINE_SALE_ID, PRODUCT_ID, SALES_AMOUNT, SALES_DATE는 각각 오프라인 상품 판매 ID, ..

TIL/SQL 2024.08.05

TIL (8/2) 데이터 분석과 통계1

1. 기술통계와 추론통계1) 기술통계데이터를 요약하고 설명하는 통계 방법평균, 중앙값(median)*, 분산, 표준편차 등중앙값 : 데이터셋을 크기 순서대로 정렬했을 때, 중앙에 위치한 값분산 : 데이터 값들이 평균으로부터 얼마나 떨어져 있는가, 데이터의 흩어짐 정도       ◎ 분산이 크다 --> 데이터가 넓게 퍼져있다.       ◎ 분산이 작다 --> 데이터가 평균에 가깝게 모여있다.       ◎ 데이터 값에서 평균을 뺀 값을 제곱한 후, 이를 모두 더하고 데이터의 개수로 나눠서 구함.표준편차 : 분산과 의미는 같음. 분산의 제곱근데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음. 단, 데이터 중 예외(이상치)라는게 항상 존재할 수 있고, 데이터의 모든 부분을 확인할 수 있는 것은 아님...

카테고리 없음 2024.08.02

프로그래머스| 콜라 문제(Python3)

문제빈 병 a개를 가져다주면 콜라 b병을 주는 마트가 있을 때, 빈 병 n개를 가져다주면 몇 병을 받을 수 있는지 계산하는 문제입니다. 기존 콜라 문제와 마찬가지로, 보유 중인 빈 병이 a개 미만이면, 추가적으로 빈 병을 받을 순 없습니다. 상빈이는 열심히 고심했지만, 일반화된 콜라 문제의 답을 찾을 수 없었습니다. 상빈이를 도와, 일반화된 콜라 문제를 해결하는 프로그램을 만들어 주세요. 콜라를 받기 위해 마트에 주어야 하는 병 수 a, 빈 병 a개를 가져다 주면 마트가 주는 콜라 병 수 b, 상빈이가 가지고 있는 빈 병의 개수 n이 매개변수로 주어집니다. 상빈이가 받을 수 있는 콜라의 병 수를 return 하도록 solution 함수를 작성해주세요. 제한 사항1 ≤ b 정답은 항상 int 범위를 넘지 ..

TIL/Python 2024.08.02

프로그래머스| 그룹별 조건에 맞는 식당 목록 출력하기(My SQL)

문제 설명 다음은 고객의 정보를 담은 MEMBER_PROFILE테이블과 식당의 리뷰 정보를 담은 REST_REVIEW 테이블입니다. MEMBER_PROFILE 테이블은 MEMBER_ID, MEMBER_NAME, TLNO, GENDER, DATE_OF_BIRTH는 회원 ID, 회원 이름, 회원 연락처, 성별, 생년월일을 의미합니다. REST_REVIEW 테이블은 다음과 같으며, REVIEW_ID, REST_ID, MEMBER_ID, REVIEW_SCORE, REVIEW_TEXT,REVIEW_DATE는 각각 리뷰 ID, 식당 ID, 회원 ID, 점수, 리뷰 텍스트, 리뷰 작성일을 의미합니다. 문제MEMBER_PROFILE와 REST_REVIEW 테이블에서 리뷰를 가장 많이 작성한 회원의 리뷰들을 조회하는 S..

TIL/SQL 2024.08.02

프로그래머스| 대여 횟수가 많은 자동차들의 월별 대여 횟수 구하기(My SQL)

문제 설명 다음은 어느 자동차 대여 회사의 자동차 대여 기록 정보를 담은 CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블입니다. CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블은 아래와 같은 구조로 되어있으며, HISTORY_ID, CAR_ID, START_DATE, END_DATE 는 각각 자동차 대여 기록 ID, 자동차 ID, 대여 시작일, 대여 종료일을 나타냅니다. 문제CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블에서 대여 시작일을 기준으로 2022년 8월부터 2022년 10월까지 총 대여 횟수가 5회 이상인 자동차들에 대해서 해당 기간 동안의 월별 자동차 ID 별 총 대여 횟수(컬럼명: RECORDS) 리스트를 출력하는 SQL문을 작성해..

TIL/SQL 2024.08.02

TIL (8/1) 윈도우 함수(My SQL)

1. 윈도우 함수란?윈도우 함수는 SQL에서 집계 함수와 비슷하게 데이터를 집계하지만, 전체 데이터 집합이 아닌 특정 "윈도우" 또는 "슬라이스"에 대한 집계를 수행합니다. 각 행에 대해 계산을 수행하며, 그룹화된 데이터가 아닌 개별 행에서 결과를 계산합니다. 2. 윈도우 함수의 주요 구성 요소PARTITION BY : 데이터를 분할할 기준을 설정합니다. 이 구문으로 데이터 집합을 여러 파티션으로 나누어 각 파티션 내에서 윈도우 함수를 적용합니다.ORDER BY : 윈도우 함수가 계산될 순서를 정의합니다. 정렬된 순서에 따라 함수 결과가 달라질 수 있습니다.ROWS/ RANGE : 윈도우의 범위를 정의합니다. 특정 범위의 행을 지정할 수 있습니다.3. 윈도우 함수를 사용하는 이유는 ?1) 행별 계산 수행..

TIL/SQL 2024.08.01