2024/09 9

adsp 1

1. 데이터의 특성존재적 특성 + 당위적 특성존재적 특성 : 있는 그대로의 객관적 사실 당위적 특성 - 추론, 예측, 전망, 추정을 위한 근거데이터는 축적되어 사용되며, 객관적 사실로서의 개별 데이터는 중요하지 않음2. 데이터의 유형정성데이터 : 언어, 문자 등으로 표현정량데이터 : 수치, 기호, 도형으로 표시정형(structured) 데이터 - 고정된 틀이 있으며 연산이 가능 (ex CSV, 엑셀 등) 비정형(unstructured) 데이터 - 고정된 틀이 없으며 연산이 불가능 (ex 영상, 음성 등) 반정형(semi - structured) 데이터 - 고정된 틀을 가지고 있지만 연산이 불가능 (ex HTML, JSON 등) 암묵지와 형식지지식을 구분하는 방법중에는 대표적으로 '암묵지', '형식지'가 ..

카테고리 없음 2024.09.30

시계열 데이터 분석 2

3. 확률 보행 프로세스   3.1 확률 보행(Random Walk)란? 평균과 분산이 시간이 지나도 일정하지 않은 비정상 시계열   시간이 지남에 따라 무작위로 이동하는 경로를 설명하는 수학적 모델 확률이 개입하는 다양한 현상을 설명하는 데 필수적인 모델, 자연과학, 경제학, 컴퓨터 공학 등에 응용yt : 현재 값yt-1 : 이전 시간 단계의 값C : 상수, 기본적으로 시계열이 가지는 평균 값εt​  : 백색 소음, 표준정규분포를 따르는 난수로 시계열에 포함된 무작위적 요소(노이즈)이 공식에서 현재 값이 과거 값, 상수, 백색소음의 입력 값으로 결정된 함수라는 점을 기억-> 현재 값이 과거 정보와 랜덤한 변동의 영향을 받는다는 의미!    3.1 정상성이란 ?시계열의 통계적 성질이 시간에 따라 변하지 ..

TIL/머신러닝 2024.09.26

시계열 데이터 분석 1

시계열 분석이란 ?과거의 흐름으로 미래를 예측하는 방법론 중 하나시계열 데이터 = '시간에 따라 정렬된 데이터'단, 데이터는 주기적으로 기록되며, 이를 동일한 시간단계(time step)으로 분포한다고 정의ex) 주식, 가정의 전기 소비량 등 다른 머신러닝과 달리 시계열 데이터는 시간, 측정 값 단 2개의 데이터로만 이루어져 있음. 모든 시계열 데이터는 세 가지 구성요소를 가짐.  1. 트렌드시간이 지남에 따라 지속적이고 일관된 방향으로 변화하는 장기적 패턴증가, 감소, 혹은 일정한 상태2. 계절성일정한 시간 주기에 따라 반복되는 패턴주로 연간 주기를 따르며, 특정 계절에 따라 데이터가 반복적인 변동을 보이는 경우계절성은 일반적으로 시간에 관련된 고정된 주기를 가지고 있으며, 특정 시점에서 데이터가 규칙..

TIL/머신러닝 2024.09.24

Tableau | Landing page A/B test 대시보드 제작

과제 설명👩🏻‍🔬 **Product Owner의 요청 업무: 실험 결과를 분석할 수 있는 대시보드 작업을 진행해주세요![실험 상황 시나리오] 이커머스 K사**는 웹사이트의 랜딩 페이지 UI 실험을 진행했습니다. 유저를 실험군과 대조군으로 나누어 랜딩 페이지 구 버전 A안과 새 버전 B안을 비교하여 약 1달 동안 실험이 진행 되었어요. 실험 결과 데이터는 ab_data.csv 파일에 쌓였습니다. A/B 테스트의 성공 지표를 컬럼 converted(페이지 전환 유무)를 활용하여 두가지 랜딩 페이지 실험 결과를 검증하고 싶습니다.✅ 실험 진행 기간: 약 1달간(2017/1/2 - 1/24) ✅ 실험 대상: 총 ****약 ****29만명 ****랜딩 페이지 유입 유저 → 실험군(약 14만명), 대조군(약 ..

TIL/태블로 2024.09.06

리트코드| average selling prices

테이블 문제각 제품의 평균 판매 가격을 구하는 솔루션을 작성합니다. 소수점 이하 2자리로 반올림해야 합니다.average_price순서에 관계없이 결과 테이블을 반환합니다. Input 나의 풀이)select a.product_id, round(sum(a.price*b.units)/sum(b.units),2) as average_pricefrom Prices a left join UnitsSold b on a.product_id=b.product_idand b.purchase_date between a.start_date and a.end_dategroup by 1 처음에 product_id가 같길래 inner join만 해주었는데, 합쳐진 테이블의 행이 엄청 많아졌었다.on 이후에 and로 purchas..

TIL/SQL 2024.09.05

리트코드| Confirmation Rate (My SQL)

나의 풀이)with A as (select a.user_id,            b.action,            case when b.action = 'confirmed' then 1                    else 0 end as num from Signups a left join Confirmations b on a.user_id = b.user_id) select user_id, sum(num)/count(*) as 'confirmation_rate' from A group by user_idSignups에만 존재하는 user_id가 있었기 때문에 left join을 해주었다.case when문을 사용하여 confirmed 인 경우에 1 아닌 경우 0을 주어본 쿼리에서 sum()을..

TIL/SQL 2024.09.04

프로그래머스| 카드 뭉치

문제 설명 코니는 영어 단어가 적힌 카드 뭉치 두 개를 선물로 받았습니다. 코니는 다음과 같은 규칙으로 카드에 적힌 단어들을 사용해 원하는 순서의 단어 배열을 만들 수 있는지 알고 싶습니다.원하는 카드 뭉치에서 카드를 순서대로 한 장씩 사용합니다. 한 번 사용한 카드는 다시 사용할 수 없습니다. 카드를 사용하지 않고 다음 카드로 넘어갈 수 없습니다.기존에 주어진 카드 뭉치의 단어 순서는 바꿀 수 없습니다.예를 들어 첫 번째 카드 뭉치에 순서대로 ["i", "drink", "water"], 두 번째 카드 뭉치에 순서대로 ["want", "to"]가 적혀있을 때 ["i", "want", "to", "drink", "water"] 순서의 단어 배열을 만들려고 한다면 첫 번째 카드 뭉치에서 "i"를 사용한 후 ..

TIL/Python 2024.09.03

리트코드| Students and Examinations (My SQL)

나의 풀이)SELECT a.student_id, a.student_name, b.subject_name, COUNT(c.subject_name) AS attended_examsFROM Students aCROSS JOIN Subjects bLEFT JOIN Examinations c ON a.student_id = c.student_id AND b.subject_name = c.subject_nameGROUP BY a.student_id, a.student_name, b.subject_nameORDER BY a.student_id, b.subject_name;Students 테이블과 Subjects 테이블에는 접점 컬럼이 없기 때문에 Cross join을 통해 x 의 형태로 출력예시)   엘리스 x 수학..

TIL/SQL 2024.09.03

태블로 기초

1. 태블로의 구성태블로는 워크시트, 대시보드, 스토리로 구성된다.기본적인 작업공간이라고 생각 워크시트 여러개를 합쳐놓은 것실무에서는 보통 각 워크시트별로 작업해서 통합 대시보드로 합쳐서 결과물을 활용. 여러개의 워크시트와 대시보드를 합쳐서 하나의 인포그래픽 형태의 스토리로 만듬. 그림판 같은 거라고 생각하면됨. 그래프 그린 거 색상이나 표현 방식(선, 바 등) 통계적인 기능을 사용할 수 있도록 해주는 패널 2. 태블로의 기능과 용어측정값은 집계함수(SUM, AVG, COUNT 등)를 활용해서 계산하고 비교. 차원과 측정값은 연속과 불연속으로 구분됨.연속 : 초록, 불연속 : 파랑 원래 있던 컬럼을 이용하여 새로운 컬럼을 생성할 수 있음.> 계산된 필드 만들기... 매개변수- 계산, 필터 또는 참조선에서..

TIL/태블로 2024.09.02