과제 설명
👩🏻🔬 **Product Owner의 요청 업무: 실험 결과를 분석할 수 있는 대시보드 작업을 진행해주세요!
[실험 상황 시나리오] 이커머스 K사**는 웹사이트의 랜딩 페이지 UI 실험을 진행했습니다. 유저를 실험군과 대조군으로 나누어 랜딩 페이지 구 버전 A안과 새 버전 B안을 비교하여 약 1달 동안 실험이 진행 되었어요. 실험 결과 데이터는 ab_data.csv 파일에 쌓였습니다. A/B 테스트의 성공 지표를 컬럼 converted(페이지 전환 유무)를 활용하여 두가지 랜딩 페이지 실험 결과를 검증하고 싶습니다.
✅ 실험 진행 기간: 약 1달간(2017/1/2 - 1/24)
✅ 실험 대상: 총 ****약 ****29만명 ****랜딩 페이지 유입 유저 → 실험군(약 14만명), 대조군(약 14만명)
✅ 실험 목표: 유저의 랜딩 페이지 ****전환율 상승
✅ 성공 지표(실험이 성공했다고 판단할 수 있는 지표): conversion rate(%)
✅ 실험 검증 방법: t-test
(참고) t-test 개념
귀무가설 : 일반적인 사실 또는 우리가 실험에서 틀리길 바라는 가설
대립가설 : 우리가 실험에서 맞다고 입증하고자 하는 가설, 차이가 있음을 실험을 통해 입증하고자 하는 가설
p-value : 귀무가설이 맞다는 가정에서 실제 실험 결과와 같이 귀무가설을 지지하는 결과가 나올 확률을 의미합니다. 예를 들어, 두 그룹의 평균을 비교하는 실험에서 귀무가설이 “두 그룹의 평균은 같다”라면, p-value는 두 그룹의 평균이 같다는 결과가 나온 확률입니다. p-value가 임의의 수준(0.05)보다 작으면 귀무가설이 잘못되었을 가능성이 높기 때문에 기각하고, 대립가설을 채택합니다.
가설 검정(t-test): 두 그룹 간의 차이가 통계적으로 유의미한지를 검정하는 방법 중 하나입니다. 일반적으로 서로 독립적인 두 그룹간의 비교를 통해 두 그룹의 평균값이 다른지를 검정합니다. t-test 결과, 귀무가설이 기각되면 두 그룹 간의 차이는 통계적으로 유의미하다는 것을 의미합니다.
사용 데이터 : A/B 테스트 | 캐글 (kaggle.com)
컬럼 설명
태블로 시각화
1번 : 그룹별 유저 비율 파이 차트
- 마크: 파이 차트
- 색상: Group
- 각도: User Id 카운트(고유)
- 레이블: Group, 전체 카운트
- 마크 레이블 표시
2번 : 그룹별 평균 전환율 바 차트
- 열: Group
- 행: Converted 평균
- 색상: Group
- 레이블: Group, Converted 평균 & 합계
- 마크 레이블 표시, 머릿글 표시 해제
3번 : 일별 그룹별 평균 전환율 라인 차트
- 열: Timestamp (일)
- 행: Converted (평균)
- 색상: Group
- 마크 레이블 표시 , 머릿글 표시 해제
4번 : 그룹별 유저 카운트 요일별 캘린더 차트
- 열: Timestamp (년월), (요일)
- 행: Group, Timestamp (주)
- 색상: User Id (카운트 고유)
- 레이블: Timestamp (일), User Id (카운트 고유)
- 머릿글 표시 해제
5번 : 데이터 정합성 체크 & 전처리
control인데 new page, treatment인데 old page인 경우 유저 아이디 제거
- 계산된 필드
- 해당 필드 필터로 적용
6번 : 평균 전환율 도넛 차트
- 시트5에서 생성한 필터 적용
- 도넛차트 바깥 원
- 마크: 파이차트, 색상: Group, 각도: Converted (평균), 레이블: Group, Converted (합계)
- 계산 필드 생성: 'Dummy Axis' < 필드 이름, MIN(1) < 필드 내용
- 행: Dummy Axis 두 번 끌어다 넣고 두번째 인스턴스 우클릭 후 이중 축 설정
- Dual Axis 설정
- 도넛차트 내부 원
- 새로 생성된 AGG(Dummy Axis) (2)를 설정하면 됨.
- 마크: 원, 색상 배경색(흰색)으로 설정, 각도 제거, 크기 줄이기
- 축 머릿글 표시 해제
7번 : start date와 end date 매개변수 필터, 일별 유저 카운트
- 매개 변수 만들기
- start date: 데이터 유형: 날짜, 현재 값: 실험 시작일(2017-01-05), 허용 가능한 값: 범위, 최솟값, 고정으로 설정
- end date: start date 복제 후 범위 조정 (마지막 일 + 1 로 해야 마지막 일까지 표시됨)
- 필터 생성: Timestamp 계산 필드 생성 후 범위 입력
- 열: Timestamp (일)
- 행: User Id (카운트 고유)
- 마크레이블 표시
8번 : t-test, p-value 구하기
t값 계산
p값 계산
결과 대시보드