아티클

아티클 스터디| 사용자 데이터를 효과적으로 분석하는 법

jojoon2786 2024. 8. 13. 19:30

출처 : https://yozm.wishket.com/magazine/detail/1967/

 

사용자 데이터를 효과적으로 분석하는 법 | 요즘IT

사용성 평가나 설문 조사 그리고 인터뷰와 같은 사용자 조사는 고객 관점에서의 사업 기회 발굴과 디자인 개선에 대한 인사이트를 제공해 줍니다. 그렇지만 단순히 사용자 조사로 수집된 데이

yozm.wishket.com

 

사용자 조사 : 사용성 평가, 설문 조사, 인터뷰 등

 

사용자 조사는 고객관점에서 사업 기회 발굴과 디자인 개선에 대한 인사이트를 제공해준다.
사용자 데이터에 감추어진 의미있는 정보를 파악하기 위해서는 수집된 데이터 특성에 맞는 적합한 분석을 진행하고, 시각화하는 과정이 필요함.

 

사용자 조사를 통해 수집되는 데이터
1. 정량 데이터(Quantitative Data)
2. 정성 데이터(Qualitative Data)

 

정량 데이터는 얼마나 많은 행동이 일어나고 있는지
정성 데이터는 행동이 일어난 이유를 알려준다.

 

이 아티클에서는 사용자 데이터 중 정량적 데이터의 분석방법, 시각화에 대해 설명하고 있다.

 

1. 기술통계

사용자 조사를 통해 수집된 정량 데이터는 기술 통계의 과정을 거치게 된다.
범주형 데이터의 경우 예시로 선호하는 디자인 타입, 과제 성공 여부 등과 같은 데이터를 분석하여 빈도나 백분율과 같은 통계 값을 구할 수 있다.
수치형 데이터의 경우 평균이나 표준 편차와 같은 통계 값을 구할 수 있다.

 

가장 대표적인 통계 값으로는 중심경항(Central tendency)*지표가 있음.
중심경향 : 평균(mean), 중앙값(median) 그리고 최빈값(mode) 등

 

시각화

 

1) 범주형 데이터
범주형 데이터는 주로 백분율을 분석 --> 파이차트, 누적 바 차트로 시각화 해 경향성을 한눈에 파악하는게 효과적이다.

 

파이차트의 경우)
세그먼트가 많아지면 복잡해지기 때문에 개수를 최소화하거나 덜 중요한 세그먼트를 기타로 처리하는 것이 필요하다.

 

누적 바 차트의 경우)
연속된 일련의 데이터 집합을 가지고 있을 경우에 효과적

 

2) 수치형 데이터
수치형 데이터는 주로 평균을 사용 --> 사용자의 행동이 어디서 더 많이 발생하는지 확인할 수 있음.
>> 바 차트나 선 그래프로 경향성을 한눈에 파악하는게 효과적이다.

 

막대그래프의 경우)
분리된 카테고리(범주형)에 대한 연속적인 값(수치형)을 표현하고자 할 때, 효과적 카테고리 간의 크기 비교

 

선 그래프의 경우)
만약 카테고리가 연속적인 속성(순서가 있는 범주형)을 가질 경우 선그래프를 활용하는 것이 효과적이다.
각 카테고리 별 우열을 가리는 것 뿐만 아니라, 카테고리의 변화를 함께 확인 가능하다.

 

3) 방사형 그래프와 산점도
방사형 그래프 - 특정 대상에 대해 여러 평가 항목들로 비교해 전체적인 경향을 유추하고 싶을 때
산점도 - 서로 다른 두 척도를 비교, 두 변수 간의 관계를 확인

 

2. 추론통계

1) t - 검정과 분산분석*

 

분산분석 : t-검정과 마찬가지로 ANOVA(분산분석)는 데이터 그룹 간의 차이가 통계학적으로 유의한지 알아낼 수 있도록 도와줌. 분산분석은 그룹에서 뽑은 표본을 통해 그룹 내의 분산 수준을 분석하는 방식으로 이루어짐.

 

2) 상관분석*과 회귀분석


상관분석 : 2개 이상의 변수들의 선형적인 관계를 살펴보기 위한 분석방법
유의성 검증 결과인 p-value 값과 상관계수인 r을 도출
r은 변수들 간의 관계가 긍정 또는 부정, 얼마만큼 연관되는지를 나타냄.

 


 3. 주의점

1) 그래프 그릴 때의 주의점
정량 데이터의 시각화 시 실수나 의도에 따라 데이터가 지닌 정보를 왜곡하여 그래프를 그리는 경우가 발생, 이러한 왜곡이 발생하지 않도록 중요한 차이나 변화의 흐름에 대해 정확하게 보여주는 것이 필요하다.

 

2) 통계적 유의성과 디자인 의사결정
-선호도나 만족도와 같은 주관적 데이터를 추론통계로 분석했을 때 통계적 유의차가 나타나지 않는 빈도가 잦다. 이는 사용자의 취향차이가 크거나, 각 카테고리별 경쟁력 차이가 비등한 경우에 흔히 발생한다.

이러한 데이터만으로 의사결정이 쉽지 않은 상황에선 결국 해석하는 사람의 의사결정이 필요하게 됨.