면접 Case Study | '통계적으로 무의미'가 어떤 점을 시사하는가?

비연 씨!!!! 비연 씨!!!!

우리가 이번에 바뀐 UI를 가지고 A/B Test를 실시했어요! 결과는 다음과 같습니다!

 

결과:

  • A그룹(기존 UI) → 1,000명 중 50명 구매 (구매율: 5%)
  • B그룹(새 UI) → 1,000명 중 65명 구매 (구매율: 6.5%)

새 UI가 매출을 증가시킨 거 맞죠! 그죠!?

라는 내용의 면접 질문이 들어왔다고 가정해 볼게요

어떻게 대응하면 좋을지 머리가 아파옵니다. 

 

    1. 1000명은 누구인가?
    2. 15명의 차이가 무엇을 시사하는가?

 

첫 번째 질문은 표본집단이 된 1000명이 누구인가?부터 시작합니다. A/B Test 설계 자체의 의문점을 가진 겁니다. A를 테스트한 집단과 B를 테스트한 집단은 우리 게임의 게이머들의 전체 의견을 대변할 수 있는가? 편향은 없는가? 어떻게 선정했고 실험에 임했는가? 즉, 누구를 대변하고자 추출하였는가, 더 나아가 A/B Test의 실험 설계 자체가 제대로 되었는가? 를 물어보는 의문입니다. A/B Test의 실험설계가 제대로 되어있는 경우, 다음 질문으로 넘어가겠습니다. 

A/B Test는 결과 해석보다 설계까 중요하다고 생각한다https://www.statsig.com/blog/ab-testing-101

 

두 번째 질문은 1000명 중 15명의 차이는 무엇을 시사하는가입니다. 통계를 조금 아시는 분들이라면 아마 두 범주형 데이터의 통계 검증을 적용하기 위해서 차이제곱검정, Crosstab을 산출하여 p-value를 계산하실 겁니다. 실제로 계산해 보면 p-value의 값은 0.179로 0.05를 아득하게 넘겨버립니다. 즉, 통계적으로 유의미하지 않음을 시사합니다.


하지만 저는 숫자 너머의 실제고객의 행동을 파악하려고 노력하는 사람으로서 통계가 유의미하지 않더라도 추가분석을 이어나갈 것입니다. 차이가 발생되는 저 15명이 게임의 매출 50%를 담당하는 고래 고객일 가능성도 무시할 수 없겠죠. 그렇기에, 15명을 어떤 코호트로 묶을 수 있을까를 한번 고민해 볼 것 같습니다. 

고래유저라면 15명이라도 귀하다. chatgpt


그렇다면 또 다음과 같은 분석을 진행할 수도 있을 것 같습니다. "1000명 중 15명이 코호트가 A이다. 코호트가 A인 사람들은 1000명 중 50명이었고, A 코호트인 사람들에게는 충분히 먹히는 UI인 것 같다. 그러니 A 코호트인 사람들만 추출하여 다시 한번 실험을 해보자! (A 고객들이 주 타겟층일 경우)"라는 결론을 만들어낼 수도 있겠죠.


결론


'통계적으로 유의미하지 않음'이라는 문구를 어떻게 해석할지 늘 고민이 많았습니다. 통계 결론을 맹신할 것인가? 그냥 하나의 판단 참고 지표로써 활용할 것인가? p-value가 0.49999면? 0.050001면? 어떻게 해석해야 하는 걸까? 이 모든 질문에 명쾌하게 답을 할 순 없겠지만, 이 경우에서 길 잡기가 되어주는 것은 언제나 도메인 지식입니다. 위의 상황에서eh, 15명이지만 강력한 임팩트를 가지고 있는 고객, 게임의 경우 코어유저 혹은, 고래유저들을 바로 머릿속에 떠올리지 못했다면 '그저 그런 15명'으로 사고를 축소시키게 되고, 중요한 인사이트를 놓칠 수도 있습니다. 그렇기에, 본인들이 관심 있어 하는 데이터 도메인이라면 매일 기사나 서비스 경험을 멈추지 않으심을 추천합니다.


 

 

댓글로 해당 상황에서 본인이라면 어떻게 분석을 진행해 보실지 자유롭게 공유해 주시면 많은 도움이 될 것 같습니다! 😃