면접 Case Study | 생존자 편향

비연아.

1,000명의 유저가 강화를 시도했는데, 성공한 유저들은 평균적으로 10번 이하의 시도에서 성공하더라고, "장비 강화는 10번 이내에 성공하는 경우가 대부분이다." 이렇게 대충 결론지어서 보고서 올리면 되겠지?

 

라는 내용으로 동기가 질문해 왔다고 가정해 보겠습니다

 

상황이 일단 잘 이해가 안 가는데, 차근차근 정리해 보겠습니다.

1,000명 중 강화를 성공한 유저들을 확인해 보니 평균적으로 10번 이하의 시도를 하더라...

강화 단계는 동일하다고 가정하겠습니다.

문제 속에 두 가지 정도 파헤쳐볼 것이 보입니다.

 

    1. 강화 성공 유저들이 표본집단으로 선택된 이유가 특별히 있는가?

    2. '평균적'으로 10번 이하라는 것은 뭘 의미하나?

 

첫 번째는 질문은 다음 사진을 보고 다시 한번 보시길 바랍니다.

Survivorship Bias

아마 다들 아실 것입니다. '생존자 편향'입니다. 요약하자면, '전쟁당시 추락하지 않고 돌아온 전투기들을 보아하니 저곳에 피격지점이 많았다. 그렇기에 저곳에 보강을 하자.'와 같은 잘못된 인사이트를 얻어낼 수 있다는 내용입니다. 위의 전투기를 보면 당연히 콕핏 쪽에 피격당하면 파일럿이 사망할 확률이 높고 추락하여 표본집단안에 들지 못했을 것입니다. 무엇을 목표로 삼냐에 따라서 인사이트가 바뀌겠지만, '최대한 많은 파일럿을 생환시키는 것'을 목표로 했다면 저 결론은 최악의 결론이 되었을 것입니다. 

 

동일하게, "강화 성공 유저들만 보고 결론을 내리려는 이유는 무엇인가?"에 대한 적절한 해답이 없을 경우에 특성이 명확하게 보이는 표본집단을 모집단 판단의 근거로써 활용하게 되면 위와 같은 오판을 저지를 수 있습니다. 즉, 첫 번째 질문은 "너 혹시 생존자 편향에 휘둘리는 것은 아니니?"라고 물어보고 있는 것입니다.

 

두 번째 질문은 평균적으로의 의미입니다. '평균적으로'가 정말로 Average를 말하는 거라고 가정하고 한번 이야기를 진행해 보겠습니다. 평균은 대표값 중 가장 친근한 단어입니다. 그렇기 때문에 평균값, 중앙값, 최빈값 중에서 가장 일상생활에서 많이 사용되곤 합니다. 하지만 과연 평균이라는 것이 정말 이 상황에서 사용하기에 적합한 지표인가?라는 질문에 대해서 한번 생각해 볼 필요가 있어 보입니다.

 


해결 방안

 

타당한 이유가 있으면 상관이 없겠죠. 이 경우는 나중에 다시 한번 생각해 보고 이번에는 별 이유 없이 그냥 이렇게 했다고 가정해 보겠습니다. 즉, 강화 성공 유저들이 표본으로 선택된 이유가 없다.

 

해당 표본집단이 모집단을 대표한다고 생각한다면 어떠한 인사이트를 뽑을 수 있을까요?  "강화는 대부분 10번 이내에 성공한다"라는 결론은 강화를 성공한 사람들에게만 한정되는 이야기입니다. 즉, 20번, 30번, 50번, 100번 시도해서 실패한 유저들이 만약에 있다면, 해당 플레이어분들은 아예 제외됩니다. 이렇게 나온 보고서를 통해서 의사결정을 하게 된다면 당연하게도 강화에 실패한 유저들을 전혀 생각하지 않은 패치가 진행될 것이며 이로 인하여 이탈하는 인원도 증가, 브랜드 이미지 실추등 여러 가지 안 좋은 소리의 단초를 제공하게 될 것입니다.

예를 들면, 100번 시도해서 실패한 유저가 있다고 가정해 봅시다. 그런데 다음 패치 내역에 '10번 이내에 주로 강화되는 확률은 본의 한 바가 아니니 강화확률을 낮추도록 하겠습니다.' (물론 말도 안 됩니다.)와 같은 패치가 추가로 이어진다면.. 당연히 안 좋은 소리가 나올 수밖에 없을 것입니다.

 

단순히 말하면, 표본집단을 선택할 때는 보고자 하는 모집단의 특성을 제대로 대표하는지 확인하는 것이 중요합니다.

 

 

두 번째, '평균적'으로 10번 이하라는 것은 뭘 의미하나?

통계를 공부해 보신 분들은 평균의 단점을 아실 겁니다. 그래서 늘 데이터를 볼 때는 최소 두 가지 지표를 보라고 하죠. 바로 평균과 분산입니다. 분포가 균등한 경우 평균은 훌륭한 대표값입니다. 그러나 세상의 대부분의 데이터들은 정규분포하지 않죠. 이 경우도 마찬가지일 것입니다. 예를 들면, 1, 2, 3, 4, 5, 6, 15, 20, 36의 평균은 10.22입니다. 횟수로 생각하면 10회이죠. 이런 분포를 가진 데이터의 대표값이 과연 10이 맞을까요? 이상치가 많은 데이터에서 조금 더 stubborn 한 지표인 중앙값을 사용하는 것이 좀 더 나아 보입니다.

 

단순히 평균을 대표값으로 활용하기 전에 데이터의 분포를 확인해보고 어떤 값을 대표값으로 선정해야 하는지 한번 고민해 보는 과정이 있으면 해당 집단을 더 잘 표현할 수 있는 대표값을 선정할 수 있을 것입니다.


 

댓글로 해당 상황에서 본인이라면 어떻게 분석을 진행해 보실지 자유롭게 공유해 주시면 많은 도움이 될 것 같습니다! 😃