[번역] How Not to Run an A/B Test

[번역] How Not to Run an A/B Test

Version 9 is the most complete version of Hydejack yet. Modernized design, big headlines, and big new features.

NOTE
Evan Miller의 How Not to Run an A/B Test (2010-04-18)를 번역한 글입니다.

만약 웹사이트 상에서 AB테스트를 진행하는 기간 중에 유의미한 결과 확인을 위해 정기적으로 실험 결과를 확인하고 있다면, 당신은 통계학자들이 말하는 소위 반복되는 유의성 테스트 에러 (repeated significance testing errors)에 빠지게 될 수 있다. 결과적으로, 대시보드 상의 결과는 통계적으로 유의미 하더라도 사실은 그렇지 않을 확률이 크다. 그 이유에 대해 설명하고자 한다.

배경

AB 테스팅 대시보드에서 보이는 “기존 보다 좋을 확률이 95%” 혹은 “90% 확률의 통계적 유의성”과 같은 결론은 이 질문에 대한 답이다 - “A와 B 사이에 사실은 차이가 없다고 가정했을 때, 우리가 실험에서 얻은 결과는 얼마나 자주 우연히 발생할 수 있는가?”. 이 질문에 대한 답이 ‘유의수준 (significance leve)’이며, “통계적으로 유의미한 결과”는 이 유의수준이 낮음을 의미한다 (보통 5% 혹은 1%).

[내 생각]
좀 더 쉽게 얘기해 보자면, A와 B 사이에 사실은 차이가 없다 (귀무가설)고 가정했을 때, 우리의 실험 데이터에서 얻은 결과가 관찰될 확률이 높을 수록, 실험 결과는 귀무가설을 지지하는 것이다. 두 그룹 간 차이가 없다는 가정 하에서도 충분히 자주 관찰될 수 있는 결과라는 말이 되기 때문이다.
그런데 이 확률 (유의수준)이 5% 혹은 1% 수준으로 매우 낮다? 귀무가설 하에서는 설명할 수 없는 결과라는 의미가 되며, 결론적으로 두 그룹 간 차이가 없다는 귀무가설을 기각할 수 있게 되는 것이다.

하지만, 이 유의성 계산은 미리 계산된 (확정된) 샘플 사이즈라는 (아마도 당신이 인지도 못 하는 사이 어겼을 수도 있는) 아주 필수적인 가정을 하고 있다. 만약 이 부분을 간과하고, “이 실험은 유의미한 차이를 보일 때 까지 지속된다”고 한다면, 모든 보고된 유의수준은 의미가 없다.

예시

당신이 관측치 200개, 500개 도달 이후 결과를 분석했다고 가정하자. 이때 아래 4개와 같은 결과가 생길 수 있다:

이 문제는 얼마나 심각한 걸까?

그렇다면 무엇을 할 수 있을까?

결론


© 2021. All rights reserved.

-------Powered by Hydejack-------

Owned by POPLA0428