AB테스트란 무엇일까? 실무에서 AB테스트를 기획하는 4단계 프로세스(1)

AB테스트란 무엇일까? 

AB테스트란, A(대조군Control)와 B (Treatment)의 2개 종류를 비교하는 가장 간단한 형태의 종합 대조실험이다. 

사실 데이터 기반의 제대로 된 회사라면 A/B테스트를 통해 프로덕트의 성과를 측정하는 것은 기본중에 기본이다. 
이 글은  AB테스트의 기본적인 정보가 궁금한, 주니어 PO/PM 또는 IT회사의 PO,BA를 꿈꾼다면 AB테스트에 대한 가장 기초적인 정보를 습득하기 좋은 글이다. 

  • AB테스트란 무엇일까? -신뢰할 수 있는 온라인 종합 대조 실험 
    • 신뢰할 수 있는 온라인 종합 대조실험으로, A(대조군Control)와 B (Treatment)의 2개 종류를 비교하는 가장 간단한 형태의 종합 대조실험을 의미한다. 
    • AB테스트 결과를 이해하고 해석하기 위해서는 각 용어에 대한 이해가 중요하다. 대표적인 용어로 , 대조군, 실험군, 무작위추출(랜덤샘플링) 등이 있다. 
    • PM/PO가 AB테스트를 위해 해야하는 핵심 과업은 지표 설계이며 , 프로젝트가 시작하기 전에 실제로 어떤 지표를 움직일지 정해놓고 시작해야 한다. 

AB테스트 – 신뢰할 수 있는 온라인 종합 대조 실험 



AB테스트

A/B테스트란 신뢰할 수 있는 온라인 종합 대조실험으로, A(대조군Control)와 B (Treatment)의 2개 종류를 비교하는 가장 간단한 형태의 종합 대조실험을 의미

여기서 대조군은 쉽게 말해 신규 프로덕트에 영향을 받지 않는 유저군, 실험군은 신규 프로덕트를 사용할 수 있고 볼 수 있는 유저군으로 나뉜다. 

당연히 이렇게 나누는 이유는 실제 프로덕트가 있을 때 없을 때보다 유저군 별로 각 핵심지표에 유의한 차이가 있는가를 확인하기 위함이다. 집단 간에 유의한 차이가 있을 시 해당 프로덕트의 임팩트로 인해 00핵심지표가 올라갔다고 말할 수 있기 때문이다. 

예를 들어, 커머스의 핵심지표는 GMV per Customer, Buyer Conversion이 대표적이다. 만약 AB테스트에서  A(대조군), B(실험군) 간에  GMV  per customer 지표에 유의한 차이가 있다면(B가 훨씬 높다) 이는 신규 프로젝트가 GMV per customer에 긍정적인 영향을 크게 미친 프로덕트 인 것이다. 

이로 인해 해당 프로덕트는 임팩트 측면에서 성공적이라고 말할 수 있다. 

따라서 프로덕트 그룹의 실무에서  A/B테스트는 대조실험을 통해  실제 프로덕트의 성과를 알아내는 실험이다. 따라서 PM/PO가 되고 싶다면 실제 실험을 어떻게 진행할 것인지 설계하고 어떤 지표를 볼 것인지 설계하는 과정이 필요하다. 

관련된 용어를 아는 것도 기본이다. 그럼 A/B테스트와 관련된 가장 기본적인 용어들을 알아보자 .

 

AB테스트 관련 용어 


AB테스트 
AB테스트 용어 정리

  • Success Metric: 실험의 성공 여부를 결정 짓는 지표이다. 실험군이 대조군에 비하여, Success Metric이 월등히 뛰어나다면, 임팩트가 큰 프로덕트로 Guardrail지표가 손상되지 않는 한 운영환경에 해당 프로덕트를 그대로 적용한다.  
    • GMV per customer : 서비스 방문객 대비 고객 거래액으로, 커머스의 대표적인 Success Metric이다. 
      • 여기서 Customer란 구매자가 아니라, 서비스 방문객이기 때문에 이 지표는 단순히 객단가를 구하는 것이 아니다. 서비스를 방문한 고객 전체를 두고 봤을 때 1 사람의  GMV가 얼마가 되는가를 확인하는 지표이다. 
      • 당연히 어떠한 커머스든 방문객 대비 거래액(GMV)가 오른다는 얘기는 결국 해당 플랫폼의 거래액과 매출액(수수료이익)이 증가한다는 얘기이다. 따라서 대부분의 커머스가 이 지표를 Success Metirc으로 활용한다. 
    • Buyer conversion  :  구매자 전환율로 불리며, 구매자 수 / 서비스 방문자 수 로 구할 수 있다. 이 지표가 의미하는 바는 고객을 몇 %의 확률로 구매하게 만들 수 있는가 하는 것이다. 당연히 이 지표가 올라감에 따라 구매자가 증가한다는 얘기가 된다. 
      • 실험의 배경과 프로덕트 런칭 내용에 따라 분모는 알맞는 내용으로 변경해야한다. 
  • Guard Rail Metric : 해당 실험으로 인해 반드시 떨어져서는 안되는 지표로 대개는 Success Metric과 동일한 지표를 선정하는 경우가 많다. 서비스 내에서 떨어져서는 안되는 지표는 대개 Success Metric과 동일하기 때문이다. 
  • 파라미터: 핷미지표 또는 기타 지표에 영향을 미치는 것으로 간주되는 통제 가능한 실험변수. 대개 프로덕트 관련 실험에서는 런칭하는 프로덕트가 파라미터가 될 수 있다. 
    • 다변수 테스트: 글꼴 색상과 글꼴 크기와 같은 다중 파라미터를 함께 평가해 실험자가 파라미터가 상호작용 할 때의 전역적 최적값을 발견할 수 있도록 한다. 
  • 무직위 추출 : 표본을 추출할 때 모집단의 각 개체가 모두 동일한 확률로 뽑혔다는 것이다. 이와 같은 추출 방법을 무작위 추출이라고 한다. 대개 AB테스트에서는 A집단과 B집단에 속하게 될 유저 분류를 random하게 진행한다. 실험에 bias가 생기지 않게 하기 위함이다. 
  • 대조군 : 대조군이란 프로덕트가 런칭되지 않은 상태 즉 기존시스템을 유지하고 있는 유저군을 의미한다. 
  • 실험군 : 신규 프로덕트에 영향을 받는 유저군. 실험의 파라미터에 의해 영향을 받는 유저 집단을 의미한다. 

그러면 용어를 알았으니 실제 AB테스트 실험을 설계할 때 어떤 것을 해야하는지 살펴보자. 

AB테스트 실험 설계   


대개 모든 PO/PM은 AB테스트 실무에서 다음과 같은 과정을 거쳐 AB테스트를 진행한다. 

AB테스트 실험 설계   

프로덕트 성과 지표 설계

    • 각  success Metric의 분모, 분자를 구체적으로 어떻게 설계할지 정한다.
      • 사실 대부분의 성공적인 프로덕트는 이미 해당 프로덕트가 들어가기 전에 성과에 대해서 어떻게 나올지 예측을 한 채로 들어가는 경우가 많다. 
      • 이것이야 말로 이겨놓고 싸우는 것이다. 예를 들면 오늘출발 서비스를 한다면, 실제 오늘출발 서비스를 할 수 있는 상품수를 확인하고 해당 오늘출발 프로덕트가 들어감으로서 오르는 GMV %를 기반하여 expectation한다.
      • 이러면 프로덕트의 핵심지표 뿐 아니라, 핵심지표에 어느정도의 영향을 미칠지도 프로덕트 런칭 전에 알고 들어갈 수 있다.  
    • 이 과정에서 uuid 기반으로 분석이 용이한지 아닌지 찾는다.
    • 이상치 제거 방식에 대해 BA와 논의한다. (상위, 하위 5% 데이터 제거 등)

분기시점 설계 

  • 어느 페이지 진입시, 어느 서비스 진입시 A,B집단으로 유저를 나눌 것인지 정리한다. 
    • 대개 프로덕트가 어느 페이지에서 노출되냐에 따라 유저의 분기 시점을 달라진다. 

분기 주기를 결정

  • 분기를 서비스에 진입할 때마다 할 것인지 아니면 하루 1회 ,한달 1회 등  window를 결정한다.
  • 대게 많은 AB테스트는 1회 분기 이후 다시 동일한 유저를 재분기하지 않는다 .
    • EX) B로 분류된 유저는 AB테스트가 끝날 때까지 B유저군으로 남는다. 

실험의 개발 작업 담당자 및 영향 범위 체크 

  • 실험을 서버에서 제어하는가, 아니면 FE제어가 필요한가에 따라 개발 담당자가 달라지니 미리 체크한다.
  • 해당 실험으로 인해 영향받을 수 있는 팀에게 해당 실험의 일정과 내용을 미리 공유한다. 

 

  • PM/PO가 어떤일을 하는지 궁금하다면? 배민 기획자의 일 리뷰 

Leave a Comment