실험
게임의 새로운 변경 사항이 사용자 행동에 어떤 영향을 미치는지 알아보려면 A/B 테스트를 실행하세요. 실험을 위해 전체 또는 일부 사용자를 선택하여 그룹으로 나눕니다. 각 그룹에는 앱의 고유한 실험용 버전이 표시됩니다. 모든 변형 버전은 키-값 쌍인 플래그를 사용하여 Games Console 내의 단일 버전을 기반으로 생성됩니다.
보고서를 통해 시간이 지남에 따라 메트릭이 어떻게 변화하는지 모니터링하여 어떤 변경 사항이 성공적인지 파악하고 게임의 효과를 개선하세요.
실험 전 준비 사항
-
실험 계획하기
- 어떤 가설을 테스트하고 싶은가?
- 변형 버전 사이의 차이점은 무엇인가?
- 어떤 목표를 달성하고 싶은가?
-
기능을 구현하세요. 이를 위해
getFlags()
메서드에서 가져온 조건과 플래그를 사용하고 새 앱 버전을 업데이트하세요. -
필요한 경우, 새 플래그를 구성에 추가하고 변경 사항을 게시합니다.
실험 생성
아래와 같은 방법으로 실험을 준비합니다.
- 개발자 콘솔로 이동하세요.
- 앱을 선택합니다.
- Experiments 탭으로 이동한 후 Create experiment 버튼을 클릭하세요.
경고
한 번에 두 개 이상의 실험을 수행할 수 없습니다.
1단계. 이름 및 설명
실험 이름을 추가합니다. 선택 사항인 Description 필드에 정확한 테스트 대상(예: 버튼 색상 또는 가치 있는 보상 드롭율), 예상 결과, 개선하고자 하는 메트릭을 입력할 수 있습니다.
2단계. 조건
Date range
기본적으로, 실험에는 시간에 따른 제한만 있습니다. 시작일과 실험 기간을 지정할 수 있습니다.
경고
최대 실험 기간은 30일입니다.
Audience share
실험에 참여할 대상의 비율을 설정합니다.
경고
이 값은 총 사용자 수에 따른 비율이 아닙니다. 이 파라미터는 지정한 모든 조건을 충족하는 유저 수를 기준으로 계산됩니다.
예시
대상 비율이 60%인 경우 40%의 사용자는 실험에 참여하지 않습니다. 60%의 참여자는 여러 그룹으로 나뉩니다. 그룹의 수는 실험 변형의 수에 해당하며, 각 그룹은 하나의 변형을 갖게 됩니다. 예를 들어, 실험에 60%가 참여하고 변형이 3개인 경우 각 변형은 전체 대상의 20%를 차지합니다. 이 비율은 각 변형의 오른쪽에 표시됩니다.
Conditions
조건을 사용하여 실험 대상을 제한할 수 있습니다. 조건을 추가하면 실험 대상에는 이러한 조건을 모두 충족하는 유저만이 포함됩니다. 테스트 Audience share은 이러한 대상에 기초하여 계산됩니다.
대상 범위를 제한하려면 Add condition를 클릭하고, 필요한 조건을 모두 선택한 다음 표시되는 필드를 모두 작성하세요.
사용 가능한 조건
- Platforms: 모바일, 데스크톱, TV.
- Languages: 구성이 표시될 유저의 장치에서 사용하는 언어.
- Regions: 유저의 장치에 설정된 지역.
- Client features: 당신은 "키-값" 쌍으로 자체 매개변수를 지정할 수 있습니다. 예를 들어
param=value
입니다. 여러 값을 "AND" 연산자로 결합하여 지정하려면 매개변수를 쉼표로 구분해주세요. (예:aparam=avalue
,bparam=bvalue
)
3단계. 메트릭
실험을 위해 여섯 가지 메트릭이 제공되며, 이 모두에 대한 실험 결과 보고서가 작성될 것입니다.
메트릭 |
설명 |
Timespent per player |
플레이어가 하루 평균 게임에서 보낸 시간(분)입니다. |
Interstitial shows per player |
플레이어당 하루 평균 전면 광고 노출 횟수입니다. |
Rewarded shows per player |
플레이어당 하루 평균 보상형 광고 노출 횟수입니다. |
In-app purchases per player |
플레이어당 하루 평균 인앱 구매 횟수입니다. |
Ratio of players with in-app purchase* |
일일 앱 사용자 중 유료 사용자 비율(퍼센트)입니다. |
Conversion To Play |
60초 이상 지속된 게임 세션 비율입니다. |
Ad revenue delta* |
테스트 그룹과 대조 그룹 간 Yandex Advertising Network 광고 수익 차이(대조 그룹 수익 대비 퍼센트)입니다. |
In-App revenue per player* |
플레이어당 하루 평균 인앱 구매 수익(루블)입니다. |
* 이 메트릭은 게임 소유자와 View income 역할을 가진 개발자만 확인할 수 있습니다.
4단계. 변형 설정
실험의 일환으로 유저에게 보일 여러 가지 변형을 설정할 수 있습니다. 변경 사항이 없는 현재 버전의 앱을 대조군으로 사용하는 것이 좋지만 해당 버전에서도 변경 사항을 설정할 수도 있습니다.
경고
하나의 실험에서 최대 26개의 변형을 사용할 수 있습니다.
테스트 그룹과 실험 그룹의 변경 사항은 플래그를 사용하여 조정됩니다. 플래그를 얻으려면 getFlags()
메서드를 사용하십시오. 앱 자체를 변경할 필요는 없습니다. 플래그는 문자열 값 유형을 사용합니다.
- 실험에서 변경 사항을 적용하려는 변형이 있는 블록을 선택합니다.
- 변경된 파라미터로 플래그를 설정합니다.
경고
하나의 변형에 플래그를 두 개 이상 추가하거나 변경할 수 없습니다.
테스트 대상은 생성한 변형의 수에 따라 동일한 비율로 나누어집니다. 각 변형은 거의 동일한 수의 사용자에게 표시됩니다.
5단계. 실험 저장 및 실행
실험은 바로 시작하거나 초안으로 저장하여 나중에 편집하고 실행할 수 있습니다. 실험은 언제든지 확인할 수 있습니다.
실험 확인
현재 변형을 점검하고 적용된 변경 사항을 확인할 수 있습니다.
- 점검하려는 변형의 실험 플래그를 선택했는지 확인하세요.
- 변형 이름 옆에 있는 Experiment testing 블록에서 링크나 복사를 클릭해 다른 장치에서 엽니다.
- 선택한 실험 플래그 값으로 앱이 작동하는지 테스트합니다.
변형을 테스트할 때 실험 조건은 고려되지 않습니다.
표본 크기 계산기
Sample size calculator 블록에서 선택한 실험 조건으로 통계적으로 유의미한 결과를 얻을 수 있는지 확인할 수 있습니다.
계산기는 최소 감지 가능 효과(Minimum Detectable Effect, MDE)를 계산합니다. 이는 현재 데이터와 설정된 유의 수준을 기반으로 메트릭의 가장 작은 변화를 감지할 수 있는 값을 결정합니다.
-
낮은 MDE 값은 메트릭의 아주 작은 변화도 감지할 수 있습니다.
팁
MDE를 줄이려면 표본 크기나 실험 기간을 늘려보세요.
-
높은 MDE 값:
- 오직 큰 변화만 감지합니다.
- 작은 규모의 대상으로 실험을 진행할 때 적합합니다.
계산기 필드를 채우고 아래의 앱과 실험에 대한 정보를 입력합니다:
- Total players per day: 실험 조건을 고려한 매일 사용자 수, 그러나 샘플 크기는 아닙니다. Audience share 에서 그것을 지정하십시오. Total players per day 필드의 값을 계산하려면 제품 메트릭 Players 을(를) 사용하십시오.
- Duration: 실험 기간(일). 단계 2. 조건의 Date range 필드와 관련됩니다.
- Audience share: 실험에 참여할 사용자의 비율입니다. 단계 2. 조건의 Audience share 필드와 관련됩니다.
- Variants: 실험의 변형 개수(2~26개)에 해당합니다.
- Number of events per player: 플레이어당 평균 대상 이벤트 수입니다. 이 값을 계산하려면 실험 조건을 고려하여 해당 기간 동안의 이벤트 수를 해당 기간의 고유 유저 수로 나눕니다. 여기서 선택하는 대상 이벤트는 우선순위 메트릭을 기반으로 해야 합니다. 단일 실험에서 여러 메트릭을 평가하려는 경우 각 메트릭에 대해 별도로 계산하세요.
Borders of the detected effect: 이 파라미터를 사용하면 통계적으로 유의미한 것으로 간주할 수 있는 메트릭을 확인할 수 있습니다. 빨간색 경계보다 작고 녹색 경계보다 큰 경계에 해당하는 지정된 경계 밖에 있는 메트릭입니다. 경계 사이에 있는 메트릭은 대조군 변형 변환에 따른 무작위 변형일 수 있습니다. 범위가 너무 넓어서 눈에 띄지 않는 메트릭 변화를 찾고 있다면 실험 조건을 조정해 보세요. 예를 들어 기간이나 대상 비율을 늘려볼 수 있습니다.
실험 수행
경고
실험을 시작한 후에는 선택한 조건, 플래그 및 변형을 변경할 수 없습니다.
실험을 시작하려면 Save and run 을 누르세요. 실험에 대한 간단한 정보를 확인하고 모든 것이 만족스러우시면 Run 을 누르세요.
실험이 시작되면 Flags 탭에 실험에 참여하는 플래그에 대한 정보가 표시됩니다. Experiments 탭에서는 예비 보고서를 볼 수 있습니다.
실험 결과 보고서
이 보고서에서는 대조 변형과 비교하여 실험 변형의 통계적으로 유의미한 지표 변화를 확인할 수 있습니다.
보고서 읽는 방법
아래와 같은 방법을 따라 보고서를 볼 수 있습니다.
- 개발자 콘솔로 이동하세요.
- 앱을 선택합니다.
- Experiments 탭으로 이동하여 실험이름 아래에서 View results를 클릭합니다.
실험에 대한 간략한 설명 아래에서 사용 가능한 메트릭과 보고서의 시간 범위를 선택할 수 있습니다. 그래프에는 실험이 실행되는 동안 테스트된 모든 변형에 대해 선택한 메트릭의 값이 표시됩니다.
그래프 아래에는 다음과 같은 숫자 값이 포함된 표가 표시됩니다.
- 보조 지표 예시: Number of unique players.
- 그래프 위 메뉴에서 선택 가능한 주요 메트릭.
- Δ: 실험 변형과 대조 변형의 메트릭 값 차이.
- Δ, %: 대조 변형 메트릭 값의 백분율로 표시한 실험 변형과 대조 변형의 메트릭 값 차이.
- P값: 통계적 기준 테스트 결과의 주요 수치적 특성. 이 지표에 대한 자세한 내용은 보고서로 해결할 수 있는 문제를 참조하세요.
색상별 메트릭 보기
- 녹색: 양수이며 통계적으로 중요한결과.
- 적색: 음수이며 통계적으로 중요한결과.
p값에 따라 세 가지 색상 강도의 그라데이션이 사용됩니다. 임계값은 0.05, 0.01, 0.001입니다.
만약 지표가 어떤 색으로도 채색되지 않았다면, 실험이 사용자에게 영향을 미치는지 명확히 판단할 수 없습니다.
보고서로 해결할 수 있는 문제
이 실험은 아래의 가설을 테스트합니다.
- H0: 주어진 변형에서 메트릭의 값이 대조 변형과 비교하여 변하지 않았다.
- H1: 주어진 변형에서 메트릭의 값이 대조 변형과 비교하여 변했다.
사용된 통계적 기준은 버케팅 메서드와 맨-휘트니 U 검정입니다. 데이터 양이 적을 경우 불연속성에 대한 보정이 구현됩니다.
P값은 실험 결과를 평가하는 주요 특성으로 사용됩니다. 이는 메트릭 값이 실제로 변하지 않았다는 가정 하에(예제에서는 H0 가설) 적어도 실제로 관찰된 결과만큼 극단적인 테스트 결과를 얻을 확률을 판단하는 데 도움이 됩니다. 자세한 내용은 p값에 대한 Wikipedia 문서를 참조하세요.
H0 가설이 맞으면 해당 행은 보고서에서 강조 표시되지 않습니다.
H0 가설이 맞았다고 해서 메트릭이 변경되지 않았다는 의미는 아니라는 점을 명심해야 합니다. 효과가 MDE보다 높지 않다는 것을 확신할 수 있을 뿐입니다. 메트릭의 더 작은 변화를 확인하려면 실험 기간이나 대상 규모를 늘려도 좋습니다. 새로운 값을 결정하려면 표본 크기 계산기를 사용합니다.
유의 수준 p값 <= 0.05로 H1 가설이 확인되면 보고서에서 해당 행이 강조 표시됩니다.
가설 수용 여부는 p값과 유의 수준을 비교하여 p값 <= 알파일때 수행됩니다. 기본 알파 임계값은 0.05입니다.
알파를 사용하면 1종 오류(오탐)가 발생할 확률이 높아진다는 점을 이해하는 것이 중요합니다. 반면에 알파를 너무 낮게 설정하면 2종 오류(미탐)와 MDE의 확률이 높아지므로 알파를 너무 낮게 설정하는 것은 합리적이지 않습니다.
시험 결과 수용
- 개발자 콘솔로 이동하세요.
- 앱을 선택합니다.
- Experiments 탭으로 이동하여 실험이름 아래에서 View results를 클릭합니다.
- 모든 변형에 대한 테스트 결과를 분석하고 변경 사항이 성공적인지 확인합니다.
실험 변형을 주요 변형으로 사용하려면 Add flags to config를 클릭합니다. 새 값은 앱의 최신 버전에서 사용할 수 있습니다.
확실한 결론을 내릴 수 없는 경우 실험 조건을 변경해 보세요. 실험 기간 또는 대상 비율을 선택하려면 표본 크기 계산기를 사용하세요.
최소 감지 효과.
p값이 <= 0.05인 경우 메트릭 향상이 테스트한 플래그 변경과 관련이 있을 가능성이 95% 이상이라는 뜻입니다. 자세한 내용은 보고서로 해결할 수 있는 문제를 참조하세요.
p값이 <= 0.05인 경우 메트릭 하락이 테스트한 플래그 변경과 관련이 있을 가능성이 95% 이상이라는 뜻입니다. 자세한 내용은 보고서로 해결할 수 있는 문제로 얻을 수 있는 플래그를 사용하여 제어 및 테스트 변형의 변경 사항을 설정합니다.