实验
要了解游戏的新变化如何影响用户行为,请运行 A/B 实验。对于您的实验,请选择您的全部或部分用户,并将他们分成几组。每个组将看到您应用的一个独特的实验版本。所有版本都是基于游戏控制台中的单个版本使用标记(键值对)创建的。
在报告中监控指标如何随时间变化,以确定哪些更改较为成功且提高了游戏的成效。
在创建实验之前:
-
对实验进行规划:
- 您想测试什么假设?
- 不同版本之间有什么区别?
- 您想实现什么目标?
-
实施功能。使用
getFlags()
method 检索的条件和标记,并上传新版本的应用。 -
如有需要,将新标记添加到配置,并发布更改。
创建实验
要创建实验:
- 前往游戏控制台。
- 选择一个应用。
- 前往Experiments选项卡,然后点击Create experiment。
重要
您一次不能运行两个以上的实验。
步骤 1. 名称和描述
为您的实验添加名称。您还可以填写可选的Description字段,指明您正在测试的具体内容(例如,按钮颜色或有价值的奖励掉落率)、您的预期成效以及想要改进的指标。
步骤 2. 条件
Date range
默认情况下,实验仅受时间限制。您可以定义实验的开始日期和持续时间。
重要
实验最长持续时间为 30 天。
Audience share
设置参与实验的受众份额。
重要
这不是占总用户数的份额。该参数根据满足您指定的所有条件的用户数计算得出。
示例
如果您的受众份额为 60%,则有 40% 的用户不会参与实验。参与实验的 60% 的用户将被分成几组。组数与实验版本数相对应,每组获得一个实验版本。例如,如果您的实验涵盖了 60% 的受众,且有三个版本,则意味着每个版本可获得 20% 的整体受众。此份额在每个版本的右侧指定。
Conditions
使用条件来限制实验受众。添加条件后,您的实验受众将仅包含满足所有这些条件的用户。您的Audience share将根据此受众计算。
要限制受众,请点击Add condition,选择所有必要条件,然后填写显示的字段。
可用条件:
- Platforms:移动设备、桌面设备或电视设备。
- Languages:将向其显示您的配置的用户设备上的语言。
- Regions:用户设备上设置的地区。
- Client features:您可以将自己的参数设置为键值对。例如:
param=value
。要使用 "AND" 运算符指定多个组合值,请列出用逗号分隔的参数。示例:aparam=avalue
、bparam=bvalue
。
步骤 3. 指标
实验可用六项指标,将基于这六项指标构建实验结果报告。
指标 |
说明 |
Timespent per player |
玩家平均每天在游戏中花费的分钟数。 |
Interstitial shows per player |
玩家每天观看全屏广告的平均次数。 |
Rewarded shows per player |
玩家每天观看激励广告的平均次数。 |
In-app purchases per player |
玩家每天进行应用内购买的平均次数。 |
Ratio of players with in-app purchase* |
付费用户占每日应用活跃用户的比例(百分比显示)。 |
Conversion To Play |
游戏会话时长超过60秒的比例。 |
Ad revenue delta* |
测试组与对照组的Yandex广告收入差异(以对照组收入为基准的百分比)。 |
In-App revenue per player* |
日均每玩家应用内购买收入(单位为卢布)。 |
* 仅游戏所有者及具有View income权限的开发者可查看该指标。
步骤 4. 设置版本
您可以设置多个版本,作为实验的一部分向用户展示。我们建议使用当前版本的应用(未做任何更改)作为对照版本,但您也可以在该版本中设置更改。
重要
一个实验最多可以有 26 个版本。
使用标记在对照版本和实验版本中设置更改,您可以通过 getFlags()
method 获取这些标记。您无需更改应用本身。标记采用字符串值类型。
- 选择包含您要在实验中应用更改的版本的块。
- 设置具有已更改参数的标记。
重要
您不能在单个版本中添加或更改两个以上的标记。
您的受众将被分成相等的份额,其数量将与您创建的版本数量相对应。每个版本将面向数量大致相同的用户展示。
步骤 5. 保存并运行实验
您可以立即开始实验,也可以将其保存为草稿,以便稍后编辑和运行。您可以随时检查实验。
检查实验
您可以检查自己拥有的版本并查看已应用的更改:
- 确保您已为要检查的版本选择实验标记。
- 在版本名称旁边的Experiment testing块中,点击链接或复制链接以在另一台设备上打开。
- 测试应用是否可以使用所选的实验标记值。
测试版本时不考虑实验条件。
样本量计算器
在Sample size calculator块中,您可以检查是否使用您选择的实验条件获得了具有统计意义的结果。
计算器用于计算最小可检测效应(Minimum Detectable Effect, MDE)。它根据当前数据和给定的显著性水平,确定可检测到的最小指标变化。
-
低MDE值:即使指标变化幅度很小,也能检测到。
提示
若要降低MDE,可以增加样本量或延长实验时间。
-
高MDE值:
- 仅能检测到显著的变化。
- 适用于小规模受众的实验。
填写计算器字段,以便它们对应于您的应用和实验的信息:
- Total players per day — 每天的用户数量,考虑了实验条件但不包括样本大小。在 Audience share中指定最后一个。要计算 Total players per day的值,请使用产品指标 Players。
- Duration — 实验持续的天数。与步骤 2. 条件中的 Date range字段相关。
- Audience share — 参与实验的用户部分。与步骤 2. 条件中的 Audience share字段相关。
- Variants — 实验中的版本数量(从 2 到 26)。
- Number of events per player — 平均每位玩家的目标事件数量。要计算此值,请将某个周期内的这些事件数量除以该周期内参与实验条件下的独特用户数量。选择目标事件取决于您优先考虑的指标。如果您想在一个实验中研究几个指标,请为每个指标进行计算。
Borders of the detected effect:此参数有助于您了解哪些指标可被视为具有统计意义。这些指标将位于指定边界之外:小于红色边界,大于绿色边界。位于各个边界之间的指标可能是对照版本转化的随机版本。如果范围太广,并且您想要寻找不太明显的指标变化,请尝试调整实验条件。例如,增加持续时间或受众份额。
运行实验
重要
启动实验后,您将无法更改所选条件、标记和版本。
要启动实验,请点击Save and run。阅读简要的实验概述,如果一切正常,请点击Run。
实验启动后,您将能够在Flags选项卡上查看实验中使用的标记。您还可以在Experiments选项卡上查看初步报告。
实验结果报告
在此报告中,您可以看到实验版本与对照版本相比具有统计显著性的指标变化。
如何阅读报告
要查看报告:
- 前往游戏控制台。
- 选择一个应用。
- 打开Experiments选项卡,然后点击实验名称下的View results。
在实验的简要说明下,您可以选择任何可用指标和报告的时间范围。图表将显示实验运行时所有测试版本的选定指标值。
在图表下方,您将看到一个包含以下数值的表格:
- 辅助指标,例如Number of unique players。
- 可在图表上方的菜单中选择的主要指标。
- Δ:实验版本和对照版本中各个指标值之间的差异。
- Δ,%:实验版本和对照版本中各个指标值之间的差异,以对照版本指标值的百分比形式表示。
- P 值:统计标准测试结果的主要数字特征。如需详细了解该指标,请参阅报告可以解决哪些问题。
如果指标颜色为:
- 绿色,结果为正值且具有统计显著性。
- 红色,结果为负值且具有统计显著性。
根据具体的 p 值,颜色强度有三个等级。阈值为 0.05、0.01 和 0.001。
如果指标没有任何颜色标记,就不能明确判断实验是否影响用户。
报告可以解决哪些问题
实验将测试以下假设:
- H0:与对照版本相比,给定版本中的指标值没有变化。
- H1:与对照版本相比,给定版本中的指标值已发生变化。
采用的统计标准是使用细分方法的 Mann-Whitney U 测试。如果数据量较少,则对离散性进行修正。
P 值是评估实验结果的主要特征。在假设指标值实际上没有改变的情况下(示例中的 H0 假设),该值有助于确定获得至少与实际观察到的结果一样极端的测试结果的概率。如需详细了解,请参阅维基百科关于 p 值的文章。
如果 H0 假设是正确的,则报告中不会突出显示该行。
务必要记住,接受 H0 假设并不意味着指标没有变化。您只能确保效果不高于 MDE。要获得较小的指标变化,您可以延长实验持续时间或扩大受众规模。要确定新值,请使用样本量计算器。
如果 H1 假设得到证实,显著性水平为 p 值 <= 0.05,则报告中会突出显示此行。
通过比较 p 值和显著性水平来接受假设:P 值 <= alpha。默认 alpha 阈值为 0.05。
请务必了解,使用 alpha 与 I 型错误(假阳性)的概率相关。另一方面,将 alpha 设得太低是不合理的,因为这会增加 II 型错误(假阴性)和 MDE 的概率。
接受实验
- 前往游戏控制台。
- 选择一个应用。
- 打开Experiments选项卡,然后点击实验名称下的View results。
- 分析所有版本的测试结果并确定所做的更改是否成功。
要将实验版本用作主要版本,请点击Add flags to config。新值将在您应用的最新版本中提供。
如果您无法得出确切的结论,请尝试更改实验条件。要选择新的实验持续时间或受众份额,请使用样本量计算器。
最小可检测效果。
如果 p 值 <= 0.05,则指标改善与测试标记变化相关的可能性大于或等于 95%。如需详细了解,请参阅报告可以解决哪些问题。
如果 p 值 <= 0.05,则指标下降与测试标记变化相关的可能性大于或等于 95%。如需详细了解,请参阅报告可以解决哪些问题。