数据统计准确性

Yandex Metrica 提供了有关网站运行情况的所有可能方面的许多数值,并且所有这些数值的计算都是准确的。 但从分析网站性能的角度来看,情况并非总是如此:例如,如果一位访客来到网站并查看页面 20 分钟,那么从技术上讲,网站上会话的平均持续时间确实是 20 分钟。 然而,常识告诉我们事实并非如此:我们不能根据单个会话对网站做出结论。

另一个例子:您需要确定网站的哪些页面是导致转化完成的会话的最常用入口页。 这看起来很容易。 打开 Entry pages 报表,选择所需目标,然后按转化完成事件对报表进行排序。

该报表包含许多只有一个用户的页面,但目标仍然实现了。 从这些页面开始的会话的转化率至少达 58%。 但很明显,这些页面没有任何分析价值。 您可以尝试设置页面深度的最小值,例如至少 100 次页面浏览量。

但您可以看到还有不止浏览 100 次的页面:有些页面被浏览了 100 次以上,但都在一个会话内发生的(以及在完成目标时的一个会话期间)。 这可能是页面自动刷新或网络爬虫。 无论是何种情况,您都无法从报表中的这些行了解到有意义的数据,因此最好删除它们。 您可以设置 1,000 次页面浏览。

这将从报表中删除无关的信息。 但是,会话数量的限制取决于所选的报表期间,您必须为每个期间重新重置限制。

此示例表明对于网站分析来说,重要的不是计算出的转化率,而是实际的转化率,即在有很多会话的情况下您所看到的转化率。 对于 1,000 个会话,真实转化率与计算得出的转化率之间的差异会很小。 但对于单个会话,实际转化率可能是很小数值到 100% 之间的任何百分比值。

数理统计方法使我们能够计算出需要多少会话才能有信心(例如,概率达 95%)说计算出的转化值与真实值没有显着差异(例如,偏差小于 5%)。

Yandex Metrica 可以自动计算这一点,并隐藏我们无法安全地假设显示的值与理论真实值的偏差微乎其微的报表行。 为此,请使用 Hide statistically insignificant data 选项。

对数据当前排序所依据的列的值进行筛选。 还可以更改筛选阈值 —— 我们提到的 95% 概率和 5% 偏差。

联系我们