数据采样

Yandex Metrica 使用详细的会话和用户数据生成报表。 计算大数据量的指标可能需要大量的时间和资源。 因此,Yandex Metrica 可能仅将部分可用数据用于其报表,这称为采样。 这样,Yandex Metrica 便可以保持较高的报表生成速度。

什么是采样?

采样是一种用于数据处理的统计方法,其中有关所有数据的一般性评论均从其子集(称为样本)得出。

假设我们正在谈论对网站的直接访问。 通过计算其在十分之一总会话量中的数量,再将结果乘以 10,即可得到直接访问的近似次数。 这样,您获得结果的速度便会快 10 倍,但结果是近似的。

数据采样技术详解

Yandex Metrica 采样机制

采样算法均匀地选择网站受众的数据,确保采样报表与整个报表保持同样的相关性和属性分布。

备注

  • 采样仅在 Yandex Metrica 中创建分析报表时使用。 原始数据不会被删除或更改。
  • 采样不适用于 Yandex Metrica 中的“Yandex Direct”组报表。
  • 受众细分是使用报表中的 100% 数据创建和保存的。
  • Yandex Direct 报表中显示的是完整数据。
  • 采样不会影响广告效果。

何时可以在 Yandex Metrica 中应用采样?

Web 界面和 API 均支持报表生成采样。

当原始请求样本超过 500,000 个会话(或相应报表中的 200 万次浏览)时,Yandex Metrica 可以应用采样。 采样率是动态确定的,以确保报表包含最大量的数据,这取决于所需的计算资源。

如何控制采样

您可以使用 Sample 调整报表的采样级别。

如果增加样本大小,报表可能需要更长时间才能生成,也可能根本不会生成。 为了确保可以加载您的报表,如果原始数据包含超过 500,000 个会话,Yandex Metrica 可能会限制手动样本大小增加。

备注

该限制自 2023 年 9 月起生效。

如何获取全部数据的报表

缩短报表周期

当您超出请求中的原始数据量限制时,将自动应用采样。 您可以通过缩短报表周期将请求调整为包含不超过 500,000 个会话。

例如,如果您网站的月流量约为 100,000 个会话,则不同报表周期的采样率将如下所示:

报表周期

原始样本中的会话总数

用于生成报表的数据百分比

一个月

100,000

100%

五个月

500,000

100%

六个月

600,000

83.3%

十二个月

1,200,000

41.7%

成为 Yandex Advertising Network 合作伙伴

YAN 合作伙伴可以使用 100% 的数据生成任何报表,前提是他们每月持续获得至少 1000 万已观看展示次数

联系我们