样本容量计算器
你想要快速达到统计可靠性。
用我们的ab测试计算器计算出你的样本容量需要多大。
不需要数学博士。
运行时A / B测试为了提高转化率,强烈建议计算一个样本大小在测试之前测量你的置信区间.
这个建议来自传统的行业(农业、制药……),在这些行业,了解你的信心水平很重要,因为它将决定我们希望保持尽可能低的实验成本。
这就是样本容量计算器的用途.您需要了解当前的成功率(转化率)和要测量的最小效果的大小。计算的结果就是从这样的实验中得出结论所需的种群大小。
这在“数字领域”发生了严重的转变,主要有三个原因:
- 衡量转化率无需任何成本(与行业不同)。
- 访问者的数量是问题的一部分(而不是答案)。
- 变化的影响是很难预测的(在实践中,这正是你在问自己的问题!)
这使得使用样本容量计算器非常困难。我们的数据科学家@AB Tasty开发了一种华体会娱乐平台最小探测效应计算器(MDE).
只需输入您的网站上的访问者数量和您想要测试的页面的转化率!
最小可检测效应计算器
根据你的受众、转化率和其他因素(如最小可检测效果)计算最小样本量以及A/B测试的理想持续时间。
你需要多少用户?
测试应该运行多长时间?
我们的A/B测试计算器也能让你了解A/B测试的持续时间。对于这个测试持续时间计算器为了工作,请填写上面的信息,以及你在测试页面上的平均每日流量和你的变化数量-包括控制版本。阅读更多置信区间和解释试验结果的方法。
我们的目标是提供一种简单的方法来计算测试具有统计学意义所需的人口规模(例如,您需要评估x%的提升/损失可以在95%的置信水平下得到信任所需的访问者数量)。
零假设是“频率论”统计检验中的惯例,表示变量之间没有差异(因此命名为“零”)。
当检验结果为负时,这意味着确实存在差异:我们正在否定零假设。相反,当检验结果为阳性时,则意味着变量之间没有任何差异。
这与p值的概念有关。
p值是考虑原假设的A/B检验结果的概率。
简而言之,如果p值较低(小于0.05),零假设不太可能成立,因此变量之间存在差异。
相反,如果p值很高(大于0.05),则原假设很可能为真,这意味着变量之间可能没有真正的差异。至少,你不能在这一点上下结论,需要更多的数据来进一步分析。
这个p值只告诉我们差异的存在,它没有给出任何关于差异大小的信息,或者是a > B还是B > a。
符号:由于p值公式有点令人困惑,它通常被翻译成一个“置信水平”使用百分比:(1 - p值)*100。
达到统计显著性意味着置信水平等于或大于给定的阈值。理论表明,在实验开始之前,这个阈值是固定的。
对于置信水平,其统计显著性的常规阈值为95%(对应p值为0.05),但这只是常规。
这个阈值的设置应考虑到每个业务的独特特征,因为它与实验认为合理的风险直接相关。
还要记住,95%的统计显著性意味着,在统计上,每20个结果中就有一个是错误的,没有任何检测的可能性。
统计能力是测试检测某种效应的能力,如果这种效应确实存在的话。即:如果存在真正的差异,则检测变量之间的差异。
在做预测时,有两种类型的错误。对于A/B测试,I型错误,也称为“假阳性”,是宣布一个坏的变异为赢家,而II型错误是缺少一个获胜的变异。
这种区别不仅仅是理论上的:第一类和第二类错误往往不暗示相同的成本!然后,最好以不同的方式处理它们。
也被称为单尾和双尾测试,区别在于其结果的范围:
- 片面检验只能给出A是否= B的一个信息。如果A != B,可能是A > B或A < B。
- 双面测试将提供更多的信息:如果A != B,则A是> B还是A < B?
这对于A/B测试非常重要,因为在实验开始之前,差异的方向(如果有的话)通常是未知的。
双面测试更安全我们在AB Tasty用的就是这个华体会娱乐平台
与 华体会娱乐平台
平台的hth手球