这个累积因素是反对谷歌

种蓝色阴影测试效率的一个论点(尽管我确信他们纠正了这个错误)。这是来自 的一个很好的视觉效果 来说明不断增加的风险: 计算累积 的方法是: 累积 选定的显着性水平,通常为 测试中的测试变体数量(没有控制) 因此,您可以看到每个新变体都会大大增加误报的风险。那么应该很明显 只测试一种变体,对吧 好吧,不是真的。大多数工具,包括 、 和 ,都内置了纠正所谓的多重比较问题的程序。他们可能使用不同的技术,但他们解决了问题。 即使您的测试工具没有内置校正程序您仍然可。

以自己校正 错误有许多不

同的技术可用我不是他们之间权衡的专家(也许真正的统计学家可以在这里插话): 检验。 校正 错误发现率 西达克校正 虽然在调整 错误时,虽然您降低了 类错误的风险,但您却增加了 类错误的风险(当实际存在差异时却看不到差异。 此外 写了一篇很 俄罗斯手机号码清单 棒的论文指出从分层贝叶斯的角度来看,多重比较的问题可能会完全消失。 的首席数据科学家 也指出,采用贝叶斯方法可以解决这个问题: 伊丹米凯利: 当 测试许多变体和 或多个目标 时多重比较问题确实是一个严重的问题。

电话号码列表

然而这主要是广泛使

用的标准 测试方法称为假设测试的缺点。解决此问题的一种方法是采用贝叶斯方法进行 测试,如我最近关于贝叶斯测试的文章中所述。 正如 的首席执行官 所说,这假设你有一个很强的先验,即变化确实是相同的 所有这些都会真正导致数据的部分汇集, 在这篇很棒的文章中写到了这一点。 图片来源 图片来源 如果您仍然害怕比较多种均值的数学含义,请注意,当您对数据进行测试后细分时,您实际上是在做同样的事情。来自 的 就此写了一篇很棒的 阿联酋手机号码 文章克里斯 斯图奇 您有移动设备和桌。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注