A/B测试:简单的描述就是为同一个产品设计两个方案,让一部分用户使用方案A,一部分用户使用方案B,获取数据比较各个方案对给定目标的转化效果,选择向所有用户发布效果最好的版本。
案例介绍:两款手机的键盘布局不同。作为公司的产品经理,你认为哪一个的用户体验最好,并将其作为发布版本。
我们将度量设置为:用户输入错误的影响。如果键盘布局对拼写错误的影响很小,则键盘布局符合用户行为。
数据采集:随机抽取实验者,A组使用A键盘,B组使用B键盘,要求他们在30秒内输入20个单词,记录错别字数。
我们首先组织推理统计的分析过程:
1. 导入包和数据集
2.将字符类型转换为INT
3. 描述性统计分析以获得版本 A 和 B 的拼写错误均值和标准差
得到了平均错字为 5.08 的 A 版本和平均错字为 7.80 的 B 版本
4.假设检验(明确问题)
A 和 B 版本对用户打字错误的影响
4.1.1
零假设:版本 A 和版本 B 对用户的打字错误没有影响,即版本 A 的平均值 = 版本 B 的平均值
备择假设:版本A和版本B对用户打字错误有影响,即版本A的平均值不等于版本B的平均值
4.1.2 检验类型
因为有两个独立的样本,所以选择独立的两样本测试方法。
4.1.3 抽样分布的类型
因为样本量为25且小于30,拟合曲线接近正态分布,所以选择使用t分布
4.1.4 检查方向
因为备择假设是版本 A 不等于版本 B 的均值,所以使用双尾检验
4.2 收集证据
原假设前提下获得样本均值的概率P值
4.3 判断标准
显着水平:
4.4 得出结论
比较P值和显着性水平,如果P小于显着性水平α,则拒绝原假设,有统计显着性,有显着性差异
5. 置信区间
按照95%的置信水平,查表即可得到t值,自由度为样本量n-1A组检验,即可得到置信区间的上下限。
6.效果大小
在判断研究结果是否有意义或重要时要考虑的另一个指标是效应大小。效应量太小,意味着治疗即使达到显着水平,也缺乏实用价值。因此,在假设检验中,我们给出是否具有统计显着性,同时也给出效应大小,共同判断研究结果是否有意义。
七、分析报告
1. 描述性统计分析
版本 A 的平均错字为 5.08,版本 B 为 7.80
2. 推论统计分析
1) 假设检验
独立二样本 t(45)=-4.05 p=.00019 (α=5%) , 双尾检验
拒绝原假设,它具有统计学意义。
2) 置信区间 两个均值之差的置信区间,95%置信水平CI=[-4.07,-1.37]
3)效果大小d= - 1.32A组检验,效果显着
得出结论,版本A对减少用户拼写错误有显着效果