--- name: ab-test-setup description: "规划、设计或实施 A/B 测试或实验时使用。触发词:A/B test、split test、experiment、test this change、variant copy、multivariate test、hypothesis。追踪实施见 analytics-tracking。" license: MIT --- # A/B 测试设置 设计产生统计有效、可执行结果的测试。 ## 前置了解 测试上下文(试图改进什么、考虑什么变更、为何想测试这个);当前状态(基线转化率、当前流量、任何历史测试数据);约束(技术实施复杂度、时间线要求、可用工具)。 ## 原则 - **从假设开始**:非仅「看看会发生什么」,具体结果预测,基于推理或数据。 - **一次测试一件事**:每测试单变量,否则不知道什么有效,MVT 留到后面。 - **统计严谨**:预先确定样本量,不偷看并提前停止,承诺方法论。 - **度量重要的**:与业务价值相关的主指标、用于上下文的次指标、防止伤害的护栏指标。 ## 假设框架 结构:因为 [观察/数据],我们相信 [变更] 会对 [受众] 导致 [预期结果]。当 [指标] 时我们知道这是真的。 **好假设包括**:观察(什么促成了这个想法)、变更(具体修改)、效果(预期结果与方向)、受众(适用于谁)、指标(如何度量成功)。 ## 测试类型 **A/B 测试(分割测试)**:两个版本:对照(A)vs 变体(B),版本间单一变更,最常见、最易分析。 **A/B/n 测试**:多个变体(A vs B vs C...),需更多流量,适合测试多个选项。 **多变量测试(MVT)**:组合中的多个变更,测试变更间交互,需显著更多流量,复杂分析。 **分割 URL 测试**:变体不同 URL,适合主要页面变更,有时更易实施。 ## 样本量计算 **需要输入**:基线转化率、最小可检测效应(MDE)、统计显著性水平(通常 95%)、统计功效(通常 80%)。 **快速参考**:基线 1% 时,10% 提升需 150k/变体,20% 需 39k,50% 需 6k;基线 5% 时,10% 需 27k,20% 需 7k,50% 需 1.2k。 **测试时长**:时长 = (每变体所需样本量 × 变体数) / (测试页每日流量 × 转化率)。最小:1-2 个业务周期(通常 1-2 周),最大:避免运行太久(新颖效应、外部因素)。 ## 指标选择 **主指标**:单一最重要指标,直接与假设相关,用于判断测试。 **次指标**:支持主指标解释、解释变更如何/为何有效、帮助理解用户行为。 **护栏指标**:不应变差的事项(收入、留存、满意度),如显著负面则停止测试。 **按测试类型的指标示例**:首页 CTA 测试(主=CTA 点击率,次=点击时间/滚动深度,护栏=跳出率/下游转化);定价页测试(主=计划选择率,次=页面停留时间/计划分布,护栏=支持工单/退款率);注册流程测试(主=注册完成率,次=字段级完成/完成时间,护栏=用户激活率)。 ## 设计变体 **对照(A)**:当前体验,不变,测试期间不修改。 **变体(B+)**:单一、有意义的变更、足够大胆以产生差异、忠于假设。 **可变化内容**:标题/文案(信息角度、价值主张、具体性水平、语调/声音)、视觉设计(布局结构、颜色与对比、图片选择、视觉层级)、CTA(按钮文案、大小/突出度、位置、CTA 数量)、内容(包含的信息、信息顺序、内容量、社会证明类型)。 ## 流量分配 **标准分割**:A/B 测试 50/50,多个变体等分。 **保守推出**:初始 90/10 或 80/20,限制坏变体风险,达到显著性需更长时间。 **逐步增加**:从小开始,随时间增加,适合技术风险缓解,大多数工具支持。 **考虑**:一致性(用户返回时看到相同变体)、细分大小(确保细分足够大)、时间(天/周:平衡曝光)。 ## 实施方法 **客户端测试**:工具如 PostHog、Optimizely、VWO、自定义;JavaScript 在加载后修改页面,快速实施,可能闪烁;适合营销页、文案/视觉变更、快速迭代。 **服务端测试**:工具如 PostHog、LaunchDarkly、Split、自定义;变体在页面渲染前确定,无闪烁,需开发工作;适合产品功能、复杂变更、性能敏感页面。 **功能标志**:二进制开/关(非真正 A/B),适合推出,可通过百分比分割转为 A/B。 ## 运行测试 **启动前清单**:假设已记录、主指标已定义、样本量已计算、测试时长已估算、变体已正确实施、追踪已验证、所有变体 QA 已完成、利益相关者已通知。 **测试期间**:监控技术问题、检查细分质量、记录任何外部因素;不要:偷看结果并提前停止、修改变体、从新来源添加流量、因为「知道」答案而提前结束。 **偷看问题**:在达到样本量前查看结果并在看到显著性时停止导致:假阳性、膨胀效应大小、错误决策。解决方案:预先承诺样本量并坚持、如必须偷看使用序贯测试、信任流程。 ## 分析结果 **统计显著性**:95% 置信度 = p 值 < 0.05,意味着<5% 结果是随机的,非保证—仅阈值。 **实际显著性**:统计 ≠ 实际,效应大小对业务是否有意义?是否值得实施成本?是否可持续? **查看内容**:1) 是否达到样本量?2) 是否统计显著?3) 效应大小是否有意义?4) 次指标是否一致?5) 是否有护栏担忧?6) 是否有细分差异? **解释结果**:显著获胜者→实施变体;显著失败者→保留对照,学习原因;无显著差异→需更多流量或更大胆测试;混合信号→深入挖掘,可能细分。 ## 文档与学习 **测试文档**:测试名称、ID、日期、所有者、假设、变体(对照与变体描述+截图)、结果(样本量、主指标、次指标、细分洞察)、决策(获胜者/失败者/不确定)、行动(正在做什么)、学习(学到了什么、下一步测试什么)。 **建立学习库**:所有测试的中央位置、可按页面/元素/结果搜索、防止重新运行失败测试、建立机构知识。 ## 常见错误 **测试设计**:测试变更太小(不可检测)、测试太多(无法隔离)、无清晰假设、错误受众。 **执行**:提前停止、测试期间修改、不检查实施、流量分配不均。 **分析**:忽略置信区间、挑选细分、过度解释不确定结果、不考虑实际显著性。 ## 相关技能 page-cro、analytics-tracking、copywriting。