---
name: ab-test-setup
description: "规划、设计或实施 A/B 测试或实验时使用。触发词：A/B test、split test、experiment、test this change、variant copy、multivariate test、hypothesis。追踪实施见 analytics-tracking。"
license: MIT
---

# A/B 测试设置

设计产生统计有效、可执行结果的测试。

## 前置了解

测试上下文（试图改进什么、考虑什么变更、为何想测试这个）；当前状态（基线转化率、当前流量、任何历史测试数据）；约束（技术实施复杂度、时间线要求、可用工具）。

## 原则

- **从假设开始**：非仅「看看会发生什么」，具体结果预测，基于推理或数据。  
- **一次测试一件事**：每测试单变量，否则不知道什么有效，MVT 留到后面。  
- **统计严谨**：预先确定样本量，不偷看并提前停止，承诺方法论。  
- **度量重要的**：与业务价值相关的主指标、用于上下文的次指标、防止伤害的护栏指标。

## 假设框架

结构：因为 [观察/数据]，我们相信 [变更] 会对 [受众] 导致 [预期结果]。当 [指标] 时我们知道这是真的。  
**好假设包括**：观察（什么促成了这个想法）、变更（具体修改）、效果（预期结果与方向）、受众（适用于谁）、指标（如何度量成功）。

## 测试类型

**A/B 测试（分割测试）**：两个版本：对照（A）vs 变体（B），版本间单一变更，最常见、最易分析。  
**A/B/n 测试**：多个变体（A vs B vs C...），需更多流量，适合测试多个选项。  
**多变量测试（MVT）**：组合中的多个变更，测试变更间交互，需显著更多流量，复杂分析。  
**分割 URL 测试**：变体不同 URL，适合主要页面变更，有时更易实施。

## 样本量计算

**需要输入**：基线转化率、最小可检测效应（MDE）、统计显著性水平（通常 95%）、统计功效（通常 80%）。  
**快速参考**：基线 1% 时，10% 提升需 150k/变体，20% 需 39k，50% 需 6k；基线 5% 时，10% 需 27k，20% 需 7k，50% 需 1.2k。  
**测试时长**：时长 = (每变体所需样本量 × 变体数) / (测试页每日流量 × 转化率)。最小：1-2 个业务周期（通常 1-2 周），最大：避免运行太久（新颖效应、外部因素）。

## 指标选择

**主指标**：单一最重要指标，直接与假设相关，用于判断测试。  
**次指标**：支持主指标解释、解释变更如何/为何有效、帮助理解用户行为。  
**护栏指标**：不应变差的事项（收入、留存、满意度），如显著负面则停止测试。  
**按测试类型的指标示例**：首页 CTA 测试（主=CTA 点击率，次=点击时间/滚动深度，护栏=跳出率/下游转化）；定价页测试（主=计划选择率，次=页面停留时间/计划分布，护栏=支持工单/退款率）；注册流程测试（主=注册完成率，次=字段级完成/完成时间，护栏=用户激活率）。

## 设计变体

**对照（A）**：当前体验，不变，测试期间不修改。  
**变体（B+）**：单一、有意义的变更、足够大胆以产生差异、忠于假设。  
**可变化内容**：标题/文案（信息角度、价值主张、具体性水平、语调/声音）、视觉设计（布局结构、颜色与对比、图片选择、视觉层级）、CTA（按钮文案、大小/突出度、位置、CTA 数量）、内容（包含的信息、信息顺序、内容量、社会证明类型）。

## 流量分配

**标准分割**：A/B 测试 50/50，多个变体等分。  
**保守推出**：初始 90/10 或 80/20，限制坏变体风险，达到显著性需更长时间。  
**逐步增加**：从小开始，随时间增加，适合技术风险缓解，大多数工具支持。  
**考虑**：一致性（用户返回时看到相同变体）、细分大小（确保细分足够大）、时间（天/周：平衡曝光）。

## 实施方法

**客户端测试**：工具如 PostHog、Optimizely、VWO、自定义；JavaScript 在加载后修改页面，快速实施，可能闪烁；适合营销页、文案/视觉变更、快速迭代。  
**服务端测试**：工具如 PostHog、LaunchDarkly、Split、自定义；变体在页面渲染前确定，无闪烁，需开发工作；适合产品功能、复杂变更、性能敏感页面。  
**功能标志**：二进制开/关（非真正 A/B），适合推出，可通过百分比分割转为 A/B。

## 运行测试

**启动前清单**：假设已记录、主指标已定义、样本量已计算、测试时长已估算、变体已正确实施、追踪已验证、所有变体 QA 已完成、利益相关者已通知。  
**测试期间**：监控技术问题、检查细分质量、记录任何外部因素；不要：偷看结果并提前停止、修改变体、从新来源添加流量、因为「知道」答案而提前结束。  
**偷看问题**：在达到样本量前查看结果并在看到显著性时停止导致：假阳性、膨胀效应大小、错误决策。解决方案：预先承诺样本量并坚持、如必须偷看使用序贯测试、信任流程。

## 分析结果

**统计显著性**：95% 置信度 = p 值 < 0.05，意味着<5% 结果是随机的，非保证—仅阈值。  
**实际显著性**：统计 ≠ 实际，效应大小对业务是否有意义？是否值得实施成本？是否可持续？  
**查看内容**：1) 是否达到样本量？2) 是否统计显著？3) 效应大小是否有意义？4) 次指标是否一致？5) 是否有护栏担忧？6) 是否有细分差异？  
**解释结果**：显著获胜者→实施变体；显著失败者→保留对照，学习原因；无显著差异→需更多流量或更大胆测试；混合信号→深入挖掘，可能细分。

## 文档与学习

**测试文档**：测试名称、ID、日期、所有者、假设、变体（对照与变体描述+截图）、结果（样本量、主指标、次指标、细分洞察）、决策（获胜者/失败者/不确定）、行动（正在做什么）、学习（学到了什么、下一步测试什么）。  
**建立学习库**：所有测试的中央位置、可按页面/元素/结果搜索、防止重新运行失败测试、建立机构知识。

## 常见错误

**测试设计**：测试变更太小（不可检测）、测试太多（无法隔离）、无清晰假设、错误受众。  
**执行**：提前停止、测试期间修改、不检查实施、流量分配不均。  
**分析**：忽略置信区间、挑选细分、过度解释不确定结果、不考虑实际显著性。

## 相关技能

page-cro、analytics-tracking、copywriting。