第 8 章：测试与优化

优秀邮件营销项目与卓越项目之间的差距，很少源自某个单一的大创意，而是数百个小改进在数月乃至数年间不断积累的结果。测试是发现这些改进的方式，优化则是将它们固化的方式。

测试什么

并非所有内容都值得测试。将测试精力集中在对关键指标影响最大、且理想情况下能在未来发送中持续积累效益的变化上。

主题行是最常被测试的元素，原因充分。但每次只测试一个变量。不要将带有 emoji 的短主题行与不带 emoji 的长主题行进行对比，因为你无法判断是哪个变量造成了差异。在一次实验中测试长度，在另一次中测试个性化，在另一次中测试疑问句与陈述句，在另一次中测试有无 emoji。

发送时间作为测试变量往往被低估。同一封邮件在早上 6 点与下午 2 点发送，结果可能截然不同。发送时间优化（STO）平台在个人层面自动化这一过程，但即使是简单地测试早上与下午对你的受众效果如何，也能发现显著的机会。

CTA 是高影响力的测试对象。按钮与文字链接、按钮颜色、按钮文案以及按钮位置都会影响点击率。一次带来 10% 提升的 CTA 测试，将使此后所有使用该 CTA 格式的邮件受益。

内容与版式测试可以揭示你的受众是否偏好长文还是短文邮件、以图片为主还是以文字为主的版式，以及每次发送一个主题还是多个主题。

发件人姓名是你能运行的价值最高的测试之一。由于发件人姓名出现在你发送的每一封邮件中，即使发件人姓名变更带来的打开率小幅提升，也会在所有未来发送中持续积累。测试个人姓名、品牌名称与"品牌中的某人"三种格式。

"简陋邮件"测试。 将你精心设计的 HTML 模板与纯文本版本进行对比，后者没有图片、没有样式，只有文字。我见过多个案例研究表明，在 B2B 场景中，纯文本版本有时会显著胜出。这令人谦逊，但这就是数据。

移除主视觉图片。 多项案例研究表明，从邮件顶部移除大型主视觉图片可以提高点击率。邮件加载更快、看起来更个人化，CTA 也移至首屏以上。这值得针对你的受众进行测试。

有无预览文字的测试。 这是你能运行的风险最低、回报最高的测试之一。如果你目前没有使用有意为之的预览文字，可以测试添加它的效果。数据始终显示有所提升，而实施只需约 30 秒。

邮件长度。 用相同的优惠和 CTA，对比 100 字与 400 字的邮件。你可能发现较短的邮件产生更高的点击率（CTA 前阅读量更少），或者较长的邮件产生更高的转化率（更多背景信息激发更多购买欲望）。答案取决于你的受众、优惠内容以及你所销售产品的复杂程度。简单产品往往受益于较短的文案，而复杂的高考量购买则往往受益于更多细节。

测试优先级框架： 按两个因素对潜在测试进行排名：预期影响（这可以提升多少结果？）和复利效应（有多少未来发送会受益？）。同时具备高影响力和高复利效应的测试应始终优先。发件人姓名、CTA 格式和邮件模板结构位居榜首。主题行测试影响力高但复利效应低，因为每条主题行都是独特的。

统计显著性

大多数营销人员错误地运行 A/B 测试。他们在几小时后查看结果，看到某个版本"正在获胜"，便基于不完整的数据宣布获胜者。这会导致实施实际上只是随机噪音的变更。

只有约七分之一的 A/B 测试能产生统计上显著的获胜者。 这意味着七分之六的测试以平局告终，任何版本都没有明显更好。这是正常的，说明你目前的大多数做法已经相当不错，而重大突破往往在边际处寻得。

样本量指导原则：

对于小型列表（不足 5,000 名订阅者），测试 20% 至 30% 的列表。由于总数较小，你需要更大的样本比例。

对于中型列表（5,000 至 50,000），测试 15% 至 25%。

对于大型列表（50,000 以上），测试 10% 至 20%。可以使用较小比例，因为绝对数量足够大，能够达到显著性。

可靠结果的等待时间：

对于打开率测试，2 小时的数据可以以 80% 以上的准确率预测获胜者。大多数打开行为在投递后的前 2 小时内发生。

对于基于收入的测试，让测试运行整整一天以达到 90% 的准确率。收入需要更长时间才能体现，因为订阅者需要点击、浏览并最终购买。

始终在同一天同一时间发送两个测试版本。 周二发送版本 A、周三发送版本 B，测试的不是你的变量，而是星期几的影响。

使用显著性计算工具。 不要凭眼力判断。VWO 的 A/B 测试显著性计算器、Evan Miller 的计算器或你的 ESP 内置显著性指示器等工具，会告诉你结果是否具有统计可靠性。大多数计算器使用 95% 的置信水平，意味着观察到的差异有 5% 的概率是由随机因素造成的。不要在置信度低于 95% 时宣布获胜者。

贝叶斯检验与频率主义检验。 一些平台（包括 Klaviyo 和 Optimizely）使用贝叶斯统计而非传统的频率主义方法。贝叶斯检验给出一个版本优于另一个版本的概率（例如，"版本 A 有 92% 的概率是获胜者"），许多人认为这比 p 值和置信区间更直观。两种方法都有效，重要的是你要选用其中一种，而不是靠猜测。

A/B 测试的意外发现

最具启发性的测试结果，往往是那些没人预料到的。

奥巴马竞选团队的"Hey"主题行比最接近的竞争对手多筹集了 250 万美元，至今仍是被引用最多的例子。竞选团队的邮件组震惊了——他们以为随意、个人化的主题行不适合政治募捐，但他们错了。

负面主题行可以胜过正面主题行。"不要犯这个邮件错误"可以击败"如何改善你的邮件"。损失厌恶在发挥作用。

戴尔在产品邮件中测试了 GIF 与静态图片的效果。展示产品使用过程的动态 GIF 比静态图片多产生了 109% 的收入。启示在于：展示产品实际使用效果，即使是简单的动画，也能帮助买家在脑海中构建拥有感。

从邮件中移除主视觉图片，在多项有文献记录的案例研究中提高了打开到点击的转化率。设计团队认为不可或缺的大型主视觉图片，实际上可能是参与度的障碍。

添加预览文字持续带来约 5% 的打开率提升，是你能做出的最简单、最可靠的改进之一。

或许最反直觉的发现是：降低邮件发送频率有时反而增加总收入。原因何在？在于改善了收件箱投递率。当你发送频率较低但面向更活跃的收件人时，收件箱服务商会以更好的投递位置回报你，而你实际发送的邮件也表现得明显更好。多不等于好。需要注意的是：频率变化应始终遵循参与度信号、生命周期阶段和订阅者意图，而不应作为通用杠杆随意使用。对于较小的列表、高价商品、B2B 受众，或正在从送达率问题中恢复的品牌，在没有参与度管控的情况下增加发送频率可能会适得其反。

多变量测试与 A/B 测试。 A/B 测试是在只改变一个变量的情况下比较两个版本。多变量测试同时改变多个变量，并衡量不同组合的表现。多变量测试吸引人，因为理论上速度更快，可以同时测试很多内容。但实际上，由于流量被分散到更多变体中，达到显著性所需的样本量要大得多。对于大多数订阅者不足 100,000 的邮件列表，坚持使用 A/B 测试即可。多变量测试只有在相当大的规模下才切实可行。

持续改进

没有系统的测试只是随机实验。你需要一套流程。框架设置同样重要：A/B 测试不仅仅是优化变量——它是结构化学习。每次测试都应从一个行为假设出发（不仅仅是"红色能否击败蓝色？"），使用与该假设相符的成功指标，并产生一个可应用于单次发送之外的经验。样本量太小、假设模糊的欠佳测试是在浪费时间。假设清晰、设计良好的测试则能积累复利式知识。

Jeanne Jennings 的系统化方法是我推荐的：分析当前表现以识别最薄弱的环节，提出改进假设，用适当的 A/B 测试验证该假设，应用获胜变体，然后重复。关键词是系统化。每次测试都建立在前一次的经验之上。

建立测试日历。 Gavin Laugenie 提倡制定与业务问题挂钩的季度测试计划。不要为测试而测试。从一个问题出发："我们的发件人姓名是否影响了打开率？"或"较短的邮件是否会增加点击率？"然后设计测试来回答它。将结果记录在共享位置，使机构知识得以积累。

警惕过度测试。 如果你同时运行多项测试，或一次性改变过多变量，你将难以归因结果，还可能使列表产生疲劳感。每次发送一个设计良好的测试就足够了。

优化的复利效应才是真正价值所在。 欢迎系列打开率提升 2% 看似微不足道，但这一提升会影响从现在起直到你再次更改为止的每一位新订阅者。在数千名订阅者和数月的发送中，某个基础流程提升 2% 会转化为可观的收入。

优先测试自动化流程而非营销活动。 营销活动测试只改进单次发送，流程测试则能改进从现在起经过该流程的每一次发送。如果测试资源有限，请将其集中在欢迎系列、弃购序列和购后跟进上。这些是你流量最大、价值最高的流程，改进效益可无限累积。

将一切记录在测试日志中。 至少记录：测试内容、假设、各变体的样本量、带置信水平的结果、日期以及决定实施的内容。随着时间推移，这份日志将成为你邮件营销项目中最有价值的资产之一。它能防止你重复测试已经测试过的内容，并揭示跨测试的规律，而这些规律是单个结果可能无法发现的。

发送时间优化

发送时间优化（STO）利用每位订阅者过去的参与数据，预测投递每封邮件的最佳时间。它不是在周二早上 10 点向整个列表群发，而是将每封邮件排队至该订阅者最有可能参与的时刻。

工作原理： 平台追踪每位订阅者历史上何时打开和点击邮件，建立订阅者级别的参与模式模型（早起型、午休查看型、深夜浏览型），并据此安排投递。对于参与数据不足的新订阅者，平台通常在积累足够的个人数据之前，以受众级别的平均数据作为回退。

平台对比：

平台	功能	方法
Klaviyo	智能发送时间	个人级 ML
Seventh Sense	AI 发送时间	深度联系人分析
ActiveCampaign	预测性发送	联系人级别模式
Mailchimp	STO	受众级别（非个人级别）
Brevo	STO	联系人级别预测

以下是对每个平台的详细介绍：

Klaviyo 的智能发送时间使用机器学习在个人订阅者层面预测最佳投递时间。大多数套餐均可使用，在电商领域效果良好。

Seventh Sense 提供最深入的联系人级别分析，并与 HubSpot 和 Marketo 集成。是 B2B 和企业级的最复杂选项。

ActiveCampaign 的预测性发送构建联系人级别的模式并优化投递时间。是中小型 B2B 的良好选择。

Mailchimp 的发送时间优化在受众层面而非个人层面运作。它为你的受众整体寻找最佳时间，精确度较低，但仍优于猜测。

Brevo 的 STO 提供联系人级别的预测，包含在其营销平台中。

效果： STO 通常带来 5% 至 15% 的打开率提升。对于设置后无需额外工作的功能来说，这是相当可观的提升。

STO 不适用的情况：

时间敏感的内容。如果你的邮件是关于 4 小时后结束的限时促销，你无法在 24 小时内分批发出。某些邮件需要在特定时间送达。

不足 1,000 人的小型列表。模型需要足够的数据来寻找规律。列表非常小时，预测结果不够可靠，无法优于经验性猜测。

事务性邮件。订单确认、密码重置和物流通知应即时送达。为"最佳参与时间"而延迟发送会让客户感到沮丧。

来自广泛数据的一般时间规律：

早上 4 点至 6 点之间发送的邮件往往打开率最高，因为订阅者醒来拿起手机时，这些邮件就在收件箱顶部。这并不意味着凌晨 4 点是你受众的最佳发送时间，但这解释了为什么清晨发送往往优于午间发送。

周二和周四往往是 B2B 邮件表现最佳的日子。周一的收件箱因周末邮件堆积而拥挤，周五的注意力已转向周末。工作日中段恰到好处。

对于 B2C 和电商，在某些垂直领域（时尚、美食、娱乐），周末实际上可以优于工作日，因为订阅者有更多休闲浏览时间。

但真正的结论是：这些都是泛化规律。你的受众具有特殊性。STO 工具之所以存在，是因为"最佳"发送时间不仅因受众而异，还因个人而异。将这些一般性发现作为起点，然后让数据和算法从此处进行细化。

时区处理是发送时间优化常被遗忘的另一面。 如果你的受众跨越多个时区（只要你有任何国际订阅者，情况就是如此），在你所在时区的早上 10 点发送，意味着某些订阅者在凌晨 3 点收到邮件。大多数 ESP 提供基于时区的发送功能，为每位订阅者在相同的本地时间投递。这没有完整 STO 精确，但比一次性群发有显著提升。对于全球分散的受众，在考虑 STO 之前，时区发送是必不可少的基础。

建立测试文化

我所接触过的最成功的邮件营销项目有一个共同特点：他们将每次发送视为学习机会，而不仅仅是广播。他们问"我们学到了什么？"的频率与问"表现如何？"一样多。

这意味着要在团队能找到的地方记录测试结果。这意味着要庆祝负面结果（了解某事无效本身就很有价值）。这意味着要专门为测试分配时间和发送量，而不是用以收入为导向的营销活动填满每个槽位。

将至少 20% 的营销活动发送用于测试。不是每次测试都会产生获胜者，但在一年的时间里，涌现出的胜利将积累成一个比起点表现明显更好的项目。

跨团队分享测试结果。 你的邮件测试洞察不存在于真空中。一次揭示受众对负面框架反应更好的主题行测试，对你的广告文案、落地页标题和产品信息都有影响。一次显示第一人称文案优于第二人称文案的 CTA 测试，适用于你撰写行动号召的所有场景。邮件测试往往是了解受众偏好最快、最便宜的方式，因为反馈循环极为紧密。

当测试未能产生获胜者时。 无法定论的结果仍然是结果。它们告诉你所测试的变量对你的受众影响不大，这让你可以不再为此担心，并将优化精力集中在其他地方。如果你测试了按钮颜色，发现红色和绿色之间没有显著差异，你现在知道按钮颜色对你来说不是一个可调节的杠杆。继续寻找真正有效的变量吧。

测试不是一个阶段，而是一种实践。