优秀邮件营销项目与卓越项目之间的差距,很少源自某个单一的大创意,而是数百个小改进在数月乃至数年间不断积累的结果。测试是发现这些改进的方式,优化则是将它们固化的方式。
测试什么
并非所有内容都值得测试。将测试精力集中在对关键指标影响最大、且理想情况下能在未来发送中持续积累效益的变化上。
主题行是最常被测试的元素,原因充分。但每次只测试一个变量。不要将带有 emoji 的短主题行与不带 emoji 的长主题行进行对比,因为你无法判断是哪个变量造成了差异。在一次实验中测试长度,在另一次中测试个性化,在另一次中测试疑问句与陈述句,在另一次中测试有无 emoji。
发送时间作为测试变量往往被低估。同一封邮件在早上 6 点与下午 2 点发送,结果可能截然不同。发送时间优化(STO)平台在个人层面自动化这一过程,但即使是简单地测试早上与下午对你的受众效果如何,也能发现显著的机会。
CTA 是高影响力的测试对象。按钮与文字链接、按钮颜色、按钮文案以及按钮位置都会影响点击率。一次带来 10% 提升的 CTA 测试,将使此后所有使用该 CTA 格式的邮件受益。
内容与版式测试可以揭示你的受众是否偏好长文还是短文邮件、以图片为主还是以文字为主的版式,以及每次发送一个主题还是多个主题。
发件人姓名是你能运行的价值最高的测试之一。由于发件人姓名出现在你发送的每一封邮件中,即使发件人姓名变更带来的打开率小幅提升,也会在所有未来发送中持续积累。测试个人姓名、品牌名称与"品牌中的某人"三种格式。
"简陋邮件"测试。 将你精心设计的 HTML 模板与纯文本版本进行对比,后者没有图片、没有样式,只有文字。我见过多个案例研究表明,在 B2B 场景中,纯文本版本有时会显著胜出。这令人谦逊,但这就是数据。
移除主视觉图片。 多项案例研究表明,从邮件顶部移除大型主视觉图片可以提高点击率。邮件加载更快、看起来更个人化,CTA 也移至首屏以上。这值得针对你的受众进行测试。
有无预览文字的测试。 这是你能运行的风险最低、回报最高的测试之一。如果你目前没有使用有意为之的预览文字,可以测试添加它的效果。数据始终显示有所提升,而实施只需约 30 秒。
邮件长度。 用相同的优惠和 CTA,对比 100 字与 400 字的邮件。你可能发现较短的邮件产生更高的点击率(CTA 前阅读量更少),或者较长的邮件产生更高的转化率(更多背景信息激发更多购买欲望)。答案取决于你的受众、优惠内容以及你所销售产品的复杂程度。简单产品往往受益于较短的文案,而复杂的高考量购买则往往受益于更多细节。
测试优先级框架: 按两个因素对潜在测试进行排名:预期影响(这可以提升多少结果?)和复利效应(有多少未来发送会受益?)。同时具备高影响力和高复利效应的测试应始终优先。发件人姓名、CTA 格式和邮件模板结构位居榜首。主题行测试影响力高但复利效应低,因为每条主题行都是独特的。
统计显著性
大多数营销人员错误地运行 A/B 测试。他们在几小时后查看结果,看到某个版本"正在获胜",便基于不完整的数据宣布获胜者。这会导致实施实际上只是随机噪音的变更。
只有约七分之一的 A/B 测试能产生统计上显著的获胜者。 这意味着七分之六的测试以平局告终,任何版本都没有明显更好。这是正常的,说明你目前的大多数做法已经相当不错,而重大突破往往在边际处寻得。
样本量指导原则:
对于小型列表(不足 5,000 名订阅者),测试 20% 至 30% 的列表。由于总数较小,你需要更大的样本比例。
对于中型列表(5,000 至 50,000),测试 15% 至 25%。
对于大型列表(50,000 以上),测试 10% 至 20%。可以使用较小比例,因为绝对数量足够大,能够达到显著性。
可靠结果的等待时间:
对于打开率测试,2 小时的数据可以以 80% 以上的准确率预测获胜者。大多数打开行为在投递后的前 2 小时内发生。
对于基于收入的测试,让测试运行整整一天以达到 90% 的准确率。收入需要更长时间才能体现,因为订阅者需要点击、浏览并最终购买。
始终在同一天同一时间发送两个测试版本。 周二发送版本 A、周三发送版本 B,测试的不是你的变量,而是星期几的影响。
使用显著性计算工具。 不要凭眼力判断。VWO 的 A/B 测试显著性计算器、Evan Miller 的计算器或你的 ESP 内置显著性指示器等工具,会告诉你结果是否具有统计可靠性。大多数计算器使用 95% 的置信水平,意味着观察到的差异有 5% 的概率是由随机因素造成的。不要在置信度低于 95% 时宣布获胜者。
贝叶斯检验与频率主义检验。 一些平台(包括 Klaviyo 和 Optimizely)使用贝叶斯统计而非传统的频率主义方法。贝叶斯检验给出一个版本优于另一个版本的概率(例如,"版本 A 有 92% 的概率是获胜者"),许多人认为这比 p 值和置信区间更直观。两种方法都有效,重要的是你要选用其中一种,而不是靠猜测。
A/B 测试的意外发现
最具启发性的测试结果,往往是那些没人预料到的。
奥巴马竞选团队的"Hey"主题行比最接近的竞争对手多筹集了 250 万美元,至今仍是被引用最多的例子。竞选团队的邮件组震惊了——他们以为随意、个人化的主题行不适合政治募捐,但他们错了。
负面主题行可以胜过正面主题行。"不要犯这个邮件错误"可以击败"如何改善你的邮件"。损失厌恶在发挥作用。
戴尔在产品邮件中测试了 GIF 与静态图片的效果。展示产品使用过程的动态 GIF 比静态图片多产生了 109% 的收入。启示在于:展示产品实际使用效果,即使是简单的动画,也能帮助买家在脑海中构建拥有感。
从邮件中移除主视觉图片,在多项有文献记录的案例研究中提高了打开到点击的转化率。设计团队认为不可或缺的大型主视觉图片,实际上可能是参与度的障碍。
添加预览文字持续带来约 5% 的打开率提升,是你能做出的最简单、最可靠的改进之一。
或许最反直觉的发现是:降低邮件发送频率有时反而增加总收入。原因何在?在于改善了收件箱投递率。当你发送频率较低但面向更活跃的收件人时,收件箱服务商会以更好的投递位置回报你,而你实际发送的邮件也表现得明显更好。多不等于好。需要注意的是:频率变化应始终遵循参与度信号、生命周期阶段和订阅者意图,而不应作为通用杠杆随意使用。对于较小的列表、高价商品、B2B 受众,或正在从送达率问题中恢复的品牌,在没有参与度管控的情况下增加发送频率可能会适得其反。
多变量测试与 A/B 测试。 A/B 测试是在只改变一个变量的情况下比较两个版本。多变量测试同时改变多个变量,并衡量不同组合的表现。多变量测试吸引人,因为理论上速度更快,可以同时测试很多内容。但实际上,由于流量被分散到更多变体中,达到显著性所需的样本量要大得多。对于大多数订阅者不足 100,000 的邮件列表,坚持使用 A/B 测试即可。多变量测试只有在相当大的规模下才切实可行。
持续改进
没有系统的测试只是随机实验。你需要一套流程。框架设置同样重要:A/B 测试不仅仅是优化变量——它是结构化学习。每次测试都应从一个行为假设出发(不仅仅是"红色能否击败蓝色?"),使用与该假设相符的成功指标,并产生一个可应用于单次发送之外的经验。样本量太小、假设模糊的欠佳测试是在浪费时间。假设清晰、设计良好的测试则能积累复利式知识。
Jeanne Jennings 的系统化方法是我推荐的:分析当前表现以识别最薄弱的环节,提出改进假设,用适当的 A/B 测试验证该假设,应用获胜变体,然后重复。关键词是系统化。每次测试都建立在前一次的经验之上。
建立测试日历。 Gavin Laugenie 提倡制定与业务问题挂钩的季度测试计划。不要为测试而测试。从一个问题出发:"我们的发件人姓名是否影响了打开率?"或"较短的邮件是否会增加点击率?"然后设计测试来回答它。将结果记录在共享位置,使机构知识得以积累。
警惕过度测试。 如果你同时运行多项测试,或一次性改变过多变量,你将难以归因结果,还可能使列表产生疲劳感。每次发送一个设计良好的测试就足够了。
优化的复利效应才是真正价值所在。 欢迎系列打开率提升 2% 看似微不足道,但这一提升会影响从现在起直到你再次更改为止的每一位新订阅者。在数千名订阅者和数月的发送中,某个基础流程提升 2% 会转化为可观的收入。
优先测试自动化流程而非营销活动。 营销活动测试只改进单次发送,流程测试则能改进从现在起经过该流程的每一次发送。如果测试资源有限,请将其集中在欢迎系列、弃购序列和购后跟进上。这些是你流量最大、价值最高的流程,改进效益可无限累积。
将一切记录在测试日志中。 至少记录:测试内容、假设、各变体的样本量、带置信水平的结果、日期以及决定实施的内容。随着时间推移,这份日志将成为你邮件营销项目中最有价值的资产之一。它能防止你重复测试已经测试过的内容,并揭示跨测试的规律,而这些规律是单个结果可能无法发现的。
发送时间优化
发送时间优化(STO)利用每位订阅者过去的参与数据,预测投递每封邮件的最佳时间。它不是在周二早上 10 点向整个列表群发,而是将每封邮件排队至该订阅者最有可能参与的时刻。
工作原理: 平台追踪每位订阅者历史上何时打开和点击邮件,建立订阅者级别的参与模式模型(早起型、午休查看型、深夜浏览型),并据此安排投递。对于参与数据不足的新订阅者,平台通常在积累足够的个人数据之前,以受众级别的平均数据作为回退。
平台对比:
| 平台 | 功能 | 方法 |
|---|---|---|
| Klaviyo | 智能发送时间 | 个人级 ML |
| Seventh Sense | AI 发送时间 | 深度联系人分析 |
| ActiveCampaign | 预测性发送 | 联系人级别模式 |
| Mailchimp | STO | 受众级别(非个人级别) |
| Brevo | STO | 联系人级别预测 |
以下是对每个平台的详细介绍:
Klaviyo 的智能发送时间使用机器学习在个人订阅者层面预测最佳投递时间。大多数套餐均可使用,在电商领域效果良好。
Seventh Sense 提供最深入的联系人级别分析,并与 HubSpot 和 Marketo 集成。是 B2B 和企业级的最复杂选项。
ActiveCampaign 的预测性发送构建联系人级别的模式并优化投递时间。是中小型 B2B 的良好选择。
Mailchimp 的发送时间优化在受众层面而非个人层面运作。它为你的受众整体寻找最佳时间,精确度较低,但仍优于猜测。
Brevo 的 STO 提供联系人级别的预测,包含在其营销平台中。
效果: STO 通常带来 5% 至 15% 的打开率提升。对于设置后无需额外工作的功能来说,这是相当可观的提升。
STO 不适用的情况:
时间敏感的内容。如果你的邮件是关于 4 小时后结束的限时促销,你无法在 24 小时内分批发出。某些邮件需要在特定时间送达。
不足 1,000 人的小型列表。模型需要足够的数据来寻找规律。列表非常小时,预测结果不够可靠,无法优于经验性猜测。
事务性邮件。订单确认、密码重置和物流通知应即时送达。为"最佳参与时间"而延迟发送会让客户感到沮丧。
来自广泛数据的一般时间规律:
早上 4 点至 6 点之间发送的邮件往往打开率最高,因为订阅者醒来拿起手机时,这些邮件就在收件箱顶部。这并不意味着凌晨 4 点是你受众的最佳发送时间,但这解释了为什么清晨发送往往优于午间发送。
周二和周四往往是 B2B 邮件表现最佳的日子。周一的收件箱因周末邮件堆积而拥挤,周五的注意力已转向周末。工作日中段恰到好处。
对于 B2C 和电商,在某些垂直领域(时尚、美食、娱乐),周末实际上可以优于工作日,因为订阅者有更多休闲浏览时间。
但真正的结论是:这些都是泛化规律。你的受众具有特殊性。STO 工具之所以存在,是因为"最佳"发送时间不仅因受众而异,还因个人而异。将这些一般性发现作为起点,然后让数据和算法从此处进行细化。
时区处理是发送时间优化常被遗忘的另一面。 如果你的受众跨越多个时区(只要你有任何国际订阅者,情况就是如此),在你所在时区的早上 10 点发送,意味着某些订阅者在凌晨 3 点收到邮件。大多数 ESP 提供基于时区的发送功能,为每位订阅者在相同的本地时间投递。这没有完整 STO 精确,但比一次性群发有显著提升。对于全球分散的受众,在考虑 STO 之前,时区发送是必不可少的基础。
建立测试文化
我所接触过的最成功的邮件营销项目有一个共同特点:他们将每次发送视为学习机会,而不仅仅是广播。他们问"我们学到了什么?"的频率与问"表现如何?"一样多。
这意味着要在团队能找到的地方记录测试结果。这意味着要庆祝负面结果(了解某事无效本身就很有价值)。这意味着要专门为测试分配时间和发送量,而不是用以收入为导向的营销活动填满每个槽位。
将至少 20% 的营销活动发送用于测试。不是每次测试都会产生获胜者,但在一年的时间里,涌现出的胜利将积累成一个比起点表现明显更好的项目。
跨团队分享测试结果。 你的邮件测试洞察不存在于真空中。一次揭示受众对负面框架反应更好的主题行测试,对你的广告文案、落地页标题和产品信息都有影响。一次显示第一人称文案优于第二人称文案的 CTA 测试,适用于你撰写行动号召的所有场景。邮件测试往往是了解受众偏好最快、最便宜的方式,因为反馈循环极为紧密。
当测试未能产生获胜者时。 无法定论的结果仍然是结果。它们告诉你所测试的变量对你的受众影响不大,这让你可以不再为此担心,并将优化精力集中在其他地方。如果你测试了按钮颜色,发现红色和绿色之间没有显著差异,你现在知道按钮颜色对你来说不是一个可调节的杠杆。继续寻找真正有效的变量吧。
测试不是一个阶段,而是一种实践。