優秀郵件行銷計畫與卓越計畫之間的差距,很少源自某個單一的大創意,而是數百個小改進在數月乃至數年間不斷累積的結果。測試是發現這些改進的方式,優化則是將它們固化的方式。
測試什麼
並非所有內容都值得測試。將測試精力集中在對關鍵指標影響最大、且理想情況下能在未來發送中持續累積效益的變化上。
主旨列是最常被測試的元素,原因充分。但每次只測試一個變數。不要將帶有 emoji 的短主旨列與不帶 emoji 的長主旨列進行比較,因為你無法判斷是哪個變數造成了差異。在一次實驗中測試長度,在另一次中測試個人化,在另一次中測試疑問句與陳述句,在另一次中測試有無 emoji。
發送時間作為測試變數往往被低估。同一封郵件在早上 6 點與下午 2 點發送,結果可能截然不同。發送時間優化(STO)平台在個人層面自動化這一過程,但即使是簡單地測試早上與下午對你的使用者效果如何,也能發現顯著的機會。
CTA 是高影響力的測試對象。按鈕與文字連結、按鈕顏色、按鈕文案以及按鈕位置都會影響點擊率。一次帶來 10% 提升的 CTA 測試,將使此後所有使用該 CTA 格式的郵件受益。
內容與版面測試可以揭示你的使用者是否偏好長文還是短文郵件、以圖片為主還是以文字為主的版面,以及每次發送一個主題還是多個主題。
寄件人姓名是你能執行的價值最高的測試之一。由於寄件人姓名出現在你發送的每一封郵件中,即使寄件人姓名變更帶來的開信率小幅提升,也會在所有未來發送中持續累積。測試個人姓名、品牌名稱與「品牌中的某人」三種格式。
「簡陋郵件」測試。 將你精心設計的 HTML 範本與純文字版本進行比較,後者沒有圖片、沒有樣式,只有文字。我見過多個案例研究表明,在 B2B 情境中,純文字版本有時會顯著勝出。這令人謙遜,但這就是資料。
移除主視覺圖片。 多項案例研究表明,從郵件頂部移除大型主視覺圖片可以提高點擊率。郵件載入更快、看起來更個人化,CTA 也移至首屏以上。這值得針對你的使用者進行測試。
有無預覽文字的測試。 這是你能執行的風險最低、回報最高的測試之一。如果你目前沒有使用刻意設計的預覽文字,可以測試添加它的效果。資料始終顯示有所提升,而實施只需約 30 秒。
郵件長度。 用相同的優惠和 CTA,比較 100 字與 400 字的郵件。你可能發現較短的郵件產生更高的點擊率(CTA 前閱讀量更少),或者較長的郵件產生更高的轉換率(更多背景資訊激發更多購買欲望)。答案取決於你的使用者、優惠內容以及你所銷售產品的複雜程度。簡單產品往往受益於較短的文案,而複雜的高考量購買則往往受益於更多細節。
測試優先級框架: 按兩個因素對潛在測試進行排名:預期影響(這可以提升多少結果?)和複利效應(有多少未來發送會受益?)。同時具備高影響力和高複利效應的測試應始終優先。寄件人姓名、CTA 格式和郵件範本結構位居榜首。主旨列測試影響力高但複利效應低,因為每條主旨列都是獨特的。
統計顯著性
大多數行銷人員錯誤地執行 A/B 測試。他們在幾小時後查看結果,看到某個版本「正在獲勝」,便基於不完整的資料宣布獲勝者。這會導致實施實際上只是隨機雜訊的變更。
只有約七分之一的 A/B 測試能產生統計上顯著的獲勝者。 這意味著七分之六的測試以平局告終,任何版本都沒有明顯更好。這是正常的,說明你目前的大多數做法已經相當不錯,而重大突破往往在邊際處尋得。
樣本量指導原則:
對於小型列表(不足 5,000 名訂閱者),測試 20% 至 30% 的列表。由於總數較小,你需要更大的樣本比例。
對於中型列表(5,000 至 50,000),測試 15% 至 25%。
對於大型列表(50,000 以上),測試 10% 至 20%。可以使用較小比例,因為絕對數量足夠大,能夠達到顯著性。
可靠結果的等待時間:
對於開信率測試,2 小時的資料可以以 80% 以上的準確率預測獲勝者。大多數開信行為在投遞後的前 2 小時內發生。
對於基於收入的測試,讓測試執行整整一天以達到 90% 的準確率。收入需要更長時間才能體現,因為訂閱者需要點擊、瀏覽並最終購買。
始終在同一天同一時間發送兩個測試版本。 週二發送版本 A、週三發送版本 B,測試的不是你的變數,而是星期幾的影響。
使用顯著性計算工具。 不要憑眼力判斷。VWO 的 A/B 測試顯著性計算器、Evan Miller 的計算器或你的 ESP 內建顯著性指示器等工具,會告訴你結果是否具有統計可靠性。大多數計算器使用 95% 的信賴水準,意味著觀察到的差異有 5% 的機率是由隨機因素造成的。不要在信賴度低於 95% 時宣布獲勝者。
貝葉斯檢定與頻率主義檢定。 一些平台(包括 Klaviyo 和 Optimizely)使用貝葉斯統計而非傳統的頻率主義方法。貝葉斯檢定給出一個版本優於另一個版本的機率(例如,「版本 A 有 92% 的機率是獲勝者」),許多人認為這比 p 值和信賴區間更直觀。兩種方法都有效,重要的是你要選用其中一種,而不是靠猜測。
A/B 測試的意外發現
最具啟發性的測試結果,往往是那些沒人預料到的。
奧巴馬競選團隊的「Hey」主旨列比最接近的競爭對手多籌集了 250 萬美元,至今仍是被引用最多的例子。競選團隊的郵件組震驚了——他們以為隨意、個人化的主旨列不適合政治募款,但他們錯了。
負面主旨列可以勝過正面主旨列。「不要犯這個郵件錯誤」可以擊敗「如何改善你的郵件」。損失厭惡在發揮作用。
戴爾在產品郵件中測試了 GIF 與靜態圖片的效果。展示產品使用過程的動態 GIF 比靜態圖片多產生了 109% 的收入。啟示在於:展示產品實際使用效果,即使是簡單的動畫,也能幫助買家在腦海中構建擁有感。
從郵件中移除主視覺圖片,在多項有文獻記錄的案例研究中提高了開信到點擊的轉換率。設計團隊認為不可或缺的大型主視覺圖片,實際上可能是參與度的障礙。
添加預覽文字持續帶來約 5% 的開信率提升,是你能做出的最簡單、最可靠的改進之一。
或許最反直覺的發現是:降低郵件發送頻率有時反而增加總收入。原因何在?在於改善了收件匣投遞率。當你發送頻率較低但面向更活躍的收件人時,收件匣服務商會以更好的投遞位置回報你,而你實際發送的郵件也表現得明顯更好。多不等於好。需要注意的是:頻率變化應始終遵循參與度訊號、生命週期階段和訂閱者意圖,而不應作為通用槓桿隨意使用。對於較小的列表、高價商品、B2B 使用者,或正在從送達率問題中恢復的品牌,在沒有參與度管控的情況下增加發送頻率可能會適得其反。
多變量測試與 A/B 測試。 A/B 測試是在只改變一個變數的情況下比較兩個版本。多變量測試同時改變多個變數,並衡量不同組合的表現。多變量測試吸引人,因為理論上速度更快,可以同時測試很多內容。但實際上,由於流量被分散到更多變體中,達到顯著性所需的樣本量要大得多。對於大多數訂閱者不足 100,000 的郵件列表,堅持使用 A/B 測試即可。多變量測試只有在相當大的規模下才切實可行。
持續改進
沒有系統的測試只是隨機實驗。你需要一套流程。框架設置同樣重要:A/B 測試不僅僅是優化變數——它是結構化學習。每次測試都應從一個行為假設出發(不僅僅是「紅色能否擊敗藍色?」),使用與該假設相符的成功指標,並產生一個可應用於單次發送之外的經驗。樣本量太小、假設模糊的欠佳測試是在浪費時間。假設清晰、設計良好的測試則能累積複利式知識。
Jeanne Jennings 的系統化方法是我推薦的:分析當前表現以識別最薄弱的環節,提出改進假設,用適當的 A/B 測試驗證該假設,應用獲勝變體,然後重複。關鍵詞是系統化。每次測試都建立在前一次的經驗之上。
建立測試日曆。 Gavin Laugenie 提倡制定與業務問題掛鉤的季度測試計畫。不要為測試而測試。從一個問題出發:「我們的寄件人姓名是否影響了開信率?」或「較短的郵件是否會增加點擊率?」然後設計測試來回答它。將結果記錄在共享位置,使機構知識得以累積。
警惕過度測試。 如果你同時執行多項測試,或一次性改變過多變數,你將難以歸因結果,還可能使列表產生疲勞感。每次發送一個設計良好的測試就足夠了。
優化的複利效應才是真正價值所在。 歡迎系列開信率提升 2% 看似微不足道,但這一提升會影響從現在起直到你再次更改為止的每一位新訂閱者。在數千名訂閱者和數月的發送中,某個基礎流程提升 2% 會轉化為可觀的收入。
優先測試自動化流程而非行銷活動。 行銷活動測試只改進單次發送,流程測試則能改進從現在起經過該流程的每一次發送。如果測試資源有限,請將其集中在歡迎系列、棄購序列和購後跟進上。這些是你流量最大、價值最高的流程,改進效益可無限累積。
將一切記錄在測試日誌中。 至少記錄:測試內容、假設、各變體的樣本量、帶信賴水準的結果、日期以及決定實施的內容。隨著時間推移,這份日誌將成為你郵件行銷計畫中最有價值的資產之一。它能防止你重複測試已經測試過的內容,並揭示跨測試的規律,而這些規律是單個結果可能無法發現的。
發送時間優化
發送時間優化(STO)利用每位訂閱者過去的參與資料,預測投遞每封郵件的最佳時間。它不是在週二早上 10 點向整個列表群發,而是將每封郵件排隊至該訂閱者最有可能參與的時刻。
運作原理: 平台追蹤每位訂閱者歷史上何時開信和點擊郵件,建立訂閱者層級的參與模式模型(早起型、午休查看型、深夜瀏覽型),並據此安排投遞。對於參與資料不足的新訂閱者,平台通常在累積足夠的個人資料之前,以使用者層級的平均資料作為回退。
平台比較:
| 平台 | 功能 | 方法 |
|---|---|---|
| Klaviyo | 智慧發送時間 | 個人級 ML |
| Seventh Sense | AI 發送時間 | 深度聯絡人分析 |
| ActiveCampaign | 預測性發送 | 聯絡人層級模式 |
| Mailchimp | STO | 使用者層級(非個人層級) |
| Brevo | STO | 聯絡人層級預測 |
以下是對每個平台的詳細介紹:
Klaviyo 的智慧發送時間使用機器學習在個人訂閱者層面預測最佳投遞時間。大多數方案均可使用,在電子商務領域效果良好。
Seventh Sense 提供最深入的聯絡人層級分析,並與 HubSpot 和 Marketo 整合。是 B2B 和企業級的最複雜選項。
ActiveCampaign 的預測性發送構建聯絡人層級的模式並優化投遞時間。是中小型 B2B 的良好選擇。
Mailchimp 的發送時間優化在使用者層面而非個人層面運作。它為你的使用者整體尋找最佳時間,精確度較低,但仍優於猜測。
Brevo 的 STO 提供聯絡人層級的預測,包含在其行銷平台中。
效果: STO 通常帶來 5% 至 15% 的開信率提升。對於設定後無需額外工作的功能來說,這是相當可觀的提升。
STO 不適用的情況:
時間敏感的內容。如果你的郵件是關於 4 小時後結束的限時促銷,你無法在 24 小時內分批發出。某些郵件需要在特定時間送達。
不足 1,000 人的小型列表。模型需要足夠的資料來尋找規律。列表非常小時,預測結果不夠可靠,無法優於經驗性猜測。
交易性郵件。訂單確認、密碼重設和物流通知應即時送達。為「最佳參與時間」而延遲發送會讓客戶感到沮喪。
來自廣泛資料的一般時間規律:
早上 4 點至 6 點之間發送的郵件往往開信率最高,因為訂閱者醒來拿起手機時,這些郵件就在收件匣頂部。這並不意味著凌晨 4 點是你使用者的最佳發送時間,但這解釋了為什麼清晨發送往往優於午間發送。
週二和週四往往是 B2B 郵件表現最佳的日子。週一的收件匣因週末郵件堆積而擁擠,週五的注意力已轉向週末。工作日中段恰到好處。
對於 B2C 和電子商務,在某些垂直領域(時尚、美食、娛樂),週末實際上可以優於工作日,因為訂閱者有更多休閒瀏覽時間。
但真正的結論是:這些都是泛化規律。你的使用者具有特殊性。STO 工具之所以存在,是因為「最佳」發送時間不僅因使用者而異,還因個人而異。將這些一般性發現作為起點,然後讓資料和演算法從此處進行細化。
時區處理是發送時間優化常被遺忘的另一面。 如果你的使用者跨越多個時區(只要你有任何國際訂閱者,情況就是如此),在你所在時區的早上 10 點發送,意味著某些訂閱者在凌晨 3 點收到郵件。大多數 ESP 提供基於時區的發送功能,為每位訂閱者在相同的本地時間投遞。這沒有完整 STO 精確,但比一次性群發有顯著提升。對於全球分散的使用者,在考慮 STO 之前,時區發送是不可或缺的基礎。
建立測試文化
我所接觸過的最成功的郵件行銷計畫有一個共同特點:他們將每次發送視為學習機會,而不僅僅是廣播。他們問「我們學到了什麼?」的頻率與問「表現如何?」一樣多。
這意味著要在團隊能找到的地方記錄測試結果。這意味著要慶祝負面結果(了解某事無效本身就很有價值)。這意味著要專門為測試分配時間和發送量,而不是用以收入為導向的行銷活動填滿每個槽位。
將至少 20% 的行銷活動發送用於測試。不是每次測試都會產生獲勝者,但在一年的時間裡,湧現出的勝利將累積成一個比起點表現明顯更好的計畫。
跨團隊分享測試結果。 你的郵件測試洞察不存在於真空中。一次揭示使用者對負面框架反應更好的主旨列測試,對你的廣告文案、登陸頁面標題和產品資訊都有影響。一次顯示第一人稱文案優於第二人稱文案的 CTA 測試,適用於你撰寫行動號召的所有場合。郵件測試往往是了解使用者偏好最快、最便宜的方式,因為回饋循環極為緊密。
當測試未能產生獲勝者時。 無法定論的結果仍然是結果。它們告訴你所測試的變數對你的使用者影響不大,這讓你可以不再為此擔心,並將優化精力集中在其他地方。如果你測試了按鈕顏色,發現紅色和綠色之間沒有顯著差異,你現在知道按鈕顏色對你來說不是一個可調節的槓桿。繼續尋找真正有效的變數吧。
測試不是一個階段,而是一種實踐。