第 8 章：測試與優化

優秀郵件行銷計畫與卓越計畫之間的差距，很少源自某個單一的大創意，而是數百個小改進在數月乃至數年間不斷累積的結果。測試是發現這些改進的方式，優化則是將它們固化的方式。

測試什麼

並非所有內容都值得測試。將測試精力集中在對關鍵指標影響最大、且理想情況下能在未來發送中持續累積效益的變化上。

主旨列是最常被測試的元素，原因充分。但每次只測試一個變數。不要將帶有 emoji 的短主旨列與不帶 emoji 的長主旨列進行比較，因為你無法判斷是哪個變數造成了差異。在一次實驗中測試長度，在另一次中測試個人化，在另一次中測試疑問句與陳述句，在另一次中測試有無 emoji。

發送時間作為測試變數往往被低估。同一封郵件在早上 6 點與下午 2 點發送，結果可能截然不同。發送時間優化（STO）平台在個人層面自動化這一過程，但即使是簡單地測試早上與下午對你的使用者效果如何，也能發現顯著的機會。

CTA 是高影響力的測試對象。按鈕與文字連結、按鈕顏色、按鈕文案以及按鈕位置都會影響點擊率。一次帶來 10% 提升的 CTA 測試，將使此後所有使用該 CTA 格式的郵件受益。

內容與版面測試可以揭示你的使用者是否偏好長文還是短文郵件、以圖片為主還是以文字為主的版面，以及每次發送一個主題還是多個主題。

寄件人姓名是你能執行的價值最高的測試之一。由於寄件人姓名出現在你發送的每一封郵件中，即使寄件人姓名變更帶來的開信率小幅提升，也會在所有未來發送中持續累積。測試個人姓名、品牌名稱與「品牌中的某人」三種格式。

「簡陋郵件」測試。 將你精心設計的 HTML 範本與純文字版本進行比較，後者沒有圖片、沒有樣式，只有文字。我見過多個案例研究表明，在 B2B 情境中，純文字版本有時會顯著勝出。這令人謙遜，但這就是資料。

移除主視覺圖片。 多項案例研究表明，從郵件頂部移除大型主視覺圖片可以提高點擊率。郵件載入更快、看起來更個人化，CTA 也移至首屏以上。這值得針對你的使用者進行測試。

有無預覽文字的測試。 這是你能執行的風險最低、回報最高的測試之一。如果你目前沒有使用刻意設計的預覽文字，可以測試添加它的效果。資料始終顯示有所提升，而實施只需約 30 秒。

郵件長度。 用相同的優惠和 CTA，比較 100 字與 400 字的郵件。你可能發現較短的郵件產生更高的點擊率（CTA 前閱讀量更少），或者較長的郵件產生更高的轉換率（更多背景資訊激發更多購買欲望）。答案取決於你的使用者、優惠內容以及你所銷售產品的複雜程度。簡單產品往往受益於較短的文案，而複雜的高考量購買則往往受益於更多細節。

測試優先級框架： 按兩個因素對潛在測試進行排名：預期影響（這可以提升多少結果？）和複利效應（有多少未來發送會受益？）。同時具備高影響力和高複利效應的測試應始終優先。寄件人姓名、CTA 格式和郵件範本結構位居榜首。主旨列測試影響力高但複利效應低，因為每條主旨列都是獨特的。

統計顯著性

大多數行銷人員錯誤地執行 A/B 測試。他們在幾小時後查看結果，看到某個版本「正在獲勝」，便基於不完整的資料宣布獲勝者。這會導致實施實際上只是隨機雜訊的變更。

只有約七分之一的 A/B 測試能產生統計上顯著的獲勝者。 這意味著七分之六的測試以平局告終，任何版本都沒有明顯更好。這是正常的，說明你目前的大多數做法已經相當不錯，而重大突破往往在邊際處尋得。

樣本量指導原則：

對於小型列表（不足 5,000 名訂閱者），測試 20% 至 30% 的列表。由於總數較小，你需要更大的樣本比例。

對於中型列表（5,000 至 50,000），測試 15% 至 25%。

對於大型列表（50,000 以上），測試 10% 至 20%。可以使用較小比例，因為絕對數量足夠大，能夠達到顯著性。

可靠結果的等待時間：

對於開信率測試，2 小時的資料可以以 80% 以上的準確率預測獲勝者。大多數開信行為在投遞後的前 2 小時內發生。

對於基於收入的測試，讓測試執行整整一天以達到 90% 的準確率。收入需要更長時間才能體現，因為訂閱者需要點擊、瀏覽並最終購買。

始終在同一天同一時間發送兩個測試版本。 週二發送版本 A、週三發送版本 B，測試的不是你的變數，而是星期幾的影響。

使用顯著性計算工具。 不要憑眼力判斷。VWO 的 A/B 測試顯著性計算器、Evan Miller 的計算器或你的 ESP 內建顯著性指示器等工具，會告訴你結果是否具有統計可靠性。大多數計算器使用 95% 的信賴水準，意味著觀察到的差異有 5% 的機率是由隨機因素造成的。不要在信賴度低於 95% 時宣布獲勝者。

貝葉斯檢定與頻率主義檢定。 一些平台（包括 Klaviyo 和 Optimizely）使用貝葉斯統計而非傳統的頻率主義方法。貝葉斯檢定給出一個版本優於另一個版本的機率（例如，「版本 A 有 92% 的機率是獲勝者」），許多人認為這比 p 值和信賴區間更直觀。兩種方法都有效，重要的是你要選用其中一種，而不是靠猜測。

A/B 測試的意外發現

最具啟發性的測試結果，往往是那些沒人預料到的。

奧巴馬競選團隊的「Hey」主旨列比最接近的競爭對手多籌集了 250 萬美元，至今仍是被引用最多的例子。競選團隊的郵件組震驚了——他們以為隨意、個人化的主旨列不適合政治募款，但他們錯了。

負面主旨列可以勝過正面主旨列。「不要犯這個郵件錯誤」可以擊敗「如何改善你的郵件」。損失厭惡在發揮作用。

戴爾在產品郵件中測試了 GIF 與靜態圖片的效果。展示產品使用過程的動態 GIF 比靜態圖片多產生了 109% 的收入。啟示在於：展示產品實際使用效果，即使是簡單的動畫，也能幫助買家在腦海中構建擁有感。

從郵件中移除主視覺圖片，在多項有文獻記錄的案例研究中提高了開信到點擊的轉換率。設計團隊認為不可或缺的大型主視覺圖片，實際上可能是參與度的障礙。

添加預覽文字持續帶來約 5% 的開信率提升，是你能做出的最簡單、最可靠的改進之一。

或許最反直覺的發現是：降低郵件發送頻率有時反而增加總收入。原因何在？在於改善了收件匣投遞率。當你發送頻率較低但面向更活躍的收件人時，收件匣服務商會以更好的投遞位置回報你，而你實際發送的郵件也表現得明顯更好。多不等於好。需要注意的是：頻率變化應始終遵循參與度訊號、生命週期階段和訂閱者意圖，而不應作為通用槓桿隨意使用。對於較小的列表、高價商品、B2B 使用者，或正在從送達率問題中恢復的品牌，在沒有參與度管控的情況下增加發送頻率可能會適得其反。

多變量測試與 A/B 測試。 A/B 測試是在只改變一個變數的情況下比較兩個版本。多變量測試同時改變多個變數，並衡量不同組合的表現。多變量測試吸引人，因為理論上速度更快，可以同時測試很多內容。但實際上，由於流量被分散到更多變體中，達到顯著性所需的樣本量要大得多。對於大多數訂閱者不足 100,000 的郵件列表，堅持使用 A/B 測試即可。多變量測試只有在相當大的規模下才切實可行。

持續改進

沒有系統的測試只是隨機實驗。你需要一套流程。框架設置同樣重要：A/B 測試不僅僅是優化變數——它是結構化學習。每次測試都應從一個行為假設出發（不僅僅是「紅色能否擊敗藍色？」），使用與該假設相符的成功指標，並產生一個可應用於單次發送之外的經驗。樣本量太小、假設模糊的欠佳測試是在浪費時間。假設清晰、設計良好的測試則能累積複利式知識。

Jeanne Jennings 的系統化方法是我推薦的：分析當前表現以識別最薄弱的環節，提出改進假設，用適當的 A/B 測試驗證該假設，應用獲勝變體，然後重複。關鍵詞是系統化。每次測試都建立在前一次的經驗之上。

建立測試日曆。 Gavin Laugenie 提倡制定與業務問題掛鉤的季度測試計畫。不要為測試而測試。從一個問題出發：「我們的寄件人姓名是否影響了開信率？」或「較短的郵件是否會增加點擊率？」然後設計測試來回答它。將結果記錄在共享位置，使機構知識得以累積。

警惕過度測試。 如果你同時執行多項測試，或一次性改變過多變數，你將難以歸因結果，還可能使列表產生疲勞感。每次發送一個設計良好的測試就足夠了。

優化的複利效應才是真正價值所在。 歡迎系列開信率提升 2% 看似微不足道，但這一提升會影響從現在起直到你再次更改為止的每一位新訂閱者。在數千名訂閱者和數月的發送中，某個基礎流程提升 2% 會轉化為可觀的收入。

優先測試自動化流程而非行銷活動。 行銷活動測試只改進單次發送，流程測試則能改進從現在起經過該流程的每一次發送。如果測試資源有限，請將其集中在歡迎系列、棄購序列和購後跟進上。這些是你流量最大、價值最高的流程，改進效益可無限累積。

將一切記錄在測試日誌中。 至少記錄：測試內容、假設、各變體的樣本量、帶信賴水準的結果、日期以及決定實施的內容。隨著時間推移，這份日誌將成為你郵件行銷計畫中最有價值的資產之一。它能防止你重複測試已經測試過的內容，並揭示跨測試的規律，而這些規律是單個結果可能無法發現的。

發送時間優化

發送時間優化（STO）利用每位訂閱者過去的參與資料，預測投遞每封郵件的最佳時間。它不是在週二早上 10 點向整個列表群發，而是將每封郵件排隊至該訂閱者最有可能參與的時刻。

運作原理： 平台追蹤每位訂閱者歷史上何時開信和點擊郵件，建立訂閱者層級的參與模式模型（早起型、午休查看型、深夜瀏覽型），並據此安排投遞。對於參與資料不足的新訂閱者，平台通常在累積足夠的個人資料之前，以使用者層級的平均資料作為回退。

平台比較：

平台	功能	方法
Klaviyo	智慧發送時間	個人級 ML
Seventh Sense	AI 發送時間	深度聯絡人分析
ActiveCampaign	預測性發送	聯絡人層級模式
Mailchimp	STO	使用者層級（非個人層級）
Brevo	STO	聯絡人層級預測

以下是對每個平台的詳細介紹：

Klaviyo 的智慧發送時間使用機器學習在個人訂閱者層面預測最佳投遞時間。大多數方案均可使用，在電子商務領域效果良好。

Seventh Sense 提供最深入的聯絡人層級分析，並與 HubSpot 和 Marketo 整合。是 B2B 和企業級的最複雜選項。

ActiveCampaign 的預測性發送構建聯絡人層級的模式並優化投遞時間。是中小型 B2B 的良好選擇。

Mailchimp 的發送時間優化在使用者層面而非個人層面運作。它為你的使用者整體尋找最佳時間，精確度較低，但仍優於猜測。

Brevo 的 STO 提供聯絡人層級的預測，包含在其行銷平台中。

效果： STO 通常帶來 5% 至 15% 的開信率提升。對於設定後無需額外工作的功能來說，這是相當可觀的提升。

STO 不適用的情況：

時間敏感的內容。如果你的郵件是關於 4 小時後結束的限時促銷，你無法在 24 小時內分批發出。某些郵件需要在特定時間送達。

不足 1,000 人的小型列表。模型需要足夠的資料來尋找規律。列表非常小時，預測結果不夠可靠，無法優於經驗性猜測。

交易性郵件。訂單確認、密碼重設和物流通知應即時送達。為「最佳參與時間」而延遲發送會讓客戶感到沮喪。

來自廣泛資料的一般時間規律：

早上 4 點至 6 點之間發送的郵件往往開信率最高，因為訂閱者醒來拿起手機時，這些郵件就在收件匣頂部。這並不意味著凌晨 4 點是你使用者的最佳發送時間，但這解釋了為什麼清晨發送往往優於午間發送。

週二和週四往往是 B2B 郵件表現最佳的日子。週一的收件匣因週末郵件堆積而擁擠，週五的注意力已轉向週末。工作日中段恰到好處。

對於 B2C 和電子商務，在某些垂直領域（時尚、美食、娛樂），週末實際上可以優於工作日，因為訂閱者有更多休閒瀏覽時間。

但真正的結論是：這些都是泛化規律。你的使用者具有特殊性。STO 工具之所以存在，是因為「最佳」發送時間不僅因使用者而異，還因個人而異。將這些一般性發現作為起點，然後讓資料和演算法從此處進行細化。

時區處理是發送時間優化常被遺忘的另一面。 如果你的使用者跨越多個時區（只要你有任何國際訂閱者，情況就是如此），在你所在時區的早上 10 點發送，意味著某些訂閱者在凌晨 3 點收到郵件。大多數 ESP 提供基於時區的發送功能，為每位訂閱者在相同的本地時間投遞。這沒有完整 STO 精確，但比一次性群發有顯著提升。對於全球分散的使用者，在考慮 STO 之前，時區發送是不可或缺的基礎。

建立測試文化

我所接觸過的最成功的郵件行銷計畫有一個共同特點：他們將每次發送視為學習機會，而不僅僅是廣播。他們問「我們學到了什麼？」的頻率與問「表現如何？」一樣多。

這意味著要在團隊能找到的地方記錄測試結果。這意味著要慶祝負面結果（了解某事無效本身就很有價值）。這意味著要專門為測試分配時間和發送量，而不是用以收入為導向的行銷活動填滿每個槽位。

將至少 20% 的行銷活動發送用於測試。不是每次測試都會產生獲勝者，但在一年的時間裡，湧現出的勝利將累積成一個比起點表現明顯更好的計畫。

跨團隊分享測試結果。 你的郵件測試洞察不存在於真空中。一次揭示使用者對負面框架反應更好的主旨列測試，對你的廣告文案、登陸頁面標題和產品資訊都有影響。一次顯示第一人稱文案優於第二人稱文案的 CTA 測試，適用於你撰寫行動號召的所有場合。郵件測試往往是了解使用者偏好最快、最便宜的方式，因為回饋循環極為緊密。

當測試未能產生獲勝者時。 無法定論的結果仍然是結果。它們告訴你所測試的變數對你的使用者影響不大，這讓你可以不再為此擔心，並將優化精力集中在其他地方。如果你測試了按鈕顏色，發現紅色和綠色之間沒有顯著差異，你現在知道按鈕顏色對你來說不是一個可調節的槓桿。繼續尋找真正有效的變數吧。

測試不是一個階段，而是一種實踐。