第8章：テストと最適化

優れたメールプログラムと卓越したメールプログラムの違いは、ほとんどの場合、単一の大きなアイデアにあるわけではありません。数か月から数年にわたって積み重なった、何百もの小さな改善によるものです。テストはそれらの改善を発見する方法であり、最適化はそれらを定着させる方法です。

テストする対象

すべてをテストする価値があるわけではありません。テストの努力を、主要な指標に最も大きな影響を与える変更、そして理想的には将来の送信にわたって効果が積み重なるような変更に集中させましょう。

件名は最もよくテストされる要素であり、それには十分な理由があります。しかし、一度に一つの変数をテストしましょう。絵文字付きの短い件名と、絵文字なしの長い件名を比べてはいけません。どの変数が違いを引き起こしたのかわからなくなります。一つの実験で長さをテストし、別の実験でパーソナライゼーションをテストし、さらに別の実験で疑問文vs.平叙文をテストし、また別の実験で絵文字の有無をテストしましょう。

送信時刻はテスト変数として過小評価されています。同じメールでも、午前6時に送るか午後2時に送るかで、結果が劇的に異なることがあります。Send Time Optimisation（STO）プラットフォームはこれを個人レベルで自動化しますが、あなたのオーディエンスに対して朝と午後を単純に比較するだけでも、大きな機会を見出せることがあります。

CTAは高インパクトなテスト候補です。ボタン対テキストリンク、ボタンの色、ボタンのコピー、ボタンの位置はいずれもクリック率に影響します。10%の改善をもたらすCTAテストは、以後そのCTA形式を使用するすべてのメールに利益をもたらします。

コンテンツとレイアウトのテストにより、オーディエンスが長文と短文のメールのどちらを好むか、画像重視か文字重視のレイアウトか、また一回の送信でトピックが一つか複数かのどちらを好むかが明らかになります。

送信者名は実施できる中で最も価値の高いテストの一つです。送信者名はすべてのメールに表示されるため、送信者名の変更による開封率のわずかな改善も、将来のすべての送信に積み重なっていきます。個人名vs.ブランド名vs.「ブランドの担当者名」形式でテストしましょう。

「シンプルなメール」テスト。 美しくデザインされたHTMLテンプレートを、画像なし、スタイルなし、文字だけのプレーンテキスト版と比較テストしましょう。B2Bの文脈でプレーンテキスト版が勝ることを示す複数のケーススタディを見てきました。時には大差で。謙虚な気持ちになりますが、それがデータです。

ヒーロー画像の削除。 いくつかのケーススタディで、メールの上部から大きなヒーロー画像を削除するとクリック率が向上することが示されています。メールの読み込みが速くなり、よりパーソナルな印象になり、CTAがファーストビューに上がります。あなたのオーディエンスでテストする価値があります。

プレヘッダーテキストの有無。 これはリスクが最も低く、リターンが最も高いテストの一つです。現在、意図的なプレビューテキストを使用していない場合は、追加してテストしましょう。データは一貫してリフトを示しており、実装は約30秒で完了します。

メールの長さ。 同じオファーとCTAで、100語のメールと400語のメールを比較テストしましょう。短いメールの方がクリック率が高い（CTAまで読む量が少ない）か、長いメールの方がコンバージョン率が高い（コンテキストが多いほど欲求が高まる）かがわかるかもしれません。答えはオーディエンス、オファー、そして販売するものの複雑さによって異なります。シンプルな製品は短いコピーから恩恵を受ける傾向があります。複雑で検討期間の長い購入は、より多くの詳細から恩恵を受ける傾向があります。

テスト優先度フレームワーク： 潜在的なテストを二つの要素でランク付けしましょう：期待される影響（どれだけ結果を改善できるか？）と複利効果（いくつの将来の送信が恩恵を受けるか？）。高い影響と高い複利効果を持つテストは常に優先されるべきです。送信者名、CTAフォーマット、メールテンプレート構造がそのリストのトップに来ます。件名テストは高い影響を持ちますが、各件名はユニークなため複利効果は低いです。

統計的有意性

ほとんどのマーケターはA/Bテストを誤って実施しています。数時間後に結果を確認し、一方のバージョンが「勝っている」と見て、不完全なデータに基づいて勝者を宣言してしまいます。これにより、実際にはランダムなノイズに過ぎなかった変更を実装することになります。

A/Bテストで統計的に有意な勝者が生まれるのは約7分の1だけです。 つまり7分の6のテストは、どちらのバージョンも有意に優れていない引き分けに終わります。これは正常です。現在のやり方のほとんどはすでに十分優れており、大きな勝利は周辺部で見つかるということを意味します。

サンプルサイズのガイドライン：

小規模リスト（5,000人未満のサブスクライバー）の場合、リストの20〜30%をテストしましょう。総数が少ないため、より大きなサンプル比率が必要です。

中規模リスト（5,000〜50,000人）の場合、15〜25%をテストしましょう。

大規模リスト（50,000人以上）の場合、10〜20%をテストしましょう。絶対数が有意性に十分なほど大きいため、より小さな比率で済みます。

信頼できる結果のための待機時間：

開封率テストの場合、2時間分のデータで80%以上の精度で勝者を予測できます。ほとんどの開封は配信後最初の2時間以内に起きます。

収益ベースのテストの場合、90%の精度を達成するには丸一日テストを実施しましょう。サブスクライバーがクリックし、ブラウジングし、最終的に購入するまで時間がかかるため、収益は顕在化するまでに時間がかかります。

同じ日の同じ時間に両方のテストバージョンを必ず送信しましょう。 火曜日にバージョンAを送り、水曜日にバージョンBを送ることは、変数をテストしていません。曜日をテストしているのです。

有意性計算ツールを使いましょう。 目視で判断しないでください。VWOのA/Bテスト有意性計算ツール、Evan Millerの計算ツール、またはESPの内蔵有意性インジケーターなどのツールが、結果が統計的に信頼できるかどうかを教えてくれます。ほとんどの計算ツールは95%の信頼水準を使用しており、観察された差がランダムな偶然による確率が5%しかないことを意味します。95%の信頼度未満で勝者を宣言しないでください。

ベイズ検定 vs 頻度主義検定。 一部のプラットフォーム（KlaviyoとOptimizelyを含む）は従来の頻度主義の方法ではなくベイズ統計を使用しています。ベイズ検定は一方のバージョンが他方より優れている確率を示します（例：「バージョンAは92%の確率で勝者です」）。これはp値や信頼区間よりも直感的だと感じる人が多いです。どちらのアプローチも有効です。重要なのは、推測するのではなく、どちらかを使用することです。

A/Bテストの意外な発見

最も示唆に富んだテスト結果の中には、誰も予想しなかったものがあります。

オバマキャンペーンの「Hey」という件名が最も近い競合より250万ドル多く集めたのは、最もよく引用される例です。キャンペーンのメールチームは衝撃を受けました。彼らはカジュアルで個人的な件名が政治的な資金調達には機能しないと思っていました。彼らは間違っていました。

ネガティブな件名はポジティブな件名を上回ることがあります。「メールでこのミスをしないで」は「メールを改善する方法」に勝てることがあります。損失回避が機能しているのです。

Dellは製品メールでGIF対静止画像をテストしました。製品の使用中を見せるアニメーションGIFは静止画像より109%多くの収益を生み出しました。教訓：製品が実際に使われている様子を見せることで、たとえ簡単なアニメーションでも、購入者が所有感を視覚化しやすくなります。

メールからヒーロー画像を削除すると、複数の記録されたケーススタディで開封からクリックへの率が向上しました。デザインチームにとって必須と思える大きなヒーロー画像が、実際にはエンゲージメントの障壁になっている可能性があります。

プレビューテキストを追加すると、開封率が一貫して約5%向上します。これは最もシンプルで信頼できる改善の一つです。

おそらく最も反直感的な発見：メール送信頻度を下げると、総収益が増加することがあります。なぜでしょう？受信トレイへの配置が改善されるからです。頻度を下げながらもより熱心な受信者に送ると、受信トレイプロバイダーがより良い配置で報いてくれ、実際に送るメールのパフォーマンスが大幅に向上します。多ければ多いほど良いわけではありません。注意点：頻度の変更は常にエンゲージメントシグナル、ライフサイクルステージ、サブスクライバーの意図に従うべきであり、汎用的なレバーとして適用すべきではありません。小規模リスト、高単価製品、B2Bオーディエンス、またはメール到達率の問題から回復しているブランドにとって、エンゲージメントコントロールなしに頻度を上げると逆効果になる可能性があります。

多変量テスト vs A/Bテスト。 A/Bテストは一つの変数を変えた二つのバージョンを比較します。多変量テストは複数の変数を同時に変更し、異なる組み合わせのパフォーマンスを測定します。多変量テストは理論上は多くのことを一度にテストできるため、より速いという魅力があります。しかし実際には、より多くのバリアントにトラフィックを分散させるため、有意性に達するには非常に大きなサンプルサイズが必要です。100,000人未満のほとんどのメールリストでは、A/Bテストにとどめましょう。多変量テストは大規模スケールでのみ実用的になります。

継続的改善

システムのないテストはランダムな実験にすぎません。プロセスが必要です。そして正しいフレーミングが重要です：A/Bテストは変数を最適化するだけでなく、構造化された学習です。すべてのテストは行動的な仮定から始まるべきで（「赤が青に勝てるか？」というだけでなく）、その仮定に合った成功指標を使用し、個々の送信を超えて適用できる学びを生み出すべきです。小さなサンプルと漠然とした仮説でパワーが不足したテストは時間を無駄にします。明確な仮説を持つよく設計されたテストは複利的な知識を構築します。

Jeanne Jenningsのシステマティックなアプローチが私の推奨です：現在のパフォーマンスを分析して最も弱いリンクを特定し、何が改善できるかについての仮説を立て、適切なA/Bテストでその仮説をテストし、勝者のバリアントを適用して繰り返します。重要な言葉はシステマティックです。各テストは前のテストの学びに基づいて構築されます。

テストカレンダーを作りましょう。 Gavin Laugenie は、ビジネスの問いに結びついた四半期ごとのテスト計画を提唱しています。テストのためだけにテストしないでください。「送信者名が開封数を失わせているか？」または「短いメールはクリック数を増やすか？」という問いから始めましょう。次に、それに答えるためのテストを設計します。結果を共有の場所に記録して、組織の知識が積み重なるようにしましょう。

過度なテストに注意しましょう。 複数のテストを同時に実施したり、一度に多くの変数を変更したりすると、結果の帰属が難しくなり、リストを疲弊させるリスクがあります。一回の送信につき一つのよく設計されたテストで十分です。

最適化の複利効果こそが本当の価値が宿る場所です。 ウェルカムシリーズの開封率の2%の改善は些細に見えるかもしれません。しかしその改善は、再び変更するまでの今後のすべての新規サブスクライバーに影響します。何千人ものサブスクライバーと何ヶ月もの送信にわたって、基礎的なフローの2%の改善は意義ある収益に変換されます。

キャンペーンよりも自動化フローのテストを優先しましょう。 キャンペーンテストは一つの送信を改善します。フローテストはそれ以降のそのフローを通じるすべての送信を改善します。テストキャパシティが限られている場合、ウェルカムシリーズ、カゴ落ちシーケンス、購入後フォローアップに集中しましょう。これらはあなたの最もボリュームが高く価値の高いフローであり、改善は無期限に積み重なります。

テストログにすべてを記録しましょう。 最低限、記録するのは：テストした内容、仮説、各バリアントのサンプルサイズ、信頼水準を含む結果、日付、実装すると決めたこと。時間が経つにつれ、このログはメールプログラムの最も価値ある資産の一つになります。既にテストしたことを再テストすることを防ぎ、個別の結果では見逃すかもしれないテスト全体のパターンを明らかにします。

Send Time Optimisation

Send Time Optimisation（STO）は、各サブスクライバーの過去のエンゲージメントに関するデータを使用して、各メールを配信する最適な時間を予測します。火曜日の午前10時にリスト全体に一斉送信する代わりに、STOは各サブスクライバーが最もエンゲージする可能性が高い瞬間に配信をキューに入れます。

仕組み： プラットフォームは各サブスクライバーが歴史的にいつメールを開封してクリックしたかを追跡します。サブスクライバーごとのエンゲージメントパターンのモデル（早起きの人、昼休みのチェッカー、夜更かしブラウザー）を構築し、それに応じて配信をキューに入れます。エンゲージメントデータが不十分な新規サブスクライバーについては、十分な個人データが蓄積されるまで、プラットフォームは通常、オーディエンスレベルの平均値にフォールバックします。

プラットフォーム比較：

プラットフォーム	機能	方法
Klaviyo	Smart Send Time	個人単位のML
Seventh Sense	AI Send Time	連絡先ごとの深い分析
ActiveCampaign	Predictive Sending	連絡先ごとのパターン
Mailchimp	STO	オーディエンスレベル（個人ではない）
Brevo	STO	連絡先ごとの予測

各プラットフォームの詳細：

KlaviyoのSmart Send Timeは機械学習を使用して、個々のサブスクライバーレベルで最適な配信を予測します。ほとんどのプランで利用でき、eコマースに適しています。

Seventh SenseはHubSpotとMarketoと統合する最も深い連絡先ごとの分析を提供します。B2Bとエンタープライズ向けの最も洗練されたオプションです。

ActiveCampaignのPredictive Sendingは連絡先ごとのパターンを構築し、配信タイミングを最適化します。中小規模B2Bに適したオプションです。

MailchimpのSend Time Optimisationは個人レベルではなく、オーディエンスレベルで機能します。オーディエンス全体にとって最適な時間を見つけます。精度は低いですが、推測よりは良いです。

BrevoのSTOは連絡先ごとの予測を提供し、マーケティングプラットフォームに含まれています。

結果： STOは通常、開封率で5〜15%の改善をもたらします。設定後は追加作業ゼロという機能にとって、これは大きなリフトです。

STOが役に立たない場合：

時間的に敏感なコンテンツ。メールが4時間で終わるフラッシュセールについてであれば、24時間かけて配信することはできません。特定の時刻に届く必要があるメッセージがあります。

1,000人未満の小規模リスト。モデルはパターンを見つけるのに十分なデータが必要です。非常に小さなリストでは、予測は情報に基づいた推測を上回るほど信頼できません。

トランザクションメール。注文確認、パスワードリセット、配送通知は即座に届くべきです。「最適なエンゲージメント時間」のために遅らせることは顧客をいらだたせるでしょう。

広範なデータからの一般的なタイミングの知見：

午前4時から6時の間に送信されたメールは、サブスクライバーが目覚めて電話をチェックする際に受信トレイのトップにあるため、最も高い開封率を示す傾向があります。これは午前4時があなたのオーディエンスに適した送信時刻であることを意味しません。しかし、早朝の送信が昼間の送信を上回ることが多い理由を説明しています。

B2Bメールでは、火曜日と木曜日が最もパフォーマンスが高い傾向があります。月曜日の受信トレイは週末からいっぱいです。金曜日の注意はすでに週末に向いています。週の中間がスイートスポットです。

B2CとeコマースでFは、特定の業種（ファッション、食品、エンターテイメント）では、サブスクライバーがより多くの余暇ブラウジング時間を持つため、週末が平日を実際に上回ることがあります。

しかし、本当の結論は：これらは一般化です。あなたのオーディエンスは特定のものです。STOツールが存在するのは、「最良の」送信時刻がオーディエンスによって異なるだけでなく、個人によっても異なるためです。一般的な知見を出発点として使用し、そこからデータとアルゴリズムに精緻化させましょう。

タイムゾーン処理は送信時刻最適化のよく忘れられる側面です。 オーディエンスが複数のタイムゾーンにまたがっている場合（国際的なサブスクライバーがいれば、確実にそうです）、あなたのタイムゾーンで午前10時に送信するということは、一部のサブスクライバーが午前3時に受信することを意味します。ほとんどのESPは、各サブスクライバーに同じ現地時間で配信するタイムゾーンベースの送信を提供しています。完全なSTOほど精密ではありませんが、一斉送信よりも大きなステップアップです。グローバルに分散したオーディエンスにとって、STOを検討する前に、タイムゾーン送信は最低限の取り組みです。

テスト文化の構築

私が関わってきた最も成功したメールプログラムに共通するのは、すべての送信をただの放送ではなく学習機会として扱うことです。「パフォーマンスはどうだったか？」と同じくらい頻繁に「何を学んだか？」と問います。

これは、チームが見つけられる場所にテスト結果を記録することを意味します。否定的な結果を祝うことを意味します（何かが機能しないとわかることも価値がある）。収益重視のキャンペーンですべてのスロットを埋める代わりに、テストのために時間と送信を具体的に確保することを意味します。

キャンペーン送信の少なくとも20%を何かのテストに費やしましょう。すべてのテストが勝者を生み出すわけではありません。しかし一年の間に、生まれた勝利は、始めた時よりも意義深く優れたプログラムに積み重なるでしょう。

テスト結果をチーム全体で共有しましょう。 メールテストの洞察は真空の中に存在しません。オーディエンスがネガティブなフレーミングにより良く反応することを明らかにした件名テストは、広告コピー、ランディングページの見出し、製品メッセージングに影響します。一人称のコピーが二人称を上回ることを示すCTAテストは、あらゆる行動喚起を書く場所で適用されます。メールテストは、フィードバックループが非常に緊密なため、オーディエンスの好みを学ぶ最も速く、最も安価な方法であることが多いです。

テストで勝者が生まれない場合。 決定的でない結果も結果です。テストした変数がオーディエンスにとってあまり重要でないことを教えてくれます。それによって、それについて心配するのをやめ、最適化エネルギーを他のところに集中できます。ボタンの色をテストして赤と緑の間に有意な差がないとわかれば、ボタンの色はあなたにとってレバーではないとわかります。何かそれになるものに移りましょう。

テストはフェーズではありません。それは実践です。