Kapitel 8: Testing und Optimierung

Der Unterschied zwischen einem guten E-Mail-Programm und einem hervorragenden liegt selten in einer einzigen großen Idee. Es sind Hunderte kleiner Verbesserungen, die sich über Monate und Jahre hinweg kumulieren. Testing ist der Weg, wie Sie diese Verbesserungen finden. Optimierung ist der Weg, wie Sie sie festigen.

Was zu testen ist

Nicht alles ist es wert, getestet zu werden. Konzentrieren Sie Ihren Testaufwand auf Änderungen, die den größten Einfluss auf Ihre Kernkennzahlen haben und idealerweise bei zukünftigen Versendungen weiter wirken.

Betreffzeilen sind das am häufigsten getestete Element, und das aus gutem Grund. Testen Sie aber immer nur eine Variable auf einmal. Testen Sie nicht eine kurze Betreffzeile mit Emoji gegen eine lange ohne. Sie werden nicht wissen, welche Variable den Unterschied verursacht hat. Testen Sie die Länge in einem Experiment. Personalisierung in einem anderen. Frage vs. Aussage in einem weiteren. Emoji vs. kein Emoji in einem anderen.

Versandzeit wird als Testvariable unterschätzt. Dieselbe E-Mail, um 6 Uhr vs. 14 Uhr versendet, kann dramatisch unterschiedliche Ergebnisse liefern. Send Time Optimisation (STO)-Plattformen automatisieren dies auf individueller Ebene, aber selbst ein einfacher Test von Morgen vs. Nachmittag für Ihre Zielgruppe kann signifikante Möglichkeiten aufzeigen.

CTAs sind Testkandidaten mit hoher Wirkung. Schaltfläche vs. Textlink, Schaltflächenfarbe, Schaltflächentext und Schaltflächenposition beeinflussen alle die Klickraten. Ein CTA-Test, der eine 10%ige Verbesserung erzielt, kommt jeder E-Mail zugute, die dieses CTA-Format künftig verwendet.

Inhalts- und Layout-Tests zeigen, ob Ihre Zielgruppe Long-Form- oder Short-Form-E-Mails, bild- oder textlastige Layouts sowie ein oder mehrere Themen pro Versendung bevorzugt.

Absendername ist einer der wertvollsten Tests, die Sie durchführen können. Da der Absendername bei jeder E-Mail erscheint, die Sie versenden, summiert sich selbst eine geringe Verbesserung der Öffnungsrate durch eine Änderung des Absendernamens über alle zukünftigen Versendungen. Testen Sie persönlichen Namen vs. Markenname vs. „Person bei Marke"-Format.

Der „hässliche E-Mail"-Test. Nehmen Sie Ihre aufwendig gestaltete HTML-Vorlage und testen Sie sie gegen eine Nur-Text-Version ohne Bilder, ohne Styling, nur Text. Ich habe mehrere Fallstudien gesehen, in denen die Nur-Text-Version in B2B-Kontexten gewonnen hat, manchmal deutlich. Es ist ernüchternd, aber es sind Daten.

Das Hero-Bild entfernen. Mehrere Fallstudien haben gezeigt, dass das Entfernen des großen Hero-Bildes oben in einer E-Mail die Klickraten verbessert. Die E-Mail lädt schneller, wirkt persönlicher und der CTA rückt über die Falz. Es lohnt sich, dies für Ihre Zielgruppe zu testen.

Preheader-Text vs. kein Preheader-Text. Dies ist einer der risikoärmsten Tests mit dem höchsten Ertrag, den Sie durchführen können. Wenn Sie derzeit keinen absichtlichen Vorschautext verwenden, testen Sie, ob das Hinzufügen etwas bringt. Die Daten zeigen konsistent einen Anstieg, und die Implementierung dauert etwa 30 Sekunden.

E-Mail-Länge. Testen Sie eine 100-Wörter-E-Mail gegen eine 400-Wörter-E-Mail mit demselben Angebot und CTA. Möglicherweise stellen Sie fest, dass kürzere E-Mails höhere Klickraten erzeugen (weniger zu lesen vor dem CTA) oder dass längere E-Mails höhere Konversionsraten erzielen (mehr Kontext weckt mehr Interesse). Die Antwort hängt von Ihrer Zielgruppe, Ihrem Angebot und der Komplexität dessen ab, was Sie verkaufen. Einfache Produkte profitieren tendenziell von kürzerem Text. Komplexe, hochpreisige Käufe profitieren tendenziell von mehr Detail.

Priorisierungs-Framework für Tests: Ordnen Sie potenzielle Tests nach zwei Faktoren: erwartetem Einfluss (wie viel könnte dies die Ergebnisse verbessern?) und Kumulierungseffekt (wie viele zukünftige Versendungen werden davon profitieren?). Tests mit sowohl hohem Einfluss als auch hohem Kumulierungseffekt sollten immer priorisiert werden. Absendername, CTA-Format und E-Mail-Vorlagenstruktur stehen ganz oben auf dieser Liste. Betreffzeilentests haben hohen Einfluss, aber geringen Kumulierungseffekt, da jede Betreffzeile einzigartig ist.

Statistische Signifikanz

Die meisten Marketer führen A/B-Tests falsch durch. Sie überprüfen die Ergebnisse nach wenigen Stunden, sehen, dass eine Version „gewinnt", und erklären einen Gewinner auf Basis unvollständiger Daten. Dies führt dazu, dass Änderungen implementiert werden, die eigentlich nur zufälliges Rauschen waren.

Nur etwa 1 von 7 A/B-Tests liefert einen statistisch signifikanten Gewinner. Das bedeutet, dass 6 von 7 Tests mit einem Unentschieden enden, bei dem keine Version bedeutend besser ist. Das ist normal. Es bedeutet, dass die meisten Ihrer aktuellen Praktiken bereits ziemlich gut sind und große Gewinne an den Rändern gefunden werden.

Stichprobengrößen-Richtlinien:

Für kleine Listen (unter 5.000 Abonnenten) testen Sie 20 bis 30 % Ihrer Liste. Sie benötigen einen größeren Stichprobenanteil, da die Gesamtzahlen klein sind.

Für mittlere Listen (5.000 bis 50.000) testen Sie 15 bis 25 %.

Für große Listen (50.000+) testen Sie 10 bis 20 %. Sie können einen kleineren Anteil verwenden, da die absoluten Zahlen groß genug für Signifikanz sind.

Wartezeiten für zuverlässige Ergebnisse:

Für Öffnungsratentests sagt 2 Stunden Daten den Gewinner mit über 80%iger Genauigkeit voraus. Die meisten Öffnungen erfolgen innerhalb der ersten 2 Stunden nach der Zustellung.

Für umsatzbasierte Tests lassen Sie den Test einen ganzen Tag laufen, um 90 % Genauigkeit zu erreichen. Umsatz braucht länger, um sich zu materialisieren, da Abonnenten klicken, stöbern und schließlich kaufen.

Senden Sie immer beide Testversionen gleichzeitig am selben Tag. Version A am Dienstag und Version B am Mittwoch zu senden, testet nicht Ihre Variable. Es testet den Wochentag.

Verwenden Sie einen Signifikanz-Rechner. Schätzen Sie es nicht ab. Tools wie der A/B-Test-Signifikanzrechner von VWO, Evan Millers Rechner oder der eingebaute Signifikanzindikator Ihres ESP werden Ihnen mitteilen, ob Ihr Ergebnis statistisch zuverlässig ist. Die meisten Rechner verwenden ein Konfidenzlevel von 95 %, was bedeutet, dass nur eine 5%ige Chance besteht, dass der beobachtete Unterschied auf Zufall zurückzuführen ist. Erklären Sie keinen Gewinner unter 95 % Konfidenz.

Bayesianische vs. frequentistische Tests. Einige Plattformen (darunter Klaviyo und Optimizely) verwenden Bayesianische Statistik statt traditioneller frequentistischer Methoden. Bayesianisches Testen gibt Ihnen eine Wahrscheinlichkeit, dass eine Version besser ist als die andere (z. B. „Version A hat eine 92%ige Wahrscheinlichkeit, der Gewinner zu sein"), was viele Menschen intuitiver finden als p-Werte und Konfidenzintervalle. Beide Ansätze sind gültig. Entscheidend ist, dass Sie einen davon verwenden, anstatt zu raten.

A/B-Test-Überraschungen

Einige der lehrreichsten Testergebnisse sind diejenigen, die niemand erwartet hat.

Die „Hey"-Betreffzeile der Obama-Kampagne, die 2,5 Millionen Dollar mehr einbrachte als ihr nächster Konkurrent, bleibt das meistzitierte Beispiel. Das E-Mail-Team der Kampagne war schockiert. Sie gingen davon aus, dass informelle, persönliche Betreffzeilen für die politische Spendensammlung nicht funktionieren würden. Sie lagen falsch.

Negative Betreffzeilen können positive übertreffen. „Machen Sie diesen Fehler mit Ihrer E-Mail nicht" kann „So verbessern Sie Ihre E-Mail" schlagen. Verlustaversion in Aktion.

Dell testete ein GIF vs. ein statisches Bild in einer Produkt-E-Mail. Das animierte GIF, das das Produkt in Verwendung zeigte, generierte 109 % mehr Umsatz als das statische Bild. Die Lektion: Ein Produkt in Aktion zu zeigen, selbst in einer einfachen Animation, hilft dem Käufer, sich den Besitz vorzustellen.

Das Entfernen von Hero-Bildern aus E-Mails hat in mehreren dokumentierten Fallstudien die Öffnungs-zu-Klick-Raten verbessert. Das große Hero-Bild, das dem Designteam essenziell erscheint, kann tatsächlich eine Barriere für Engagement darstellen.

Das Hinzufügen von Vorschautext liefert konsistent etwa 5 % höhere Öffnungsraten. Es ist eine der einfachsten und zuverlässigsten Verbesserungen, die Sie vornehmen können.

Vielleicht die kontraintuitivste Erkenntnis: Eine Reduzierung der E-Mail-Frequenz erhöht manchmal den Gesamtumsatz. Warum? Durch Verbesserung der Posteingangsplatzierung. Wenn Sie weniger häufig, aber an engagiertere Empfänger senden, belohnen Posteingangsanbieter Sie mit besserer Platzierung, und die E-Mails, die Sie tatsächlich senden, performen deutlich besser. Mehr ist nicht immer mehr. Ein Vorbehalt: Frequenzänderungen sollten immer auf Engagement-Signale, Lebenszyklusphasen und Abonnentenabsicht folgen – nicht als universeller Hebel angewendet werden. Für kleinere Listen, hochpreisige Produkte, B2B-Zielgruppen oder Marken, die sich von Zustellbarkeitsproblemen erholen, kann das Erhöhen der Frequenz ohne Engagement-Kontrollen nach hinten losgehen.

Multivariate Tests vs. A/B-Tests. A/B-Tests vergleichen zwei Versionen mit einer geänderten Variablen. Multivariate Tests ändern mehrere Variablen gleichzeitig und messen, wie verschiedene Kombinationen abschneiden. Multivariate Tests sind verlockend, da sie theoretisch schneller sind und viele Dinge auf einmal testen. In der Praxis erfordern sie viel größere Stichprobengrößen, um Signifikanz zu erreichen, da Sie den Traffic auf viele weitere Varianten aufteilen. Für die meisten E-Mail-Listen unter 100.000 bleiben Sie bei A/B-Tests. Multivariate Tests werden erst bei bedeutender Skalierung praktisch.

Kontinuierliche Verbesserung

Testen ohne System ist nur zufällige Experimentierung. Sie brauchen einen Prozess. Und die richtige Einstellung ist wichtig: A/B-Tests geht nicht nur darum, Variablen zu optimieren – es ist strukturiertes Lernen. Jeder Test sollte mit einer Verhaltensannahme beginnen (nicht nur „Wird Rot Blau schlagen?"), Erfolgsmetriken verwenden, die auf diese Annahme abgestimmt sind, und ein Lernprinzip produzieren, das Sie über den einzelnen Versand hinaus anwenden können. Unterstärkte Tests mit winzigen Stichproben und vagen Hypothesen verschwenden Zeit. Gut gestaltete Tests mit klaren Hypothesen bauen kumulierendes Wissen auf.

Jeanne Jennings' systematischer Ansatz ist der, den ich empfehlen würde: Analysieren Sie Ihre aktuelle Performance, um das schwächste Glied zu identifizieren, bilden Sie eine Hypothese darüber, was es verbessern könnte, testen Sie diese Hypothese mit einem ordentlichen A/B-Test, wenden Sie die gewinnende Variante an, und wiederholen Sie. Das Schlüsselwort ist systematisch. Jeder Test baut auf den Erkenntnissen des vorherigen auf.

Erstellen Sie einen Testkalender. Gavin Laugenie befürwortet vierteljährliche Testpläne, die an Geschäftsfragen geknüpft sind. Testen Sie nicht um des Testens willen. Beginnen Sie mit einer Frage: „Kostet uns unser Absendername Öffnungen?" oder „Würde eine kürzere E-Mail die Klicks erhöhen?" Dann entwerfen Sie einen Test, um sie zu beantworten. Dokumentieren Sie Ergebnisse an einem gemeinsamen Ort, damit institutionelles Wissen sich ansammelt.

Vorsicht vor Übertesten. Wenn Sie mehrere Tests gleichzeitig durchführen oder zu viele Variablen auf einmal ändern, werden Sie Schwierigkeiten haben, Ergebnisse zuzuordnen, und riskieren, Ihre Liste zu ermüden. Ein gut konzipierter Test pro Versendung ist genug.

Der Kumulierungseffekt der Optimierung ist dort, wo der eigentliche Wert liegt. Eine 2%ige Verbesserung der Öffnungsrate Ihrer Willkommensserie mag trivial erscheinen. Aber diese Verbesserung betrifft jeden einzelnen neuen Abonnenten von jetzt an, bis Sie sie wieder ändern. Über Tausende von Abonnenten und Monate des Versendens hinweg führt eine 2%ige Verbesserung in einem grundlegenden Flow zu bedeutenden Umsätzen.

Priorisieren Sie das Testen Ihrer automatisierten Flows gegenüber Kampagnen. Kampagnentests verbessern eine einzelne Versendung. Flow-Tests verbessern jede Versendung durch diesen Flow von jetzt an. Wenn Sie begrenzte Testkapazitäten haben, konzentrieren Sie sich auf Ihre Willkommensserie, Ihre Warenkorb-Abbruchsequenz und Ihr Post-Purchase-Follow-up. Dies sind Ihre Flows mit dem höchsten Volumen und dem höchsten Wert, und Verbesserungen kumulieren sich unbegrenzt.

Dokumentieren Sie alles in einem Testprotokoll. Mindestens zeichnen Sie auf: was Sie getestet haben, die Hypothese, Stichprobengrößen für jede Variante, Ergebnisse mit Konfidenzlevel, das Datum und was Sie entschieden haben zu implementieren. Im Laufe der Zeit wird dieses Protokoll zu einem der wertvollsten Assets in Ihrem E-Mail-Programm. Es verhindert, dass Sie Dinge erneut testen, die Sie bereits getestet haben, und es enthüllt Muster über Tests hinweg, die individuelle Ergebnisse möglicherweise verfehlen.

Send Time Optimisation

Send Time Optimisation (STO) nutzt Daten über das vergangene Engagement jedes Abonnenten, um den optimalen Zeitpunkt für die Zustellung jeder E-Mail vorherzusagen. Anstatt Ihre gesamte Liste um 10 Uhr am Dienstag zu verschicken, stellt STO jede E-Mail für den Moment in die Warteschlange, in dem der jeweilige Abonnent am wahrscheinlichsten interagieren wird.

So funktioniert es: Die Plattform verfolgt, wann jeder Abonnent historisch E-Mails geöffnet und angeklickt hat. Sie erstellt ein Engagement-Muster-Modell pro Abonnent (Morgenmensch, Mittagsprüfer, Nacht-Browser) und stellt die Zustellung entsprechend in die Warteschlange. Für neue Abonnenten mit unzureichenden Engagement-Daten greift die Plattform typischerweise auf zielgruppenübergreifende Durchschnittswerte zurück, bis genug individuelle Daten gesammelt wurden.

Plattformvergleich:

Plattform	Funktion	Methode
Klaviyo	Smart Send Time	ML pro Individuum
Seventh Sense	AI Send Time	Tiefe Pro-Kontakt-Analyse
ActiveCampaign	Predictive Sending	Pro-Kontakt-Muster
Mailchimp	STO	Zielgruppenebene (nicht individuell)
Brevo	STO	Pro-Kontakt-Vorhersage

Hier ist mehr Kontext zu jedem:

Klaviyos Smart Send Time verwendet maschinelles Lernen, um eine optimale Zustellung auf individueller Abonnenten-Ebene vorherzusagen. Es ist bei den meisten Tarifen verfügbar und funktioniert gut für E-Commerce.

Seventh Sense bietet die tiefste Pro-Kontakt-Analyse und integriert sich mit HubSpot und Marketo. Es ist die ausgefeilteste Option für B2B und Enterprise.

ActiveCampaigns Predictive Sending erstellt Pro-Kontakt-Muster und optimiert den Zustellungszeitpunkt. Gute Option für kleine bis mittlere B2B-Unternehmen.

Mailchimps Send Time Optimisation funktioniert auf Zielgruppenebene, nicht auf individueller Ebene. Es findet die beste Zeit für Ihre gesamte Zielgruppe, was weniger präzise ist, aber immer noch besser als Raten.

Brevos STO bietet Pro-Kontakt-Vorhersagen und ist in ihrer Marketing-Plattform enthalten.

Ergebnisse: STO liefert typischerweise eine Verbesserung der Öffnungsrate um 5 bis 15 %. Das ist ein erheblicher Anstieg für eine Funktion, die nach der Einrichtung keine zusätzliche Arbeit erfordert.

Wann STO nicht hilft:

Zeitkritische Inhalte. Wenn Ihre E-Mail über einen Flash-Sale handelt, der in 4 Stunden endet, können Sie sie nicht über 24 Stunden verteilen. Einige Nachrichten müssen zu einem bestimmten Zeitpunkt ankommen.

Kleine Listen unter 1.000. Die Modelle benötigen genügend Daten, um Muster zu finden. Bei sehr kleinen Listen sind die Vorhersagen nicht zuverlässig genug, um fundierte Schätzungen zu übertreffen.

Transaktionale E-Mails. Bestellbestätigungen, Passwortrücksetzungen und Versandbenachrichtigungen sollten sofort ankommen. Sie für eine „optimale Engagement-Zeit" zu verzögern, würde Kunden frustrieren.

Allgemeine Timing-Erkenntnisse aus umfassenden Daten:

E-Mails, die zwischen 4 und 6 Uhr morgens versendet werden, neigen dazu, die höchsten Öffnungsraten zu erzielen, da sie ganz oben im Posteingang liegen, wenn der Abonnent aufwacht und sein Telefon überprüft. Das bedeutet nicht, dass 4 Uhr die richtige Versandzeit für Ihre Zielgruppe ist, aber es erklärt, warum frühe Morgensendungen oft besser abschneiden als Mittagssendungen.

Dienstag und Donnerstag sind tendenziell die leistungsstärksten Tage für B2B-E-Mails. Montags-Posteingänge sind vom Wochenende überfüllt. Freitags hat die Aufmerksamkeit schon auf das Wochenende umgeschaltet. Mitte der Woche trifft den Sweet Spot.

Für B2C und E-Commerce können Wochenenden für bestimmte Vertikale (Mode, Essen, Unterhaltung) tatsächlich besser abschneiden als Wochentage, weil Abonnenten mehr Freizeitzeit zum Stöbern haben.

Aber hier ist die eigentliche Erkenntnis: Das sind Verallgemeinerungen. Ihre Zielgruppe ist spezifisch. STO-Tools existieren, weil die „beste" Versandzeit nicht nur nach Zielgruppe, sondern nach Individuum variiert. Verwenden Sie die allgemeinen Erkenntnisse als Ausgangspunkt, und lassen Sie dann die Daten und Algorithmen von dort aus verfeinern.

Zeitzonenbehandlung ist der oft vergessene Cousin der Send Time Optimisation. Wenn Ihre Zielgruppe mehrere Zeitzonen umfasst (und wenn Sie internationale Abonnenten haben, tut sie das), bedeutet das Versenden um 10 Uhr in Ihrer Zeitzone, dass einige Abonnenten es um 3 Uhr morgens erhalten. Die meisten ESPs bieten zeitzonenbasiertes Versenden an, das zu derselben lokalen Zeit für jeden Abonnenten zugestellt wird. Es ist nicht so präzise wie volles STO, aber es ist ein erheblicher Schritt nach oben gegenüber dem gleichzeitigen Versand an alle. Für global verteilte Zielgruppen ist Zeitzonensendung ein Minimalstandard, bevor Sie überhaupt STO in Betracht ziehen.

Eine Testkultur aufbauen

Die erfolgreichsten E-Mail-Programme, mit denen ich gearbeitet habe, teilen eine gemeinsame Eigenschaft: Sie behandeln jede Versendung als Lernmöglichkeit, nicht nur als Broadcast. Sie fragen „Was haben wir gelernt?" genauso oft wie „Wie hat es abgeschnitten?"

Das bedeutet, Testergebnisse zu dokumentieren, wo das Team sie finden kann. Es bedeutet, negative Ergebnisse zu feiern (zu lernen, dass etwas nicht funktioniert, ist wertvoll). Es bedeutet, Zeit und Versendungen speziell für Tests zu reservieren, anstatt jeden Slot mit umsatzfokussierten Kampagnen zu füllen.

Widmen Sie mindestens 20 % Ihrer Kampagnenversendungen dem Testen von etwas. Nicht jeder Test wird einen Gewinner produzieren. Aber im Verlauf eines Jahres werden die Gewinne, die auftauchen, zu einem Programm kumulieren, das bedeutend besser abschneidet als dort, wo Sie begonnen haben.

Teilen Sie Testergebnisse teamübergreifend. Ihre E-Mail-Testing-Erkenntnisse existieren nicht in einem Vakuum. Ein Betreffzeilen-Test, der zeigt, dass Ihre Zielgruppe besser auf negative Formulierungen reagiert, hat Implikationen für Ihr Anzeigentexten, Ihre Landing-Page-Überschriften und Ihr Produkt-Messaging. Ein CTA-Test, der zeigt, dass Kopie in der ersten Person besser abschneidet als in der zweiten, gilt überall, wo Sie Handlungsaufforderungen schreiben. E-Mail-Testing ist oft der schnellste, günstigste Weg, um die Präferenzen Ihrer Zielgruppe zu lernen, weil die Feedback-Schleife so eng ist.

Wenn ein Test keinen Gewinner liefert. Nicht schlüssige Ergebnisse sind immer noch Ergebnisse. Sie sagen Ihnen, dass die Variable, die Sie getestet haben, für Ihre Zielgruppe nicht viel ausmacht, was Sie befreit, sich keine Sorgen mehr darum zu machen und Ihre Optimierungsenergie woanders einzusetzen. Wenn Sie Schaltflächenfarbe getestet haben und keinen signifikanten Unterschied zwischen Rot und Grün festgestellt haben, wissen Sie jetzt, dass Schaltflächenfarbe kein Hebel für Sie ist. Weitermachen zu etwas, das es ist.

Testen ist keine Phase. Es ist eine Praxis.