Rozdział 8: Testowanie i Optymalizacja

Różnica między dobrym a świetnym programem e-mail rzadko polega na jednym wielkim pomyśle. To setki małych ulepszeń, kumulujących się przez miesiące i lata. Testowanie to sposób na ich odkrycie. Optymalizacja to sposób na ich utrwalenie.

Co testować

Nie wszystko warto testować. Skup swoje wysiłki testowe na zmianach, które będą miały największy wpływ na kluczowe wskaźniki i, najlepiej, które będą się kumulować w przyszłych wysyłkach.

Tematy wiadomości są najczęściej testowanym elementem i nie bez powodu. Testuj jednak jedną zmienną na raz. Nie testuj krótkiego tematu z emoji przeciwko długiemu bez niego. Nie będziesz wiedział, która zmienna spowodowała różnicę. Testuj długość w jednym eksperymencie. Personalizację w innym. Pytanie vs. stwierdzenie w innym. Emoji vs. brak emoji w kolejnym.

Czas wysyłki jest niedocenianą zmienną testową. Ta sama e-mail wysłana o 6:00 vs. 14:00 może pokazać dramatycznie różne wyniki. Platformy Send Time Optimisation (STO) automatyzują to na poziomie indywidualnym, ale nawet prosty test rano vs. popołudnie dla Twojej grupy odbiorców może ujawnić znaczące możliwości.

CTA to kandydaci do testów o dużym wpływie. Przycisk vs. link tekstowy, kolor przycisku, tekst przycisku i pozycja przycisku — wszystko to wpływa na współczynniki kliknięć. Test CTA, który przynosi 10% poprawę, przynosi korzyści każdej e-maili używającej tego formatu CTA od tej chwili.

Testowanie treści i układu ujawnia, czy Twoi odbiorcy preferują długie czy krótkie e-maile, układy z wieloma obrazami czy dużą ilością tekstu, oraz jeden czy wiele tematów na wysyłkę.

Nazwa nadawcy to jeden z najwartościowszych testów, jakie możesz przeprowadzić. Ponieważ nazwa nadawcy pojawia się w każdej wysyłanej e-maili, nawet niewielka poprawa współczynnika otwarć wynikająca ze zmiany nazwy nadawcy kumuluje się we wszystkich przyszłych wysyłkach. Testuj imię i nazwisko vs. nazwa marki vs. format „osoba w marce".

Test „brzydkiej e-maili". Weź swój pięknie zaprojektowany szablon HTML i przetestuj go przeciwko wersji zwykłego tekstu bez obrazów, bez stylizacji, tylko słowa. Widziałem wiele studiów przypadków, w których wersja zwykłego tekstu wygrywała w kontekstach B2B, czasem znacząco. To pokora, ale to dane.

Usunięcie obrazu hero. Kilka studiów przypadków pokazało, że usunięcie dużego obrazu hero z góry e-maili poprawia współczynniki kliknięć. E-mail ładuje się szybciej, wygląda bardziej personalnie, a CTA przesuwa się powyżej linii zgięcia. Warto to przetestować dla swojej grupy odbiorców.

Tekst preheader vs. brak tekstu preheader. To jeden z testów o najniższym ryzyku i najwyższej nagrodzie, jaki możesz przeprowadzić. Jeśli nie używasz obecnie celowego tekstu podglądu, przetestuj jego dodanie. Dane konsekwentnie pokazują wzrost, a implementacja zajmuje około 30 sekund.

Długość e-maili. Przetestuj e-mail na 100 słów przeciwko e-mailowi na 400 słów z tą samą ofertą i CTA. Możesz odkryć, że krótsze e-maile generują wyższe współczynniki kliknięć (mniej do przeczytania przed CTA) lub że dłuższe e-maile generują wyższe współczynniki konwersji (więcej kontekstu buduje więcej pożądania). Odpowiedź zależy od Twoich odbiorców, oferty i złożoności tego, co sprzedajesz. Proste produkty mają tendencję do czerpania korzyści z krótszego tekstu. Kompleksowe zakupy wymagające namysłu mają tendencję do czerpania korzyści z większej ilości szczegółów.

Ramka priorytetów testowania: Uszereguj potencjalne testy według dwóch czynników: oczekiwanego wpływu (o ile może to poprawić wyniki?) i efektu kumulacji (ile przyszłych wysyłek skorzysta?). Testy z zarówno dużym wpływem, jak i dużym efektem kumulacji powinny być zawsze priorytetowe. Nazwa nadawcy, format CTA i struktura szablonu e-maili są na czele tej listy. Testy tematów mają duży wpływ, ale niski efekt kumulacji, ponieważ każdy temat jest niepowtarzalny.

Istotność Statystyczna

Większość marketerów przeprowadza testy A/B nieprawidłowo. Sprawdzają wyniki po kilku godzinach, widzą, że jedna wersja „wygrywa" i ogłaszają zwycięzcę na podstawie niekompletnych danych. Prowadzi to do wdrażania zmian, które były w rzeczywistości tylko losowym szumem.

Tylko około 1 na 7 testów A/B daje statystycznie istotnego zwycięzcę. Oznacza to, że 6 na 7 testów kończy się remisem, w którym żadna wersja nie jest znacząco lepsza. To normalne. Oznacza to, że większość obecnych praktyk jest już całkiem dobra, a duże zyski znajdują się na marginesach.

Wytyczne dotyczące wielkości próby:

W przypadku małych list (poniżej 5 000 subskrybentów) testuj 20-30% listy. Potrzebujesz większej proporcji próby, ponieważ całkowite liczby są małe.

W przypadku średnich list (od 5 000 do 50 000) testuj 15-25%.

W przypadku dużych list (powyżej 50 000) testuj 10-20%. Możesz użyć mniejszej proporcji, ponieważ liczby bezwzględne są wystarczająco duże dla istotności.

Czasy oczekiwania na wiarygodne wyniki:

W przypadku testów współczynnika otwarć 2 godziny danych przewidują zwycięzcę z ponad 80% dokładnością. Większość otwarć następuje w ciągu pierwszych 2 godzin od dostarczenia.

W przypadku testów opartych na przychodach pozwól testowi trwać przez pełny dzień, aby osiągnąć 90% dokładność. Przychody potrzebują więcej czasu na materializację, gdy subskrybenci klikają, przeglądają i ostatecznie dokonują zakupu.

Zawsze wysyłaj obie wersje testowe jednocześnie tego samego dnia. Wysyłanie wersji A we wtorek i wersji B w środę nie testuje Twojej zmiennej. Testuje dzień tygodnia.

Użyj kalkulatora istotności. Nie oceniaj na oko. Narzędzia takie jak kalkulator istotności testu A/B VWO, kalkulator Evana Millera lub wbudowany wskaźnik istotności Twojego ESP powiedzą Ci, czy Twój wynik jest statystycznie wiarygodny. Większość kalkulatorów używa 95% poziomu ufności, co oznacza, że istnieje tylko 5% szansa, że zaobserwowana różnica wynika z przypadku. Nie ogłaszaj zwycięzcy poniżej 95% ufności.

Testy Bayesowskie vs. frekwencyjne. Niektóre platformy (w tym Klaviyo i Optimizely) używają statystyki Bayesowskiej zamiast tradycyjnych metod frekwencyjnych. Testy Bayesowskie dają prawdopodobieństwo, że jedna wersja jest lepsza od drugiej (np. „Wersja A ma 92% prawdopodobieństwo bycia zwycięzcą"), co wiele osób uważa za bardziej intuicyjne niż p-wartości i przedziały ufności. Oba podejścia są prawidłowe. Ważne jest, żebyś używał jednego z nich zamiast zgadywać.

Niespodzianki w Testach A/B

Niektóre z najbardziej pouczających wyników testów to te, których nikt się nie spodziewał.

Temat „Hey" kampanii Obamy, który przyniósł o 2,5 miliona dolarów więcej niż najbliższy konkurent, pozostaje najczęściej cytowanym przykładem. Zespół e-mailowy kampanii był zaszokowany. Zakładali, że nieformalne, osobiste tematy nie będą działać w kontekście politycznych zbiórek funduszy. Mylili się.

Negatywne tematy mogą przewyższać pozytywne. „Nie popełniaj tego błędu ze swoją e-mailą" może pokonać „Jak poprawić swoją e-mailę". Awersja do strat w działaniu.

Dell przetestował GIF vs. statyczny obraz w e-mailu produktowym. Animowany GIF pokazujący produkt w użyciu wygenerował o 109% więcej przychodów niż statyczny obraz. Lekcja: pokazanie produktu w działaniu, nawet w prostej animacji, pomaga kupującemu zwizualizować posiadanie.

Usunięcie obrazów hero z e-maili poprawiło współczynniki kliknięć po otwarciu w wielu udokumentowanych studiach przypadków. Duży obraz hero, który wydaje się niezbędny zespołowi projektowemu, może faktycznie stanowić barierę dla zaangażowania.

Dodawanie tekstu podglądu konsekwentnie generuje mniej więcej o 5% wyższe współczynniki otwarć. To jedna z najprostszych i najbardziej niezawodnych ulepszeń, jakie możesz wprowadzić.

Być może najbardziej kontrwituicyjne odkrycie: zmniejszenie częstotliwości e-maili czasami zwiększa całkowite przychody. Jak? Przez poprawę umieszczenia w skrzynce odbiorczej. Kiedy wysyłasz rzadziej, ale do bardziej zaangażowanych odbiorców, dostawcy skrzynek pocztowych nagradzają Cię lepszym umieszczeniem, a e-maile, które wysyłasz, działają znacznie lepiej. Więcej nie zawsze znaczy lepiej. Zastrzeżenie: zmiany częstotliwości powinny zawsze podążać za sygnałami zaangażowania, etapem cyklu życia i intencją subskrybenta — nie być stosowane jako uniwersalna dźwignia. W przypadku mniejszych list, produktów o wysokiej cenie, odbiorców B2B lub marek wychodzących z problemów z dostarczalnością, zwiększanie częstotliwości bez kontroli zaangażowania może się odwrócić.

Testowanie wielozmiennowe vs. testy A/B. Testy A/B porównują dwie wersje z jedną zmienioną zmienną. Testowanie wielozmiennowe zmienia wiele zmiennych jednocześnie i mierzy, jak różne kombinacje wypadają. Testowanie wielozmiennowe jest kuszące, bo jest szybsze w teorii, testując wiele rzeczy na raz. W praktyce wymaga znacznie większych wielkości próby, aby osiągnąć istotność, ponieważ dzielisz ruch na wiele więcej wariantów. W przypadku większości list e-mailowych poniżej 100 000 trzymaj się testów A/B. Testowanie wielozmiennowe staje się praktyczne dopiero przy znaczącej skali.

Ciągłe Doskonalenie

Testowanie bez systemu to tylko losowe eksperymentowanie. Potrzebujesz procesu. I właściwa perspektywa ma znaczenie: testy A/B nie dotyczą tylko optymalizacji zmiennych — to ustrukturyzowane uczenie się. Każdy test powinien zaczynać się od założenia behawioralnego (nie tylko „czy czerwony pokona niebieski?"), używać wskaźników sukcesu dostosowanych do tego założenia i generować wiedzę, którą możesz zastosować poza indywidualną wysyłką. Zbyt małe testy z mikroskopijnymi próbami i niejasne hipotezy marnują czas. Dobrze zaprojektowane testy z jasnymi hipotezami budują kumulującą się wiedzę.

Systematyczne podejście Jeanne Jennings to to, które bym polecił: analizuj swoje obecne wyniki, aby zidentyfikować najsłabsze ogniwo, sformułuj hipotezę o tym, co może to poprawić, przetestuj tę hipotezę z właściwym testem A/B, zastosuj zwycięski wariant i powtórz. Kluczowym słowem jest systematyczne. Każdy test opiera się na wnioskach z poprzedniego.

Zbuduj kalendarz testów. Gavin Laugenie opowiada się za kwartalnymi planami testów powiązanymi z pytaniami biznesowymi. Nie testuj dla samego testowania. Zacznij od pytania: „Czy nasza nazwa nadawcy kosztuje nas otwarcia?" lub „Czy krótsza e-mail zwiększyłaby kliknięcia?" Następnie zaprojektuj test, aby na nie odpowiedzieć. Dokumentuj wyniki w udostępnionym miejscu, aby gromadzić wiedzę instytucjonalną.

Uważaj na nadmierne testowanie. Jeśli uruchamiasz wiele testów jednocześnie lub zmieniasz zbyt wiele zmiennych na raz, będziesz miał trudności z przypisaniem wyników i ryzykujesz zmęczenie listy. Jeden dobrze zaprojektowany test na wysyłkę jest wystarczający.

Efekt kumulacji optymalizacji to miejsce, w którym leży rzeczywista wartość. 2% poprawa współczynnika otwarć serii powitalnej może wydawać się trywialna. Ale ta poprawa dotyczy każdego nowego subskrybenta od teraz do momentu, gdy to zmienisz. W ciągu tysięcy subskrybentów i miesięcy wysyłania, 2% poprawa w podstawowym przepływie przekłada się na znaczące przychody.

Priorytetyzuj testowanie zautomatyzowanych przepływów nad kampaniami. Testy kampanii poprawiają jedną wysyłkę. Testy przepływów poprawiają każdą wysyłkę przez ten przepływ od teraz. Jeśli masz ograniczoną pojemność testową, skup ją na swojej serii powitalnej, sekwencji porzuconego koszyka i follow-upie po zakupie. Są to Twoje przepływy o najwyższym wolumenie i najwyższej wartości, a ulepszenia kumulują się w nieskończoność.

Dokumentuj wszystko w dzienniku testów. Minimalnie rejestruj: co testowałeś, hipotezę, wielkości próby dla każdego wariantu, wyniki z poziomem ufności, datę i co zdecydowałeś się wdrożyć. Z czasem ten dziennik staje się jednym z najcenniejszych zasobów w Twoim programie e-mailowym. Zapobiega ponownemu testowaniu rzeczy, które już testowałeś, i ujawnia wzorce w testach, które indywidualne wyniki mogą przeoczyć.

Send Time Optimisation

Send Time Optimisation (STO) wykorzystuje dane o przeszłym zaangażowaniu każdego subskrybenta, aby przewidzieć optymalny czas dostarczenia każdej e-maili. Zamiast wysyłać całą listę o 10:00 we wtorek, STO kolejkuje każdą e-mailę na moment, w którym dany subskrybent jest najbardziej skłonny do zaangażowania.

Jak to działa: Platforma śledzi, kiedy każdy subskrybent historycznie otwierał i klikał e-maile. Buduje model wzorców zaangażowania per subskrybent (poranna osoba, kontroler w porze lunchu, nocny przeglądacz) i kolejkuje dostarczenie odpowiednio. Dla nowych subskrybentów z niewystarczającymi danymi zaangażowania platforma zazwyczaj wraca do średnich na poziomie grupy odbiorców, aż zgromadzi się wystarczająco dużo danych indywidualnych.

Porównanie platform:

Platforma	Funkcja	Metoda
Klaviyo	Smart Send Time	ML per individuum
Seventh Sense	AI Send Time	Głęboka analiza per kontakt
ActiveCampaign	Predictive Sending	Wzorce per kontakt
Mailchimp	STO	Poziom grupy (nie indywidualny)
Brevo	STO	Prognoza per kontakt

Oto więcej kontekstu dla każdego:

Smart Send Time Klaviyo używa uczenia maszynowego do przewidywania optymalnego dostarczenia na poziomie indywidualnego subskrybenta. Jest dostępny w większości planów i dobrze działa dla e-commerce.

Seventh Sense oferuje najgłębszą analizę per kontakt i integruje się z HubSpot i Marketo. Jest to najbardziej zaawansowana opcja dla B2B i enterprise.

Predictive Sending ActiveCampaign buduje wzorce per kontakt i optymalizuje czas dostarczenia. Dobra opcja dla małych i średnich firm B2B.

Send Time Optimisation Mailchimp działa na poziomie grupy odbiorców, nie indywidualnym. Znajduje najlepszy czas dla całej grupy odbiorców, co jest mniej precyzyjne, ale nadal lepsze niż zgadywanie.

STO Brevo oferuje prognozę per kontakt i jest zawarte w ich platformie marketingowej.

Wyniki: STO zazwyczaj dostarcza 5-15% poprawę współczynników otwarć. To znaczący wzrost dla funkcji, która nie wymaga żadnej dodatkowej pracy po konfiguracji.

Kiedy STO nie pomaga:

Treści wrażliwe na czas. Jeśli Twoja e-mail dotyczy wyprzedaży błyskawicznej kończącej się za 4 godziny, nie możesz jej rozciągnąć na 24 godziny. Niektóre wiadomości muszą dotrzeć o określonej porze.

Małe listy poniżej 1 000. Modele potrzebują wystarczającej ilości danych, aby znaleźć wzorce. Przy bardzo małych listach prognozy nie są wystarczająco wiarygodne, aby przewyższyć świadome zgadywanie.

E-maile transakcyjne. Potwierdzenia zamówień, resetowanie haseł i powiadomienia o wysyłce powinny docierać natychmiast. Opóźnianie ich dla „optymalnego czasu zaangażowania" sfrustruje klientów.

Ogólne odkrycia dotyczące harmonogramu z szerokich danych:

E-maile wysyłane między 4:00 a 6:00 rano mają tendencję do generowania najwyższych współczynników otwarć, ponieważ są na szczycie skrzynki odbiorczej, gdy subskrybent budzi się i sprawdza telefon. Nie oznacza to, że 4:00 rano jest właściwym czasem wysyłki dla Twojej grupy odbiorców, ale wyjaśnia, dlaczego wczesnoporanne wysyłki często przewyższają południe.

Wtorek i czwartek są zazwyczaj najlepiej działającymi dniami dla e-maili B2B. Skrzynki odbiorcze w poniedziałek są pełne po weekendzie. Uwaga w piątek przesunęła się już na weekend. Środek tygodnia trafia w punkt.

Dla B2C i e-commerce weekendy mogą faktycznie przewyższać dni powszednie w pewnych branżach (moda, jedzenie, rozrywka), ponieważ subskrybenci mają więcej wolnego czasu na przeglądanie.

Ale oto prawdziwy wniosek: to są uogólnienia. Twoja grupa odbiorców jest specyficzna. Narzędzia STO istnieją, ponieważ „najlepszy" czas wysyłki różni się nie tylko w zależności od grupy odbiorców, ale od osoby do osoby. Używaj ogólnych wyników jako punktu wyjścia, a następnie pozwól danym i algorytmom je udoskonalać.

Obsługa stref czasowych to często zapomniany kuzyn send time optimisation. Jeśli Twoja grupa odbiorców obejmuje wiele stref czasowych (a jeśli masz międzynarodowych subskrybentów, tak jest), wysyłanie o 10:00 w Twojej strefie czasowej oznacza, że niektórzy subskrybenci otrzymują to o 3:00 w nocy. Większość ESP oferuje wysyłanie oparte na strefie czasowej, które dostarcza o tej samej lokalnej godzinie dla każdego subskrybenta. Nie jest tak precyzyjne jak pełne STO, ale jest znaczącym krokiem naprzód w porównaniu z wysyłaniem wszystkiego naraz. Dla globalnie rozproszonych grup odbiorców wysyłanie według strefy czasowej to minimum, zanim w ogóle rozważysz STO.

Budowanie Kultury Testowania

Najbardziej udane programy e-mailowe, z którymi pracowałem, mają wspólną cechę: traktują każdą wysyłkę jako okazję do nauki, a nie tylko emisję. Pytają „Czego się nauczyliśmy?" tak często jak „Jak to działało?"

Oznacza to dokumentowanie wyników testów tam, gdzie zespół może je znaleźć. Oznacza to celebrowanie negatywnych wyników (uczenie się, że coś nie działa, jest cenne). Oznacza to alokowanie czasu i wysyłek specjalnie na testowanie, zamiast wypełniania każdego slotu kampaniami skoncentrowanymi na przychodach.

Poświęć przynajmniej 20% wysyłek kampanii na testowanie czegoś. Nie każdy test przyniesie zwycięzcę. Ale w ciągu roku, wygrane, które się pojawią, skumulują się w program działający znacznie lepiej niż na początku.

Dziel wyniki testów między zespołami. Twoje spostrzeżenia z testów e-mailowych nie istnieją w próżni. Test tematu, który ujawnia, że Twoi odbiorcy reagują lepiej na negatywne sformułowanie, ma implikacje dla Twojego copy reklamowego, nagłówków stron docelowych i komunikacji produktowej. Test CTA, który pokazuje, że copy w pierwszej osobie przewyższa copy w drugiej osobie, ma zastosowanie wszędzie tam, gdzie piszesz wezwania do działania. Testowanie e-maili jest często najszybszym i najtańszym sposobem na poznanie preferencji odbiorców, ponieważ pętla zwrotna jest tak ciasna.

Kiedy test nie przynosi zwycięzcy. Niejednoznaczne wyniki są nadal wynikami. Mówią Ci, że zmienna, którą testowałeś, nie ma dużego znaczenia dla Twoich odbiorców, co pozwala Ci przestać się o nią martwić i skupić energię optymalizacyjną gdzie indziej. Jeśli testowałeś kolor przycisku i nie znalazłeś znaczącej różnicy między czerwonym a zielonym, teraz wiesz, że kolor przycisku nie jest dla Ciebie dźwignią. Przejdź do czegoś, co jest.

Testowanie nie jest fazą. To praktyka.