Capitolo 8: Testing e Ottimizzazione

La differenza tra un buon programma di email e uno eccellente raramente risiede in una singola grande idea. È composta da centinaia di piccoli miglioramenti che si accumulano nel corso di mesi e anni. Il testing è il modo in cui si trovano questi miglioramenti. L'ottimizzazione è il modo in cui li si consolida.

Cosa testare

Non tutto vale la pena testare. Concentra il tuo sforzo di testing sui cambiamenti che avranno il maggiore impatto sui tuoi indicatori chiave e, idealmente, che produrranno effetti cumulativi nelle invii futuri.

Le righe oggetto sono l'elemento più comunemente testato, e per una buona ragione. Ma testa una variabile alla volta. Non testare una riga oggetto breve con emoji contro una lunga senza. Non saprai quale variabile ha causato la differenza. Testa la lunghezza in un esperimento. La personalizzazione in un altro. Domanda vs. affermazione in un altro ancora. Emoji vs. nessuna emoji in un altro.

L'orario di invio è sottovalutato come variabile di test. La stessa email inviata alle 6:00 vs. le 14:00 può mostrare risultati drammaticamente diversi. Le piattaforme di Send Time Optimisation (STO) automatizzano questo a livello individuale, ma anche un semplice test mattino vs. pomeriggio per il tuo pubblico può rivelare opportunità significative.

I CTA sono candidati al test ad alto impatto. Pulsante vs. link testuale, colore del pulsante, testo del pulsante e posizione del pulsante influenzano tutti i tassi di click. Un test CTA che produce un miglioramento del 10% avvantaggia ogni email che utilizza quel formato CTA da quel momento in poi.

Il testing di contenuto e layout rivela se il tuo pubblico preferisce email lunghe o brevi, layout con molte immagini o molto testo, e uno o più argomenti per invio.

Il nome del mittente è uno dei test di maggior valore che puoi eseguire. Poiché il nome del mittente appare su ogni email che invii, anche un piccolo miglioramento nel tasso di apertura derivante da un cambio del nome del mittente si accumula su tutti gli invii futuri. Testa nome personale vs. nome del brand vs. formato "persona presso brand".

Il test dell'"email brutta". Prendi il tuo splendido template HTML e testalo contro una versione solo testo senza immagini, senza stile, solo parole. Ho visto più casi studio in cui la versione solo testo vince nei contesti B2B, a volte in modo significativo. È umiliante, ma sono dati.

Rimuovere l'immagine hero. Diversi casi studio hanno dimostrato che la rimozione della grande immagine hero dall'intestazione di un'email migliora i tassi di click. L'email si carica più velocemente, sembra più personale e il CTA si sposta above the fold. Vale la pena testarlo per il tuo pubblico.

Testo preheader vs. nessun testo preheader. Questo è uno dei test a più basso rischio e più alto rendimento che puoi eseguire. Se attualmente non stai utilizzando un testo di anteprima intenzionale, testa l'aggiunta. I dati mostrano costantemente un incremento, e l'implementazione richiede circa 30 secondi.

Lunghezza dell'email. Testa un'email da 100 parole contro una da 400 parole con la stessa offerta e CTA. Potresti scoprire che le email più brevi producono tassi di click più elevati (meno da leggere prima del CTA) o che le email più lunghe producono tassi di conversione più elevati (più contesto costruisce più desiderio). La risposta dipende dal tuo pubblico, dalla tua offerta e dalla complessità di ciò che stai vendendo. I prodotti semplici tendono a beneficiare di testo più breve. Gli acquisti complessi e ad alta considerazione tendono a beneficiare di maggiori dettagli.

Framework di priorità per i test: Classifica i potenziali test in base a due fattori: impatto previsto (quanto potrebbe migliorare i risultati?) ed effetto cumulativo (quanti invii futuri ne beneficeranno?). I test con sia alto impatto che alto effetto cumulativo dovrebbero sempre essere prioritari. Il nome del mittente, il formato CTA e la struttura del template email sono in cima a quella lista. I test della riga oggetto hanno un alto impatto ma un basso effetto cumulativo poiché ogni riga oggetto è unica.

Significatività Statistica

La maggior parte dei marketer esegue i test A/B in modo errato. Controllano i risultati dopo poche ore, vedono che una versione sta "vincendo" e dichiarano un vincitore sulla base di dati incompleti. Questo porta a implementare cambiamenti che erano in realtà solo rumore casuale.

Solo circa 1 test A/B su 7 produce un vincitore statisticamente significativo. Ciò significa che 6 test su 7 si concludono in pareggio dove nessuna versione è significativamente migliore. Questo è normale. Significa che la maggior parte delle tue pratiche attuali è già abbastanza buona, e i grandi guadagni si trovano ai margini.

Linee guida sulle dimensioni del campione:

Per liste piccole (sotto 5.000 iscritti), testa il 20-30% della tua lista. Hai bisogno di una proporzione di campione più grande perché i numeri totali sono piccoli.

Per liste medie (da 5.000 a 50.000), testa il 15-25%.

Per liste grandi (50.000+), testa il 10-20%. Puoi usare una proporzione più piccola perché i numeri assoluti sono abbastanza grandi per la significatività.

Tempi di attesa per risultati affidabili:

Per i test del tasso di apertura, 2 ore di dati predicono il vincitore con oltre l'80% di accuratezza. La maggior parte delle aperture avviene entro le prime 2 ore dalla consegna.

Per i test basati sui ricavi, lascia che il test venga eseguito per un giorno intero per raggiungere il 90% di accuratezza. I ricavi impiegano più tempo a materializzarsi mentre gli iscritti cliccano, navigano e alla fine acquistano.

Invia sempre entrambe le versioni di test allo stesso tempo nello stesso giorno. Inviare la versione A il martedì e la versione B il mercoledì non testa la tua variabile. Testa il giorno della settimana.

Usa un calcolatore di significatività. Non farlo a occhio. Strumenti come il calcolatore di significatività A/B di VWO, il calcolatore di Evan Miller o l'indicatore di significatività integrato del tuo ESP ti diranno se il tuo risultato è statisticamente affidabile. La maggior parte dei calcolatori usa un livello di confidenza del 95%, il che significa che c'è solo il 5% di possibilità che la differenza osservata sia dovuta al caso. Non dichiarare un vincitore sotto il 95% di confidenza.

Test Bayesiani vs. frequentisti. Alcune piattaforme (tra cui Klaviyo e Optimizely) usano statistiche Bayesiane piuttosto che metodi frequentisti tradizionali. Il testing Bayesiano ti dà una probabilità che una versione sia migliore dell'altra (ad es., "La versione A ha il 92% di probabilità di essere la vincitrice"), che molte persone trovano più intuitivo dei p-value e degli intervalli di confidenza. Entrambi gli approcci sono validi. Ciò che conta è che ne utilizzi uno piuttosto che indovinare.

Sorprese dai Test A/B

Alcuni dei risultati di test più istruttivi sono quelli che nessuno si aspettava.

La riga oggetto "Hey" della campagna Obama che ha raccolto 2,5 milioni di dollari in più rispetto alla sua più vicina concorrente rimane l'esempio più citato. Il team email della campagna era scioccato. Supponevano che le righe oggetto informali e personali non avrebbero funzionato per la raccolta fondi politica. Si sbagliavano.

Le righe oggetto negative possono superare quelle positive. "Non fare questo errore con la tua email" può battere "Come migliorare la tua email". L'avversione alle perdite al lavoro.

Dell ha testato una GIF vs. un'immagine statica in un'email di prodotto. La GIF animata che mostrava il prodotto in uso ha generato il 109% di ricavi in più rispetto all'immagine statica. La lezione: mostrare un prodotto in azione, anche in una semplice animazione, aiuta l'acquirente a visualizzare il possesso.

Rimuovere le immagini hero dalle email ha migliorato i tassi di apertura-su-click in più casi studio documentati. La grande immagine hero che sembra essenziale al team di design può in realtà essere una barriera al coinvolgimento.

Aggiungere il testo di anteprima produce costantemente circa il 5% in più di tassi di apertura. È uno dei miglioramenti più semplici e affidabili che puoi apportare.

Forse la scoperta più controintuitiva: ridurre la frequenza delle email a volte aumenta i ricavi totali. Come? Migliorando il posizionamento nella casella di posta in arrivo. Quando invii meno frequentemente ma a destinatari più coinvolti, i provider di posta in arrivo ti premiano con un posizionamento migliore, e le email che invii effettivamente performano significativamente meglio. Di più non è sempre di più. Un avvertimento: i cambiamenti di frequenza dovrebbero sempre seguire i segnali di coinvolgimento, la fase del ciclo di vita e l'intento dell'iscritto — non essere applicati come leva universale. Per liste più piccole, prodotti ad alto costo, pubblici B2B o brand che si riprendono da problemi di deliverability, aumentare la frequenza senza controlli sul coinvolgimento può ritorcersi contro.

Test multivariati vs. test A/B. Il test A/B confronta due versioni con una variabile modificata. Il test multivariato modifica più variabili simultaneamente e misura come si comportano diverse combinazioni. Il test multivariato è allettante perché è più veloce in teoria, testando molte cose in una volta. In pratica, richiede dimensioni di campione molto più grandi per raggiungere la significatività perché si divide il traffico su molte più varianti. Per la maggior parte delle liste email sotto 100.000, attieniti ai test A/B. Il test multivariato diventa pratico solo a scala significativa.

Miglioramento Continuo

Testare senza un sistema è solo sperimentazione casuale. Hai bisogno di un processo. E la giusta impostazione mentale conta: il test A/B non riguarda solo l'ottimizzazione delle variabili — è apprendimento strutturato. Ogni test dovrebbe iniziare con un'assunzione comportamentale (non solo "il rosso batterà il blu?"), utilizzare metriche di successo allineate a quell'assunzione e produrre un apprendimento che puoi applicare oltre il singolo invio. I test sottopotenziati con piccoli campioni e ipotesi vaghe sprecano tempo. I test ben progettati con ipotesi chiare costruiscono conoscenza cumulativa.

L'approccio sistematico di Jeanne Jennings è quello che raccomanderei: analizza le tue performance attuali per identificare l'anello più debole, formula un'ipotesi su cosa potrebbe migliorarlo, testa quell'ipotesi con un corretto test A/B, applica la variante vincente e ripeti. La parola chiave è sistematico. Ogni test si basa sugli apprendimenti del precedente.

Costruisci un calendario di testing. Gavin Laugenie sostiene piani di test trimestrali legati a domande di business. Non testare per il gusto di testare. Inizia con una domanda: "Il nostro nome del mittente ci sta costando aperture?" o "Un'email più breve aumenterebbe i click?" Poi progetta un test per rispondervi. Documenta i risultati in un posto condiviso in modo che la conoscenza istituzionale si accumuli.

Attenzione all'eccesso di testing. Se stai eseguendo più test simultaneamente, o stai cambiando troppe variabili in una volta, faticherai ad attribuire i risultati e rischi di affaticare la tua lista. Un test ben progettato per invio è sufficiente.

L'effetto cumulativo dell'ottimizzazione è dove risiede il vero valore. Un miglioramento del 2% nel tasso di apertura della tua serie di benvenuto potrebbe sembrare banale. Ma quel miglioramento interessa ogni singolo nuovo iscritto da adesso fino a quando non lo cambi di nuovo. Nel corso di migliaia di iscritti e mesi di invio, un miglioramento del 2% in un flusso fondamentale si traduce in ricavi significativi.

Dai priorità al testing dei tuoi flussi automatizzati rispetto alle campagne. I test delle campagne migliorano un singolo invio. I test dei flussi migliorano ogni invio attraverso quel flusso da adesso in poi. Se hai capacità di testing limitata, concentrala sulla tua serie di benvenuto, sulla tua sequenza di carrello abbandonato e sul tuo follow-up post-acquisto. Questi sono i tuoi flussi a più alto volume e più alto valore, e i miglioramenti si accumulano indefinitamente.

Documenta tutto in un registro di testing. Come minimo, registra: cosa hai testato, l'ipotesi, le dimensioni del campione per ciascuna variante, i risultati con il livello di confidenza, la data e cosa hai deciso di implementare. Nel tempo, questo registro diventa uno degli asset più preziosi nel tuo programma email. Ti impedisce di ritestare cose che hai già testato e rivela pattern attraverso i test che i risultati individuali potrebbero non rilevare.

Send Time Optimisation

La Send Time Optimisation (STO) utilizza dati sul coinvolgimento passato di ciascun iscritto per prevedere il momento ottimale per consegnare ogni email. Invece di inviare l'intera lista alle 10:00 del martedì, STO mette in coda ogni email per il momento in cui quello specifico iscritto è più propenso a interagire.

Come funziona: La piattaforma traccia quando ogni iscritto ha storicamente aperto e cliccato sulle email. Costruisce un modello per iscritto di pattern di coinvolgimento (persona mattiniera, controllore all'ora di pranzo, navigatore notturno) e mette in coda la consegna di conseguenza. Per i nuovi iscritti con dati di coinvolgimento insufficienti, la piattaforma tipicamente ricade sulle medie a livello di pubblico finché non si accumulano abbastanza dati individuali.

Confronto tra piattaforme:

Piattaforma	Funzionalità	Metodo
Klaviyo	Smart Send Time	ML per individuo
Seventh Sense	AI Send Time	Analisi profonda per contatto
ActiveCampaign	Predictive Sending	Pattern per contatto
Mailchimp	STO	Livello di pubblico (non individuale)
Brevo	STO	Previsione per contatto

Ecco più contesto su ciascuno:

Lo Smart Send Time di Klaviyo utilizza il machine learning per prevedere la consegna ottimale a livello di singolo iscritto. È disponibile sulla maggior parte dei piani e funziona bene per l'ecommerce.

Seventh Sense offre l'analisi per contatto più approfondita e si integra con HubSpot e Marketo. È l'opzione più sofisticata per B2B ed enterprise.

Il Predictive Sending di ActiveCampaign costruisce pattern per contatto e ottimizza i tempi di consegna. Buona opzione per B2B piccole e medie.

La Send Time Optimisation di Mailchimp funziona a livello di pubblico, non individuale. Trova il momento migliore per il tuo pubblico nel suo complesso, il che è meno preciso ma comunque meglio che indovinare.

L'STO di Brevo offre previsioni per contatto ed è incluso nella loro piattaforma di marketing.

Risultati: L'STO tipicamente consegna un miglioramento del 5-15% nei tassi di apertura. È un incremento sostanziale per una funzionalità che richiede zero lavoro aggiuntivo dopo la configurazione.

Quando l'STO non aiuta:

Contenuto sensibile al tempo. Se la tua email riguarda una vendita lampo che termina in 4 ore, non puoi distribuirla nell'arco di 24 ore. Alcuni messaggi devono arrivare in un momento specifico.

Liste piccole sotto 1.000. I modelli hanno bisogno di abbastanza dati per trovare pattern. Con liste molto piccole, le previsioni non sono abbastanza affidabili da superare la stima informata.

Email transazionali. Le conferme d'ordine, i reset delle password e le notifiche di spedizione dovrebbero arrivare immediatamente. Ritardarle per un "momento di coinvolgimento ottimale" frustrerebbe i clienti.

Risultati generali sul timing da dati ampi:

Le email inviate tra le 4:00 e le 6:00 tendono a produrre i tassi di apertura più elevati, perché si trovano in cima alla casella di posta quando l'iscritto si sveglia e controlla il telefono. Questo non significa che le 4:00 siano il momento di invio giusto per il tuo pubblico, ma spiega perché gli invii nelle prime ore del mattino spesso superano quelli di mezzogiorno.

Martedì e giovedì tendono a essere i giorni con le migliori performance per le email B2B. Le caselle di posta del lunedì sono affollate dal fine settimana. L'attenzione del venerdì si è già spostata sul fine settimana. Il mezzo della settimana colpisce il punto dolce.

Per B2C ed ecommerce, i fine settimana possono effettivamente superare i giorni feriali per certi settori (moda, cibo, intrattenimento) perché gli iscritti hanno più tempo libero per navigare.

Ma ecco il vero insegnamento: queste sono generalizzazioni. Il tuo pubblico è specifico. Gli strumenti STO esistono perché il "migliore" orario di invio varia non solo per pubblico, ma per individuo. Usa i risultati generali come punto di partenza, poi lascia che i dati e gli algoritmi affinino da lì.

La gestione del fuso orario è il cugino spesso dimenticato della send time optimisation. Se il tuo pubblico copre più fusi orari (e se hai iscritti internazionali, lo fa), inviare alle 10:00 nel tuo fuso orario significa che alcuni iscritti lo ricevono alle 3:00 di notte. La maggior parte degli ESP offre l'invio basato sul fuso orario che consegna alla stessa ora locale per ogni iscritto. Non è preciso quanto un STO completo, ma è un passo significativo rispetto all'invio di tutto in una volta. Per i pubblici distribuiti globalmente, l'invio per fuso orario è il requisito minimo prima ancora di considerare l'STO.

Costruire una Cultura del Testing

I programmi email di maggior successo con cui ho lavorato condividono una caratteristica comune: trattano ogni invio come un'opportunità di apprendimento, non solo come una trasmissione. Chiedono "Cosa abbiamo imparato?" con la stessa frequenza di "Come ha performato?"

Questo significa documentare i risultati dei test dove il team può trovarli. Significa celebrare i risultati negativi (imparare che qualcosa non funziona è prezioso). Significa allocare tempo e invii specificamente per il testing piuttosto che riempire ogni slot con campagne focalizzate sui ricavi.

Dedica almeno il 20% dei tuoi invii di campagna al testing di qualcosa. Non ogni test produrrà un vincitore. Ma nel corso di un anno, i guadagni che emergono si accumuleranno in un programma che performa significativamente meglio rispetto al punto di partenza.

Condividi i risultati dei test tra i team. I tuoi insight di testing email non esistono nel vuoto. Un test della riga oggetto che rivela che il tuo pubblico risponde meglio alla formulazione negativa ha implicazioni per il tuo copy degli annunci, i titoli delle landing page e il messaging del prodotto. Un test CTA che mostra che il copy in prima persona supera quello in seconda persona si applica ovunque tu stia scrivendo call to action. Il testing email è spesso il modo più veloce e più economico per conoscere le preferenze del tuo pubblico perché il ciclo di feedback è così stretto.

Quando un test non produce un vincitore. I risultati inconcludenti sono comunque risultati. Ti dicono che la variabile che hai testato non conta molto per il tuo pubblico, il che ti libera di smettere di preoccupartene e di concentrare la tua energia di ottimizzazione altrove. Se hai testato il colore del pulsante e non hai trovato differenze significative tra rosso e verde, ora sai che il colore del pulsante non è una leva per te. Passa a qualcosa che lo è.

Il testing non è una fase. È una pratica.