Capítulo 8: Testes e Otimização

A diferença entre um bom programa de e-mail e um excelente raramente se deve a uma única grande ideia. São centenas de pequenas melhorias, acumulando-se ao longo de meses e anos. Os testes são o modo como você encontra essas melhorias. A otimização é o modo como você as consolida.

O que Testar

Nem tudo vale a pena testar. Concentre seus esforços de teste em mudanças que terão o maior impacto nas suas métricas-chave e, idealmente, que se acumularão nos envios futuros.

As linhas de assunto são o elemento mais comumente testado, e por uma boa razão. Mas teste uma variável por vez. Não teste uma linha de assunto curta com emoji contra uma longa sem ele. Você não saberá qual variável causou a diferença. Teste o comprimento em um experimento. A personalização em outro. Pergunta vs. afirmação em outro. Emoji vs. sem emoji em outro.

O horário de envio é subestimado como variável de teste. O mesmo e-mail enviado às 6h vs. 14h pode mostrar resultados dramaticamente diferentes. As plataformas de Send Time Optimisation (STO) automatizam isso no nível individual, mas mesmo um teste simples de manhã vs. tarde para o seu público pode revelar oportunidades significativas.

Os CTAs são candidatos de teste de alto impacto. Botão vs. link de texto, cor do botão, texto do botão e posição do botão — tudo isso afeta as taxas de clique. Um teste de CTA que produz uma melhoria de 10% beneficia todos os e-mails que usam esse formato de CTA daqui para frente.

Os testes de conteúdo e layout revelam se seu público prefere e-mails longos ou curtos, layouts com muitas imagens ou muito texto, e um ou vários tópicos por envio.

O nome do remetente é um dos testes de maior valor que você pode realizar. Como o nome do remetente aparece em todos os e-mails que você envia, mesmo uma pequena melhoria na taxa de abertura resultante de uma mudança no nome do remetente se acumula em todos os envios futuros. Teste nome pessoal vs. nome da marca vs. formato "pessoa na marca".

O teste do "e-mail feio". Pegue seu belo template HTML e teste-o contra uma versão em texto simples sem imagens, sem estilização, apenas palavras. Já vi vários estudos de caso em que a versão de texto simples vence em contextos B2B, às vezes de forma significativa. É humilhante, mas são dados.

Remover a imagem hero. Vários estudos de caso mostraram que remover a grande imagem hero do topo de um e-mail melhora as taxas de clique. O e-mail carrega mais rápido, parece mais pessoal e o CTA se move acima da dobra. Vale a pena testar para o seu público.

Texto de preheader vs. sem texto de preheader. Este é um dos testes de menor risco e maior recompensa que você pode realizar. Se você não está usando texto de prévia intencional atualmente, teste a adição dele. Os dados consistentemente mostram um aumento, e a implementação leva cerca de 30 segundos.

Comprimento do e-mail. Teste um e-mail de 100 palavras contra um de 400 palavras com a mesma oferta e CTA. Você pode descobrir que e-mails mais curtos produzem taxas de clique mais altas (menos para ler antes do CTA) ou que e-mails mais longos produzem taxas de conversão mais altas (mais contexto gera mais desejo). A resposta depende do seu público, da sua oferta e da complexidade do que você está vendendo. Produtos simples tendem a se beneficiar de textos mais curtos. Compras complexas e de alta consideração tendem a se beneficiar de mais detalhes.

Estrutura de prioridades de teste: Classifique os testes potenciais por dois fatores: impacto esperado (quanto isso poderia melhorar os resultados?) e efeito cumulativo (quantos envios futuros serão beneficiados?). Testes com alto impacto e alto efeito cumulativo devem sempre ser priorizados. O nome do remetente, o formato do CTA e a estrutura do template de e-mail encabeçam essa lista. Os testes de linha de assunto têm alto impacto, mas baixo efeito cumulativo, pois cada linha de assunto é única.

Significância Estatística

A maioria dos profissionais de marketing realiza testes A/B de forma incorreta. Eles verificam os resultados após algumas horas, veem que uma versão está "ganhando" e declaram um vencedor com base em dados incompletos. Isso leva à implementação de mudanças que eram na verdade apenas ruído aleatório.

Apenas cerca de 1 em cada 7 testes A/B produz um vencedor estatisticamente significativo. Isso significa que 6 em cada 7 testes terminam em empate, onde nenhuma versão é significativamente melhor. Isso é normal. Significa que a maioria das suas práticas atuais já é bastante boa, e os grandes ganhos são encontrados nas margens.

Diretrizes de tamanho de amostra:

Para listas pequenas (menos de 5.000 assinantes), teste 20 a 30% da sua lista. Você precisa de uma proporção de amostra maior porque os números totais são pequenos.

Para listas médias (5.000 a 50.000), teste de 15 a 25%.

Para listas grandes (50.000+), teste de 10 a 20%. Você pode usar uma proporção menor porque os números absolutos são grandes o suficiente para a significância.

Tempos de espera para resultados confiáveis:

Para testes de taxa de abertura, 2 horas de dados preveem o vencedor com mais de 80% de precisão. A maioria das aberturas acontece nas primeiras 2 horas após a entrega.

Para testes baseados em receita, deixe o teste rodar por um dia inteiro para atingir 90% de precisão. A receita demora mais para se materializar, enquanto os assinantes clicam, navegam e eventualmente compram.

Sempre envie ambas as versões de teste ao mesmo tempo no mesmo dia. Enviar a versão A na terça-feira e a versão B na quarta-feira não testa sua variável. Testa o dia da semana.

Use uma calculadora de significância. Não faça isso a olho. Ferramentas como a calculadora de significância de teste A/B da VWO, a calculadora de Evan Miller ou o indicador de significância integrado do seu ESP vão dizer se seu resultado é estatisticamente confiável. A maioria das calculadoras usa um nível de confiança de 95%, o que significa que há apenas 5% de chance de que a diferença observada seja devida ao acaso. Não declare um vencedor abaixo de 95% de confiança.

Testes Bayesianos vs. frequentistas. Algumas plataformas (incluindo Klaviyo e Optimizely) usam estatísticas Bayesianas em vez de métodos frequentistas tradicionais. O teste Bayesiano dá a você uma probabilidade de que uma versão seja melhor que a outra (por exemplo, "A versão A tem 92% de probabilidade de ser a vencedora"), o que muitas pessoas acham mais intuitivo do que valores-p e intervalos de confiança. Ambas as abordagens são válidas. O que importa é que você use uma delas em vez de adivinhar.

Surpresas nos Testes A/B

Alguns dos resultados de teste mais instrutivos são aqueles que ninguém esperava.

A linha de assunto "Hey" da campanha de Obama, que arrecadou US$ 2,5 milhões a mais do que sua concorrente mais próxima, continua sendo o exemplo mais citado. A equipe de e-mail da campanha ficou chocada. Eles presumiam que linhas de assunto casuais e pessoais não funcionariam para arrecadação de fundos políticos. Estavam errados.

Linhas de assunto negativas podem superar as positivas. "Não cometa esse erro com seu e-mail" pode vencer "Como melhorar seu e-mail". A aversão à perda em ação.

A Dell testou um GIF vs. uma imagem estática em um e-mail de produto. O GIF animado mostrando o produto em uso gerou 109% mais receita do que a imagem estática. A lição: mostrar um produto em ação, mesmo em uma animação simples, ajuda o comprador a visualizar a posse.

Remover imagens hero de e-mails melhorou as taxas de abertura para clique em vários estudos de caso documentados. A grande imagem hero que parece essencial para a equipe de design pode ser, na verdade, uma barreira para o engajamento.

Adicionar texto de prévia produz consistentemente cerca de 5% a mais nas taxas de abertura. É uma das melhorias mais simples e confiáveis que você pode fazer.

Talvez a descoberta mais contraintuitiva: reduzir a frequência de e-mails às vezes aumenta a receita total. Como? Melhorando o posicionamento na caixa de entrada. Quando você envia com menos frequência, mas para destinatários mais engajados, os provedores de caixa de entrada recompensam você com um melhor posicionamento, e os e-mails que você envia realmente apresentam um desempenho significativamente melhor. Mais nem sempre é mais. Um aviso: as mudanças de frequência devem sempre seguir os sinais de engajamento, o estágio do ciclo de vida e a intenção do assinante — e não ser aplicadas como uma alavanca universal. Para listas menores, produtos de alto valor, públicos B2B ou marcas se recuperando de problemas de tasa de rebote, aumentar a frequência sem controles de engajamento pode sair pela culatra.

Testes multivariados vs. testes A/B. Os testes A/B comparam duas versões com uma variável alterada. Os testes multivariados alteram várias variáveis simultaneamente e medem como diferentes combinações se saem. O teste multivariado é atraente porque é mais rápido na teoria, testando muitas coisas de uma vez. Na prática, requer tamanhos de amostra muito maiores para atingir a significância, pois você está dividindo o tráfego entre muitas variantes. Para a maioria das listas de e-mail com menos de 100.000, atenha-se aos testes A/B. O teste multivariado se torna prático apenas em escala significativa.

Melhoria Contínua

Testar sem um sistema é apenas experimentação aleatória. Você precisa de um processo. E o enquadramento correto importa: os testes A/B não servem apenas para otimizar variáveis — é aprendizado estruturado. Cada teste deve começar com uma suposição comportamental (não apenas "o vermelho vai vencer o azul?"), usar métricas de sucesso alinhadas a essa suposição e produzir um aprendizado que você pode aplicar além do envio individual. Testes com pouca potência, amostras minúsculas e hipóteses vagas desperdiçam tempo. Testes bem elaborados com hipóteses claras constroem conhecimento cumulativo.

A abordagem sistemática de Jeanne Jennings é a que eu recomendaria: analise seu desempenho atual para identificar o elo mais fraco, forme uma hipótese sobre o que pode melhorá-lo, teste essa hipótese com um teste A/B adequado, aplique a variante vencedora e repita. A palavra-chave é sistemático. Cada teste se baseia nos aprendizados do anterior.

Crie um calendário de testes. Gavin Laugenie defende planos de teste trimestrais vinculados a questões de negócios. Não teste por testar. Comece com uma pergunta: "O nome do nosso remetente está nos custando aberturas?" ou "Um e-mail mais curto aumentaria os cliques?" Em seguida, projete um teste para respondê-la. Documente os resultados em um local compartilhado para que o conhecimento institucional se acumule.

Cuidado com o excesso de testes. Se você estiver executando vários testes simultaneamente ou alterando muitas variáveis de uma vez, terá dificuldades para atribuir resultados e corre o risco de fatigar sua lista. Um teste bem elaborado por envio é suficiente.

O efeito cumulativo da otimização é onde o valor real está. Uma melhoria de 2% na taxa de abertura da sua série de boas-vindas pode parecer trivial. Mas essa melhoria afeta cada novo assinante de agora até quando você a alterar novamente. Ao longo de milhares de assinantes e meses de envio, uma melhoria de 2% em um fluxo fundamental se traduz em receita significativa.

Priorize o teste dos seus fluxos automatizados em vez das campanhas. Os testes de campanha melhoram um único envio. Os testes de fluxo melhoram todos os envios por esse fluxo a partir de agora. Se você tem capacidade de teste limitada, concentre-a na sua série de boas-vindas, na sua sequência de carrinho abandonado e no seu acompanhamento pós-compra. Esses são seus fluxos de maior volume e maior valor, e as melhorias se acumulam indefinidamente.

Documente tudo em um registro de testes. No mínimo, registre: o que você testou, a hipótese, os tamanhos de amostra para cada variante, os resultados com o nível de confiança, a data e o que você decidiu implementar. Com o tempo, esse registro se torna um dos ativos mais valiosos do seu programa de e-mail. Ele evita que você repita testes que já fez e revela padrões entre os testes que os resultados individuais podem não captar.

Send Time Optimisation

A Send Time Optimisation (STO) usa dados sobre o engajamento passado de cada assinante para prever o momento ideal de entrega de cada e-mail. Em vez de disparar toda a sua lista às 10h de terça-feira, o STO coloca em fila cada e-mail para o momento em que aquele assinante específico tem mais probabilidade de se engajar.

Como funciona: A plataforma rastreia quando cada assinante historicamente abriu e clicou em e-mails. Ela constrói um modelo por assinante de padrões de engajamento (pessoa matutina, verificador na hora do almoço, navegador noturno) e coloca a entrega em fila de acordo. Para novos assinantes com dados de engajamento insuficientes, a plataforma geralmente recorre às médias do nível de público até que dados individuais suficientes se acumulem.

Comparação de plataformas:

Plataforma	Recurso	Método
Klaviyo	Smart Send Time	ML por indivíduo
Seventh Sense	AI Send Time	Análise profunda por contato
ActiveCampaign	Predictive Sending	Padrões por contato
Mailchimp	STO	Nível de público (não individual)
Brevo	STO	Previsão por contato

Aqui está mais contexto sobre cada um:

O Smart Send Time do Klaviyo usa machine learning para prever a entrega ideal no nível individual do assinante. Está disponível na maioria dos planos e funciona bem para e-commerce.

O Seventh Sense oferece a análise mais profunda por contato e se integra ao HubSpot e ao Marketo. É a opção mais sofisticada para B2B e enterprise.

O Predictive Sending do ActiveCampaign constrói padrões por contato e otimiza o tempo de entrega. Boa opção para B2B de pequeno a médio porte.

A Send Time Optimisation do Mailchimp funciona no nível do público, não no nível individual. Encontra o melhor horário para todo o seu público, o que é menos preciso, mas ainda melhor do que adivinhar.

O STO do Brevo oferece previsão por contato e está incluído na plataforma de marketing deles.

Resultados: O STO normalmente entrega uma melhoria de 5 a 15% nas taxas de abertura. É um ganho substancial para um recurso que não requer trabalho adicional após a configuração.

Quando o STO não ajuda:

Conteúdo com prazo específico. Se o seu e-mail é sobre uma venda relâmpago que termina em 4 horas, você não pode distribuí-lo ao longo de 24 horas. Algumas mensagens precisam chegar em um momento específico.

Listas pequenas com menos de 1.000. Os modelos precisam de dados suficientes para encontrar padrões. Com listas muito pequenas, as previsões não são confiáveis o suficiente para superar a intuição informada.

E-mails transacionais. Confirmações de pedido, redefinições de senha e notificações de envio devem chegar imediatamente. Atrasá-los para um "horário ideal de engajamento" frustraria os clientes.

Descobertas gerais de tempo a partir de dados amplos:

E-mails enviados entre 4h e 6h da manhã tendem a produzir as maiores taxas de abertura, pois estão no topo da caixa de entrada quando o assinante acorda e verifica o telefone. Isso não significa que 4h da manhã seja o horário de envio correto para o seu público, mas explica por que os envios de madrugada costumam superar os do meio do dia.

Terça e quinta-feira tendem a ser os dias de melhor desempenho para e-mail B2B. As caixas de entrada de segunda-feira estão cheias depois do fim de semana. A atenção de sexta-feira já se deslocou para o fim de semana. O meio da semana atinge o ponto ideal.

Para B2C e e-commerce, os fins de semana podem realmente superar os dias de semana em certos segmentos (moda, alimentação, entretenimento), pois os assinantes têm mais tempo livre para navegar.

Mas aqui está a verdadeira conclusão: essas são generalizações. O seu público é específico. As ferramentas de STO existem porque o "melhor" horário de envio varia não apenas por público, mas por indivíduo. Use as descobertas gerais como ponto de partida e deixe os dados e os algoritmos refinarem a partir daí.

O tratamento de fuso horário é o primo frequentemente esquecido da send time optimisation. Se o seu público abrange múltiplos fusos horários (e se você tem assinantes internacionais, tem), enviar às 10h no seu fuso horário significa que alguns assinantes recebem isso às 3h da manhã. A maioria dos ESPs oferece envio baseado em fuso horário que entrega no mesmo horário local para cada assinante. Não é tão preciso quanto o STO completo, mas é um passo significativo em relação ao envio de tudo de uma vez. Para públicos distribuídos globalmente, o envio por fuso horário é o mínimo antes mesmo de considerar o STO.

Construindo uma Cultura de Testes

Os programas de e-mail de maior sucesso com os quais trabalhei compartilham uma característica comum: tratam cada envio como uma oportunidade de aprendizado, não apenas como uma transmissão. Eles perguntam "O que aprendemos?" com a mesma frequência que "Como foi o desempenho?"

Isso significa documentar os resultados dos testes onde a equipe possa encontrá-los. Significa celebrar resultados negativos (aprender que algo não funciona é valioso). Significa alocar tempo e envios especificamente para testes em vez de preencher cada slot com campanhas focadas em receita.

Dedique pelo menos 20% dos seus envios de campanha para testar algo. Nem todo teste produzirá um vencedor. Mas ao longo de um ano, as vitórias que emergem se acumularão em um programa que apresenta um desempenho significativamente melhor do que quando você começou.

Compartilhe resultados de testes entre equipes. Seus insights de teste de e-mail não existem no vácuo. Um teste de linha de assunto que revela que seu público responde melhor ao enquadramento negativo tem implicações para o texto dos seus anúncios, os títulos das suas páginas de destino e o messaging do seu produto. Um teste de CTA que mostra que o texto em primeira pessoa supera o de segunda pessoa se aplica em todos os lugares onde você está escrevendo chamadas para ação. O teste de e-mail é frequentemente a maneira mais rápida e barata de aprender sobre as preferências do seu público porque o ciclo de feedback é muito rápido.

Quando um teste não produz um vencedor. Resultados inconclusivos ainda são resultados. Eles dizem que a variável que você testou não importa muito para o seu público, o que libera você para parar de se preocupar com ela e concentrar sua energia de otimização em outros lugares. Se você testou a cor do botão e não encontrou diferença significativa entre vermelho e verde, agora você sabe que a cor do botão não é uma alavanca para você. Passe para algo que seja.

Os testes não são uma fase. São uma prática.