Глава 8: Тестирование и Оптимизация

Разница между хорошей программой email-маркетинга и отличной редко заключается в одной большой идее. Это сотни небольших улучшений, накапливающихся на протяжении месяцев и лет. Тестирование — это способ найти эти улучшения. Оптимизация — это способ их закрепить.

Что тестировать

Не всё стоит тестировать. Сосредоточьте усилия на изменениях, которые окажут наибольшее влияние на ключевые показатели и, в идеале, будут давать накопительный эффект в будущих рассылках.

Темы писем — наиболее часто тестируемый элемент, и на то есть веская причина. Но тестируйте только одну переменную за раз. Не тестируйте одновременно короткую тему с эмодзи против длинной без него. Вы не поймёте, какая переменная вызвала разницу. Тестируйте длину в одном эксперименте. Персонализацию — в другом. Вопрос против утверждения — в следующем. Эмодзи против отсутствия эмодзи — ещё в одном.

Время отправки недооценивается как тестируемая переменная. Одно и то же письмо, отправленное в 6:00 против 14:00, может показать кардинально разные результаты. Платформы Send Time Optimisation (STO) автоматизируют это на индивидуальном уровне, но даже простое тестирование утренних против послеполуденных рассылок для вашей аудитории может открыть значительные возможности.

CTA — высокоэффективные кандидаты для тестирования. Кнопка против текстовой ссылки, цвет кнопки, текст кнопки и её расположение — всё это влияет на показатели кликов. Тест CTA, который даёт 10% улучшение, приносит пользу каждому письму, использующему этот формат CTA в будущем.

Тестирование контента и макета показывает, предпочитает ли ваша аудитория длинные или короткие письма, макеты с большим количеством изображений или текста, одну или несколько тем на рассылку.

Имя отправителя — один из самых ценных тестов. Поскольку имя отправителя появляется в каждом отправляемом письме, даже незначительное улучшение показателя открываемости за счёт смены имени отправителя накапливается во всех будущих рассылках. Тестируйте личное имя против названия бренда против формата «человек из бренда».

Тест «некрасивого письма». Возьмите красиво оформленный HTML-шаблон и протестируйте его против обычного текста без изображений, без стилей — только слова. Я видел несколько кейсов, где текстовая версия выигрывала в B2B-контекстах, иногда значительно. Это отрезвляет, но это данные.

Удаление hero-изображения. В нескольких кейсах было показано, что удаление большого hero-изображения из верхней части письма улучшает показатели кликов. Письмо загружается быстрее, выглядит более личным, а CTA оказывается выше линии сгиба. Это стоит протестировать для вашей аудитории.

Текст прехедера против его отсутствия. Это один из тестов с наименьшим риском и наибольшей отдачей. Если вы сейчас не используете намеренный текст предпросмотра, протестируйте его добавление. Данные стабильно показывают прирост, а реализация занимает около 30 секунд.

Длина письма. Сравните письмо на 100 слов с письмом на 400 слов с одинаковым предложением и CTA. Возможно, вы обнаружите, что более короткие письма дают более высокие показатели кликов (меньше читать до CTA), или что более длинные письма дают более высокие показатели конверсии (больше контекста формирует больше желания). Ответ зависит от вашей аудитории, предложения и сложности того, что вы продаёте. Простые продукты склонны выигрывать от более коротких текстов. Сложные покупки с высокой степенью обдумывания — от большего количества деталей.

Система приоритетов тестирования: Ранжируйте потенциальные тесты по двум факторам: ожидаемое влияние (насколько это может улучшить результаты?) и накопительный эффект (сколько будущих рассылок выиграют от этого?). Тесты с высоким влиянием и высоким накопительным эффектом всегда должны быть в приоритете. Имя отправителя, формат CTA и структура шаблона письма возглавляют этот список. Тесты тем имеют высокое влияние, но низкий накопительный эффект, поскольку каждая тема уникальна.

Статистическая Значимость

Большинство маркетологов проводят A/B-тесты неправильно. Они проверяют результаты через несколько часов, видят, что одна версия «выигрывает», и объявляют победителя на основе неполных данных. Это приводит к внедрению изменений, которые на самом деле были просто случайным шумом.

Только примерно 1 из 7 A/B-тестов даёт статистически значимого победителя. Это означает, что 6 из 7 тестов заканчиваются вничью, где ни одна версия не является значительно лучше. Это нормально. Это означает, что большинство ваших текущих практик уже достаточно хороши, а большие победы находятся на границах.

Руководство по размеру выборки:

Для небольших списков (менее 5 000 подписчиков) тестируйте 20–30% списка. Вам нужна большая доля выборки, поскольку общее число мало.

Для средних списков (от 5 000 до 50 000) тестируйте 15–25%.

Для больших списков (50 000+) тестируйте 10–20%. Вы можете использовать меньшую долю, поскольку абсолютные числа достаточно велики для значимости.

Время ожидания для надёжных результатов:

Для тестов показателя открываемости 2 часа данных предсказывают победителя с точностью более 80%. Большинство открытий происходит в первые 2 часа после доставки.

Для тестов на основе выручки дайте тесту работать полный день, чтобы достичь 90% точности. Выручка дольше материализуется по мере того, как подписчики кликают, просматривают и в итоге совершают покупку.

Всегда отправляйте обе тестовые версии одновременно в один и тот же день. Отправка версии A во вторник и версии B в среду тестирует не вашу переменную. Это тестирует день недели.

Используйте калькулятор значимости. Не оценивайте на глаз. Инструменты, такие как калькулятор значимости A/B-теста VWO, калькулятор Эвана Миллера или встроенный индикатор значимости вашего ESP, скажут вам, является ли ваш результат статистически надёжным. Большинство калькуляторов используют 95% уровень достоверности, что означает лишь 5% вероятности того, что наблюдаемая разница случайна. Не объявляйте победителя при достоверности ниже 95%.

Байесовское против частотного тестирования. Некоторые платформы (в том числе Klaviyo и Optimizely) используют байесовскую статистику вместо традиционных частотных методов. Байесовское тестирование даёт вам вероятность того, что одна версия лучше другой (например, «Версия A имеет 92% вероятности быть победителем»), что многие находят более интуитивным, чем p-значения и доверительные интервалы. Оба подхода действительны. Важно использовать один из них, а не гадать.

Неожиданности A/B-Тестов

Некоторые из самых поучительных результатов тестов — те, которых никто не ожидал.

Тема «Hey» в кампании Обамы, которая собрала на 2,5 миллиона долларов больше, чем ближайший конкурент, остаётся самым цитируемым примером. Команда по email-маркетингу кампании была поражена. Они предполагали, что неформальные, личные темы не будут работать для политического сбора средств. Они ошиблись.

Негативные темы могут превзойти позитивные. «Не делайте этой ошибки с вашим email» может победить «Как улучшить ваш email». Неприятие потерь в действии.

Dell протестировала GIF против статичного изображения в письме о продукте. Анимированный GIF, показывающий продукт в использовании, сгенерировал на 109% больше выручки, чем статичное изображение. Урок: показ продукта в действии, даже в простой анимации, помогает покупателю представить себе владение им.

Удаление hero-изображений из писем улучшило показатели от открытия до клика в нескольких задокументированных кейсах. Большое hero-изображение, кажущееся дизайн-команде необходимым, может на самом деле быть барьером для вовлечённости.

Добавление текста предпросмотра стабильно даёт примерно на 5% более высокие показатели открываемости. Это одно из самых простых и надёжных улучшений, которое вы можете сделать.

Пожалуй, самое контринтуитивное открытие: снижение частоты рассылок иногда увеличивает общую выручку. Как? За счёт улучшения размещения во входящих. Когда вы отправляете реже, но более вовлечённым получателям, провайдеры почтовых ящиков вознаграждают вас лучшим размещением, и письма, которые вы отправляете, работают значительно лучше. Больше — не всегда лучше. Оговорка: изменения частоты всегда должны следовать сигналам вовлечённости, этапу жизненного цикла и намерению подписчика — и не применяться как универсальный рычаг. Для небольших списков, дорогостоящих продуктов, B2B-аудиторий или брендов, восстанавливающихся после проблем с доставляемостью, увеличение частоты без контроля вовлечённости может иметь обратный эффект.

Многовариантное тестирование против A/B-тестирования. A/B-тестирование сравнивает две версии с одной изменённой переменной. Многовариантное тестирование изменяет несколько переменных одновременно и измеряет, как работают разные комбинации. Многовариантное тестирование привлекательно, потому что теоретически быстрее: оно тестирует много вещей сразу. На практике оно требует значительно больших размеров выборки для достижения значимости, поскольку вы делите трафик между гораздо большим количеством вариантов. Для большинства email-списков менее 100 000 придерживайтесь A/B-тестирования. Многовариантное тестирование становится практичным только при значительном масштабе.

Непрерывное Улучшение

Тестирование без системы — это просто случайное экспериментирование. Вам нужен процесс. И правильный фрейм имеет значение: A/B-тестирование — не только об оптимизации переменных, это структурированное обучение. Каждый тест должен начинаться с поведенческого предположения (а не просто «победит ли красный синий?»), использовать показатели успеха, согласованные с этим предположением, и давать знания, применимые за пределами отдельной рассылки. Тесты с малой мощностью, крохотными выборками и расплывчатыми гипотезами тратят время впустую. Хорошо спроектированные тесты с чёткими гипотезами накапливают знания.

Систематический подход Жанн Дженнингс — тот, который я бы рекомендовал: анализируйте текущую эффективность, чтобы определить слабое звено, сформулируйте гипотезу о том, что может его улучшить, проверьте эту гипотезу с помощью корректного A/B-теста, примените выигрышный вариант и повторяйте. Ключевое слово — систематически. Каждый тест строится на знаниях предыдущего.

Создайте календарь тестирования. Гэвин Лоджени выступает за квартальные планы тестирования, привязанные к бизнес-вопросам. Не тестируйте ради тестирования. Начните с вопроса: «Стоит ли нам имя отправителя открываемых писем?» или «Увеличит ли более короткое письмо количество кликов?» Затем разработайте тест для ответа на него. Документируйте результаты в общедоступном месте, чтобы накапливались институциональные знания.

Остерегайтесь избыточного тестирования. Если вы запускаете несколько тестов одновременно или изменяете слишком много переменных сразу, вам будет сложно атрибутировать результаты, и вы рискуете утомить список. Одного хорошо спроектированного теста на рассылку достаточно.

Накопительный эффект оптимизации — вот где находится реальная ценность. Улучшение показателя открываемости вашей welcome-серии на 2% может казаться тривиальным. Но это улучшение затрагивает каждого нового подписчика с этого момента до тех пор, пока вы снова не измените это. На протяжении тысяч подписчиков и месяцев рассылок 2% улучшение в базовом потоке приводит к значимой выручке.

Отдавайте приоритет тестированию автоматизированных потоков, а не кампаний. Тесты кампаний улучшают одну рассылку. Тесты потоков улучшают каждую рассылку через этот поток с этого момента. Если у вас ограниченная тестовая мощность, сосредоточьте её на welcome-серии, последовательности брошенной корзины и послепокупочном follow-up. Это ваши потоки с наибольшим объёмом и ценностью, и улучшения накапливаются бесконечно.

Документируйте всё в журнале тестирования. Минимально фиксируйте: что вы тестировали, гипотезу, размеры выборки для каждого варианта, результаты с уровнем достоверности, дату и что вы решили внедрить. Со временем этот журнал становится одним из самых ценных активов вашей email-программы. Он предотвращает повторное тестирование уже проверенного и выявляет паттерны в тестах, которые отдельные результаты могут упустить.

Send Time Optimisation

Send Time Optimisation (STO) использует данные о прошлом взаимодействии каждого подписчика для прогнозирования оптимального времени доставки каждого письма. Вместо того чтобы рассылать всему списку в 10:00 во вторник, STO ставит каждое письмо в очередь на момент, когда конкретный подписчик наиболее вероятно будет вовлечён.

Как это работает: Платформа отслеживает, когда каждый подписчик исторически открывал и кликал письма. Она строит подетальную модель паттернов вовлечённости (утренний человек, проверяющий в обед, ночной браузер) и соответственно ставит доставку в очередь. Для новых подписчиков с недостаточными данными о вовлечённости платформа обычно возвращается к средним показателям по аудитории, пока не накопится достаточно индивидуальных данных.

Сравнение платформ:

Платформа	Функция	Метод
Klaviyo	Smart Send Time	ML на уровне индивидуума
Seventh Sense	AI Send Time	Глубокий анализ по контакту
ActiveCampaign	Predictive Sending	Паттерны по контакту
Mailchimp	STO	Уровень аудитории (не индивидуальный)
Brevo	STO	Прогноз по контакту

Подробнее о каждом:

Smart Send Time Klaviyo использует машинное обучение для прогнозирования оптимальной доставки на уровне отдельного подписчика. Доступен в большинстве тарифов и хорошо работает для e-commerce.

Seventh Sense предлагает наиболее глубокий анализ по контакту и интегрируется с HubSpot и Marketo. Это самый продвинутый вариант для B2B и enterprise.

Predictive Sending ActiveCampaign строит паттерны по контакту и оптимизирует время доставки. Хороший вариант для малого и среднего B2B.

Send Time Optimisation Mailchimp работает на уровне аудитории, а не индивидуальном. Находит лучшее время для всей аудитории в целом, что менее точно, но всё же лучше, чем гадать.

STO Brevo предлагает прогноз по контакту и включён в их маркетинговую платформу.

Результаты: STO обычно даёт улучшение показателей открываемости на 5–15%. Это существенный прирост для функции, которая не требует никакой дополнительной работы после настройки.

Когда STO не помогает:

Контент, чувствительный ко времени. Если ваше письмо о распродаже, заканчивающейся через 4 часа, вы не можете растянуть его на 24 часа. Некоторые сообщения должны прийти в конкретное время.

Маленькие списки менее 1 000. Моделям нужно достаточно данных для поиска паттернов. С очень маленькими списками прогнозы недостаточно надёжны, чтобы превзойти информированное угадывание.

Транзакционные письма. Подтверждения заказов, сброс паролей и уведомления об отправке должны приходить немедленно. Задержка их ради «оптимального времени вовлечённости» расстроит клиентов.

Общие выводы о времени из широких данных:

Письма, отправленные между 4:00 и 6:00 утра, как правило, дают самые высокие показатели открываемости, поскольку они находятся в верхней части папки входящих, когда подписчик просыпается и проверяет телефон. Это не означает, что 4:00 утра — правильное время отправки для вашей аудитории, но объясняет, почему ранние утренние рассылки часто превосходят дневные.

Вторник и четверг, как правило, самые эффективные дни для B2B email. Понедельничные входящие переполнены после выходных. Пятничное внимание уже переключилось на выходные. Середина недели — оптимальное время.

Для B2C и e-commerce выходные дни могут фактически превосходить будние в определённых вертикалях (мода, еда, развлечения), поскольку у подписчиков больше свободного времени для просмотра.

Но вот реальный вывод: это обобщения. Ваша аудитория специфична. Инструменты STO существуют, потому что «лучшее» время отправки варьируется не только по аудитории, но и по индивидуumu. Используйте общие выводы как отправную точку, а затем позвольте данным и алгоритмам уточнять с этого момента.

Обработка часовых поясов — часто забываемый кузен send time optimisation. Если ваша аудитория охватывает несколько часовых поясов (а если у вас есть международные подписчики, то это так), отправка в 10:00 по вашему времени означает, что некоторые подписчики получают это в 3:00 ночи. Большинство ESP предлагают отправку с учётом часового пояса, которая доставляет в одинаковое местное время для каждого подписчика. Это не так точно, как полный STO, но это значительный шаг по сравнению с одновременной рассылкой всем. Для глобально распределённых аудиторий отправка с учётом часового пояса — это минимум, прежде чем вы вообще рассмотрите STO.

Создание Культуры Тестирования

Самые успешные email-программы, с которыми я работал, объединяет общая черта: они относятся к каждой рассылке как к возможности для обучения, а не только как к вещанию. Они спрашивают «Что мы узнали?» так же часто, как «Как это сработало?»

Это означает документирование результатов тестов там, где команда может их найти. Это означает празднование негативных результатов (узнать, что что-то не работает, — ценно). Это означает выделение времени и рассылок специально для тестирования, а не заполнение каждого слота кампаниями, ориентированными на выручку.

Посвящайте не менее 20% рассылок кампаний тестированию чего-либо. Не каждый тест принесёт победителя. Но в течение года победы, которые появятся, накопятся в программу, которая работает значительно лучше, чем там, где вы начали.

Делитесь результатами тестов между командами. Ваши выводы из email-тестирования не существуют в вакууме. Тест темы, который показывает, что ваша аудитория лучше реагирует на негативные формулировки, имеет последствия для ваших рекламных текстов, заголовков landing page и messaging продукта. Тест CTA, который показывает, что текст от первого лица превосходит текст от второго, применим везде, где вы пишете призывы к действию. Email-тестирование часто является самым быстрым и дешёвым способом узнать о предпочтениях аудитории, потому что обратная связь настолько тесная.

Когда тест не даёт победителя. Неопределённые результаты — тоже результаты. Они говорят вам, что тестируемая переменная не слишком важна для вашей аудитории, что освобождает вас от беспокойства о ней и позволяет сосредоточить оптимизационную энергию в другом месте. Если вы тестировали цвет кнопки и не обнаружили значимой разницы между красным и зелёным, теперь вы знаете, что цвет кнопки — не рычаг для вас. Переходите к тому, что является.

Тестирование — не фаза. Это практика.