제8장: 테스트와 최적화

좋은 이메일 프로그램과 훌륭한 이메일 프로그램의 차이는 거의 단 하나의 큰 아이디어에서 비롯되지 않습니다. 그것은 몇 달, 몇 년에 걸쳐 복리로 쌓이는 수백 가지의 작은 개선들입니다. 테스트는 그러한 개선을 발견하는 방법이고, 최적화는 그것을 정착시키는 방법입니다.

무엇을 테스트할까

모든 것이 테스트할 가치가 있는 것은 아닙니다. 주요 지표에 가장 큰 영향을 미치는 변경 사항, 이상적으로는 향후 발송에서도 복리로 쌓일 수 있는 변경 사항에 테스트 노력을 집중시키십시오.

제목 줄은 가장 흔하게 테스트되는 요소이며, 그럴 만한 이유가 있습니다. 하지만 한 번에 하나의 변수만 테스트하십시오. 이모지가 있는 짧은 제목과 이모지가 없는 긴 제목을 비교하지 마십시오. 어떤 변수가 차이를 만들었는지 알 수 없습니다. 하나의 실험에서는 길이를 테스트하고, 다른 실험에서는 개인화를, 또 다른 실험에서는 질문 대 서술문을, 다른 실험에서는 이모지 유무를 테스트하십시오.

발송 시간은 테스트 변수로서 저평가되어 있습니다. 같은 이메일이라도 오전 6시에 보내는 것과 오후 2시에 보내는 것은 극적으로 다른 결과를 보일 수 있습니다. Send Time Optimisation(STO) 플랫폼은 이것을 개인 수준에서 자동화하지만, 단순히 아침과 오후를 비교하는 테스트만으로도 청중에게 상당한 기회를 발견할 수 있습니다.

CTA는 고영향력 테스트 후보입니다. 버튼 대 텍스트 링크, 버튼 색상, 버튼 카피, 버튼 위치는 모두 클릭률에 영향을 미칩니다. 10% 개선을 가져오는 CTA 테스트는 이후 해당 CTA 형식을 사용하는 모든 이메일에 이익을 줍니다.

콘텐츠와 레이아웃 테스트는 청중이 장문 또는 단문 이메일을 선호하는지, 이미지 중심 또는 텍스트 중심 레이아웃을 선호하는지, 발송당 하나의 주제 또는 여러 주제를 선호하는지 드러냅니다.

발신자 이름은 실행할 수 있는 가장 가치 높은 테스트 중 하나입니다. 발신자 이름은 보내는 모든 이메일에 나타나기 때문에, 발신자 이름 변경으로 인한 작은 열람률 개선도 모든 미래 발송에 복리로 쌓입니다. 개인 이름 대 브랜드 이름 대 "브랜드의 특정인" 형식을 테스트하십시오.

'투박한 이메일' 테스트. 아름답게 디자인된 HTML 템플릿을 이미지 없이, 스타일 없이, 단어만 있는 일반 텍스트 버전과 비교 테스트하십시오. B2B 환경에서 일반 텍스트 버전이 이기는 경우를 보여주는 여러 사례 연구를 본 적이 있습니다. 때로는 상당히 큰 차이로. 겸허해지는 일이지만 그것이 데이터입니다.

히어로 이미지 제거. 여러 사례 연구에서 이메일 상단의 대형 히어로 이미지를 제거하면 클릭률이 향상된다는 것을 보여주었습니다. 이메일이 더 빨리 로딩되고, 더 개인적으로 보이며, CTA가 스크롤 위로 올라갑니다. 청중을 대상으로 테스트할 가치가 있습니다.

프리헤더 텍스트 유무. 이것은 실행할 수 있는 리스크가 가장 낮고 보상이 가장 높은 테스트 중 하나입니다. 현재 의도적인 미리보기 텍스트를 사용하지 않는다면, 추가하는 것을 테스트하십시오. 데이터는 일관되게 향상을 보여주며, 구현에는 약 30초가 걸립니다.

이메일 길이. 같은 오퍼와 CTA로 100단어 이메일과 400단어 이메일을 비교 테스트하십시오. 짧은 이메일이 더 높은 클릭률(CTA 전에 읽을 양이 적음)을 만들거나, 긴 이메일이 더 높은 전환율(더 많은 맥락이 더 많은 욕구를 만들어냄)을 만들 수도 있습니다. 답은 청중, 오퍼, 그리고 판매하는 것의 복잡성에 달려 있습니다. 단순한 제품은 짧은 카피에서 이점을 얻는 경향이 있습니다. 복잡하고 고려 기간이 긴 구매는 더 많은 세부 사항에서 이점을 얻는 경향이 있습니다.

테스트 우선순위 프레임워크: 두 가지 요소로 잠재적 테스트를 순위 매기십시오: 예상 영향(결과를 얼마나 개선할 수 있는가?)과 복리 효과(앞으로 몇 번의 발송이 혜택을 받을 것인가?). 높은 영향과 높은 복리 효과를 모두 가진 테스트는 항상 우선시되어야 합니다. 발신자 이름, CTA 형식, 이메일 템플릿 구조가 그 목록의 상위를 차지합니다. 제목 줄 테스트는 높은 영향을 가지지만 각 제목 줄이 고유하기 때문에 복리 효과는 낮습니다.

통계적 유의성

대부분의 마케터들은 A/B 테스트를 잘못 실행합니다. 몇 시간 후에 결과를 확인하고, 한 버전이 "이기고 있다"고 보고, 불완전한 데이터를 기반으로 승자를 선언합니다. 이는 실제로 단순한 무작위 노이즈였던 변경 사항을 구현하는 것으로 이어집니다.

A/B 테스트의 약 7분의 1만이 통계적으로 유의한 승자를 만들어냅니다. 즉, 7분의 6의 테스트는 어느 버전도 의미있게 더 좋지 않은 무승부로 끝납니다. 이것은 정상입니다. 현재 관행의 대부분이 이미 꽤 좋으며, 큰 승리는 주변부에서 발견된다는 것을 의미합니다.

샘플 크기 지침:

소규모 목록(5,000명 미만 구독자)의 경우, 목록의 20~30%를 테스트하십시오. 총 수가 적기 때문에 더 큰 샘플 비율이 필요합니다.

중간 규모 목록(5,000~50,000명)의 경우, 15~25%를 테스트하십시오.

대규모 목록(50,000명 이상)의 경우, 10~20%를 테스트하십시오. 절대 수가 유의성을 위해 충분히 크기 때문에 더 작은 비율을 사용할 수 있습니다.

신뢰할 수 있는 결과를 위한 대기 시간:

열람률 테스트의 경우, 2시간 데이터로 80% 이상의 정확도로 승자를 예측할 수 있습니다. 대부분의 열람은 배달 후 처음 2시간 이내에 발생합니다.

수익 기반 테스트의 경우, 90% 정확도를 달성하기 위해 하루 전체 동안 테스트를 실행하십시오. 구독자들이 클릭하고, 탐색하고, 결국 구매할 때 수익이 실현되는 데 시간이 더 걸립니다.

항상 같은 날 같은 시간에 두 가지 테스트 버전을 모두 발송하십시오. 화요일에 버전 A를 보내고 수요일에 버전 B를 보내는 것은 변수를 테스트하는 것이 아닙니다. 요일을 테스트하는 것입니다.

유의성 계산기를 사용하십시오. 눈으로 판단하지 마십시오. VWO의 A/B 테스트 유의성 계산기, Evan Miller의 계산기, 또는 ESP에 내장된 유의성 지표와 같은 도구들이 결과가 통계적으로 신뢰할 수 있는지 알려줄 것입니다. 대부분의 계산기는 95% 신뢰 수준을 사용하며, 이는 관찰된 차이가 무작위 기회로 인한 것일 확률이 5%에 불과하다는 것을 의미합니다. 95% 신뢰도 미만에서는 승자를 선언하지 마십시오.

베이지안 검정 대 빈도론적 검정. 일부 플랫폼(Klaviyo와 Optimizely 포함)은 전통적인 빈도론적 방법 대신 베이지안 통계를 사용합니다. 베이지안 검정은 한 버전이 다른 버전보다 나을 확률을 제공합니다(예: "버전 A가 승자일 확률이 92%입니다"). 많은 사람들이 p-값과 신뢰 구간보다 이것이 더 직관적이라고 느낍니다. 어느 접근법도 유효합니다. 중요한 것은 추측하는 대신 그 중 하나를 사용한다는 것입니다.

A/B 테스트의 놀라운 발견들

가장 교훈적인 테스트 결과 중 일부는 아무도 예상하지 못했던 것들입니다.

오바마 캠페인의 "Hey" 제목 줄이 가장 가까운 경쟁자보다 250만 달러 더 많은 금액을 모은 것은 여전히 가장 많이 인용되는 사례입니다. 캠페인의 이메일 팀은 충격을 받았습니다. 그들은 캐주얼하고 개인적인 제목 줄이 정치 자금 모금에 효과가 없을 것이라고 생각했습니다. 틀렸습니다.

부정적인 제목 줄이 긍정적인 것보다 더 좋은 성과를 낼 수 있습니다. "이메일에서 이 실수를 하지 마세요"가 "이메일을 개선하는 방법"을 이길 수 있습니다. 손실 회피가 작동하는 것입니다.

Dell은 제품 이메일에서 GIF와 정적 이미지를 테스트했습니다. 사용 중인 제품을 보여주는 애니메이션 GIF가 정적 이미지보다 109% 더 많은 수익을 창출했습니다. 교훈: 제품이 실제로 사용되는 모습을 보여주는 것이, 단순한 애니메이션일지라도, 구매자가 소유권을 시각화하는 데 도움이 됩니다.

이메일에서 히어로 이미지를 제거하면 여러 문서화된 사례 연구에서 열람에서 클릭까지의 비율이 향상되었습니다. 디자인 팀에게 필수적으로 느껴지는 큰 히어로 이미지가 실제로는 참여의 장벽이 될 수 있습니다.

프리뷰 텍스트를 추가하면 일관되게 열람률이 약 5% 더 높아집니다. 이것은 당신이 할 수 있는 가장 간단하고 신뢰할 수 있는 개선 중 하나입니다.

아마도 가장 반직관적인 발견: 이메일 빈도를 줄이면 때로 총 수익이 증가합니다. 어떻게? 받은편지함 배치를 개선함으로써. 빈도를 낮추면서 더 참여도 높은 수신자에게 보내면, 받은편지함 제공업체들이 더 좋은 배치로 보상하고, 실제로 보내는 이메일들이 훨씬 더 좋은 성과를 냅니다. 더 많다고 항상 더 좋은 것은 아닙니다. 주의 사항: 빈도 변경은 항상 참여 신호, 생애 주기 단계, 구독자 의도를 따라야 하며 범용 레버로 적용해서는 안 됩니다. 더 작은 목록, 고가 제품, B2B 청중, 또는 이메일 전달성 문제에서 회복 중인 브랜드의 경우, 참여 제어 없이 빈도를 높이는 것은 역효과를 낼 수 있습니다.

다변량 테스트 대 A/B 테스트. A/B 테스트는 하나의 변수를 변경하여 두 버전을 비교합니다. 다변량 테스트는 여러 변수를 동시에 변경하고 다른 조합이 어떻게 수행되는지 측정합니다. 다변량 테스트는 이론적으로 더 빠르게 많은 것을 한 번에 테스트할 수 있어 매력적입니다. 실제로는 더 많은 변형에 트래픽을 분산시키기 때문에 유의성에 도달하기 위해 훨씬 더 큰 샘플 크기가 필요합니다. 100,000명 미만의 대부분의 이메일 목록의 경우, A/B 테스트를 고수하십시오. 다변량 테스트는 상당한 규모에서만 실용적이 됩니다.

지속적인 개선

시스템 없는 테스트는 단순한 무작위 실험입니다. 프로세스가 필요합니다. 그리고 올바른 프레임이 중요합니다: A/B 테스트는 단순히 변수를 최적화하는 것이 아닙니다 — 구조화된 학습입니다. 모든 테스트는 행동적 가정("빨간색이 파란색을 이길 것인가?"뿐만 아니라)에서 시작해야 하고, 그 가정에 맞는 성공 지표를 사용하고, 개별 발송을 넘어 적용할 수 있는 학습을 생성해야 합니다. 작은 샘플과 모호한 가설로 힘이 부족한 테스트는 시간을 낭비합니다. 명확한 가설을 가진 잘 설계된 테스트는 복리 지식을 구축합니다.

Jeanne Jennings의 체계적인 접근법이 제가 추천하는 것입니다: 현재 성과를 분석하여 가장 약한 고리를 파악하고, 그것을 개선할 수 있는 것에 대한 가설을 세우고, 적절한 A/B 테스트로 그 가설을 테스트하고, 승리한 변형을 적용하고, 반복합니다. 핵심 단어는 체계적입니다. 각 테스트는 이전 테스트의 학습 위에 구축됩니다.

테스트 캘린더를 구축하십시오. Gavin Laugenie는 비즈니스 질문에 연결된 분기별 테스트 계획을 주장합니다. 테스트를 위해 테스트하지 마십시오. 질문으로 시작하십시오: "발신자 이름이 우리의 열람을 줄이고 있는가?" 또는 "더 짧은 이메일이 클릭을 증가시킬까?" 그런 다음 그것에 답하기 위한 테스트를 설계하십시오. 조직 지식이 축적될 수 있도록 공유된 위치에 결과를 문서화하십시오.

과도한 테스트를 주의하십시오. 여러 테스트를 동시에 실행하거나 한 번에 너무 많은 변수를 변경하면 결과를 귀속시키는 데 어려움을 겪고 목록을 피로하게 만들 위험이 있습니다. 발송당 하나의 잘 설계된 테스트로 충분합니다.

최적화의 복리 효과가 진정한 가치가 있는 곳입니다. 웰컴 시리즈 열람률에서 2% 개선은 사소해 보일 수 있습니다. 하지만 그 개선은 지금부터 다시 변경할 때까지 모든 단일 신규 구독자에게 영향을 미칩니다. 수천 명의 구독자와 수개월의 발송에 걸쳐, 기초 플로우에서 2% 개선은 의미 있는 수익으로 해석됩니다.

캠페인보다 자동화 플로우 테스트를 우선시하십시오. 캠페인 테스트는 단일 발송을 개선합니다. 플로우 테스트는 지금부터 그 플로우를 통과하는 모든 발송을 개선합니다. 제한된 테스트 역량이 있다면, 웰컴 시리즈, 장바구니 포기 시퀀스, 구매 후 후속 조치에 집중하십시오. 이것들이 가장 높은 볼륨과 가장 높은 가치의 플로우이며, 개선은 무한히 복리로 쌓입니다.

테스트 로그에 모든 것을 문서화하십시오. 최소한 기록할 것들: 테스트한 것, 가설, 각 변형에 대한 샘플 크기, 신뢰 수준이 포함된 결과, 날짜, 그리고 구현하기로 결정한 것. 시간이 지남에 따라 이 로그는 이메일 프로그램에서 가장 가치 있는 자산 중 하나가 됩니다. 이미 테스트한 것을 다시 테스트하는 것을 방지하고, 개별 결과에서는 놓칠 수 있는 테스트 전반의 패턴을 드러냅니다.

Send Time Optimisation

Send Time Optimisation(STO)은 각 구독자의 과거 참여에 대한 데이터를 사용하여 각 이메일을 배달하기 위한 최적의 시간을 예측합니다. 화요일 오전 10시에 전체 목록에 일괄 발송하는 대신, STO는 특정 구독자가 참여할 가능성이 가장 높은 순간에 각 이메일을 대기열에 넣습니다.

작동 방식: 플랫폼은 각 구독자가 역사적으로 이메일을 열고 클릭한 시간을 추적합니다. 참여 패턴의 구독자별 모델(아침형 인간, 점심시간 확인자, 늦은 밤 탐색자)을 구축하고 그에 따라 배달을 대기열에 넣습니다. 참여 데이터가 불충분한 새로운 구독자의 경우, 충분한 개인 데이터가 축적될 때까지 플랫폼은 일반적으로 청중 수준 평균으로 대체합니다.

플랫폼 비교:

플랫폼	기능	방법
Klaviyo	Smart Send Time	개인별 ML
Seventh Sense	AI Send Time	연락처별 심층 분석
ActiveCampaign	Predictive Sending	연락처별 패턴
Mailchimp	STO	청중 수준(개인 아님)
Brevo	STO	연락처별 예측

각 플랫폼에 대한 더 많은 맥락:

Klaviyo의 Smart Send Time은 기계학습을 사용하여 개별 구독자 수준에서 최적의 배달을 예측합니다. 대부분의 플랜에서 이용 가능하며 이커머스에 잘 작동합니다.

Seventh Sense는 HubSpot과 Marketo와 통합하여 가장 깊은 연락처별 분석을 제공합니다. B2B와 엔터프라이즈를 위한 가장 정교한 옵션입니다.

ActiveCampaign의 Predictive Sending은 연락처별 패턴을 구축하고 배달 타이밍을 최적화합니다. 중소규모 B2B를 위한 좋은 옵션입니다.

Mailchimp의 Send Time Optimisation은 개인 수준이 아닌 청중 수준에서 작동합니다. 전체 청중을 위한 최적의 시간을 찾으며, 덜 정밀하지만 추측보다는 낫습니다.

Brevo의 STO는 연락처별 예측을 제공하며 마케팅 플랫폼에 포함되어 있습니다.

결과: STO는 일반적으로 열람률에서 5~15% 개선을 제공합니다. 설정 후 추가 작업이 필요 없는 기능치고는 상당한 향상입니다.

STO가 도움이 되지 않는 경우:

시간에 민감한 콘텐츠. 4시간 후 종료되는 플래시 세일에 관한 이메일이라면 24시간에 걸쳐 발송할 수 없습니다. 일부 메시지는 특정 시간에 도달해야 합니다.

1,000명 미만의 소규모 목록. 모델은 패턴을 찾기 위해 충분한 데이터가 필요합니다. 매우 작은 목록에서는 예측이 정보에 기반한 추측을 능가할 만큼 신뢰할 수 없습니다.

트랜잭션 이메일. 주문 확인, 비밀번호 재설정, 배송 알림은 즉시 도착해야 합니다. "최적 참여 시간"을 위해 지연하면 고객을 실망시킬 것입니다.

광범위한 데이터의 일반적인 타이밍 발견:

오전 4시와 6시 사이에 발송된 이메일은 구독자가 잠에서 깨어나 휴대폰을 확인할 때 받은편지함 상단에 있기 때문에 가장 높은 열람률을 내는 경향이 있습니다. 이것이 오전 4시가 청중에게 적합한 발송 시간이라는 의미는 아니지만, 이른 아침 발송이 낮 시간 발송을 자주 능가하는 이유를 설명합니다.

B2B 이메일에서는 화요일과 목요일이 가장 좋은 성과를 내는 경향이 있습니다. 월요일 받은편지함은 주말 이후로 붐빕니다. 금요일의 주의는 이미 주말로 이동했습니다. 주중이 최적 지점입니다.

B2C와 이커머스의 경우, 특정 분야(패션, 음식, 엔터테인먼트)에서 구독자들이 더 많은 여가 탐색 시간을 가지기 때문에 실제로 주말이 평일을 능가할 수 있습니다.

하지만 진정한 결론은: 이것들은 일반화입니다. 청중은 특별합니다. STO 도구가 존재하는 이유는 "최적" 발송 시간이 청중마다 다를 뿐만 아니라 개인마다도 다르기 때문입니다. 일반적인 발견을 출발점으로 사용하고, 그곳에서 데이터와 알고리즘이 정교화하도록 하십시오.

시간대 처리는 발송 시간 최적화의 자주 잊혀지는 사촌입니다. 청중이 여러 시간대에 걸쳐 있다면(국제 구독자가 있다면 그렇습니다), 자신의 시간대 기준 오전 10시에 발송하는 것은 일부 구독자들이 오전 3시에 받는다는 것을 의미합니다. 대부분의 ESP는 각 구독자에게 동일한 현지 시간에 배달하는 시간대 기반 발송을 제공합니다. 완전한 STO만큼 정밀하지는 않지만 한 번에 모든 것을 발송하는 것보다 상당히 개선됩니다. 글로벌하게 분산된 청중의 경우, STO를 고려하기 전에 시간대 발송은 기본입니다.

테스트 문화 구축

제가 함께 일한 가장 성공적인 이메일 프로그램들은 공통적인 특성을 공유합니다: 그들은 모든 발송을 단순한 방송이 아닌 학습 기회로 취급합니다. "어떻게 수행됐나?"만큼 자주 "무엇을 배웠나?"를 묻습니다.

이것은 팀이 찾을 수 있는 곳에 테스트 결과를 문서화하는 것을 의미합니다. 부정적인 결과를 축하하는 것을 의미합니다(무언가가 작동하지 않는다는 것을 배우는 것은 가치 있습니다). 모든 슬롯을 수익 중심 캠페인으로 채우는 대신 구체적으로 테스트를 위한 시간과 발송을 할당하는 것을 의미합니다.

캠페인 발송의 최소 20%를 무언가를 테스트하는 데 전용하십시오. 모든 테스트가 승자를 만들어내지는 않습니다. 하지만 일 년에 걸쳐, 나타나는 승리들은 시작점보다 의미있게 더 좋은 성과를 내는 프로그램으로 복리 효과를 냅니다.

팀 간에 테스트 결과를 공유하십시오. 이메일 테스트 통찰력은 진공 속에 존재하지 않습니다. 청중이 부정적인 프레이밍에 더 잘 반응한다는 것을 드러낸 제목 줄 테스트는 광고 카피, 랜딩 페이지 헤드라인, 제품 메시징에 시사점을 가집니다. 1인칭 카피가 2인칭을 능가한다는 것을 보여주는 CTA 테스트는 행동 유도를 작성하는 모든 곳에 적용됩니다. 이메일 테스트는 피드백 루프가 매우 빡빡하기 때문에 종종 청중의 선호를 배우는 가장 빠르고 저렴한 방법입니다.

테스트가 승자를 만들어내지 못할 때. 결정적이지 않은 결과도 여전히 결과입니다. 그것들은 테스트한 변수가 청중에게 그다지 중요하지 않다는 것을 알려줘서, 그것에 대한 걱정을 멈추고 다른 곳으로 최적화 에너지를 집중할 수 있게 합니다. 버튼 색상을 테스트하여 빨간색과 녹색 사이에 유의한 차이가 없다는 것을 발견했다면, 이제 버튼 색상이 당신에게는 레버가 아니라는 것을 알게 됩니다. 실제로 그런 것으로 이동하십시오.

테스트는 단계가 아닙니다. 그것은 실천입니다.