Bab 8: Pengujian dan Optimasi

Perbedaan antara program email yang baik dan yang luar biasa jarang disebabkan oleh satu ide besar. Ini terdiri dari ratusan peningkatan kecil yang terakumulasi selama berbulan-bulan dan bertahun-tahun. Pengujian adalah cara Anda menemukan peningkatan tersebut. Optimasi adalah cara Anda mengabadikannya.

Apa yang Harus Diuji

Tidak semua hal layak diuji. Fokuskan upaya pengujian Anda pada perubahan yang akan memberikan dampak terbesar pada metrik utama Anda dan, idealnya, yang akan terus terakumulasi pada pengiriman mendatang.

Baris subjek adalah elemen yang paling sering diuji, dan dengan alasan yang baik. Tetapi uji satu variabel sekaligus. Jangan menguji baris subjek pendek dengan emoji melawan baris panjang tanpa emoji. Anda tidak akan tahu variabel mana yang menyebabkan perbedaan tersebut. Uji panjang dalam satu eksperimen. Personalisasi di eksperimen lain. Pertanyaan vs. pernyataan di eksperimen lain. Emoji vs. tanpa emoji di eksperimen lain.

Waktu pengiriman diremehkan sebagai variabel uji. Email yang sama dikirim pukul 06:00 vs. 14:00 dapat menunjukkan hasil yang sangat berbeda. Platform Send Time Optimisation (STO) mengotomatiskan hal ini di tingkat individu, tetapi bahkan pengujian sederhana pagi vs. siang untuk audiens Anda dapat mengungkapkan peluang signifikan.

CTA adalah kandidat pengujian berdampak tinggi. Tombol vs. tautan teks, warna tombol, salinan tombol, dan posisi tombol semuanya memengaruhi tingkat klik. Pengujian CTA yang menghasilkan peningkatan 10% bermanfaat bagi setiap email yang menggunakan format CTA tersebut ke depannya.

Pengujian konten dan tata letak mengungkapkan apakah audiens Anda lebih menyukai email panjang atau pendek, tata letak yang kaya gambar atau teks, dan satu atau beberapa topik per pengiriman.

Nama pengirim adalah salah satu pengujian paling bernilai yang dapat Anda lakukan. Karena nama pengirim muncul di setiap email yang Anda kirim, bahkan peningkatan kecil dalam tingkat buka akibat perubahan nama pengirim terakumulasi di semua pengiriman mendatang. Uji nama pribadi vs. nama merek vs. format "orang di merek".

Pengujian 'email jelek'. Ambil template HTML Anda yang dirancang dengan indah dan uji terhadap versi teks biasa tanpa gambar, tanpa gaya, hanya kata-kata. Saya telah melihat beberapa studi kasus di mana versi teks biasa menang dalam konteks B2B, terkadang secara signifikan. Itu mengundang kerendahan hati, tetapi itu adalah data.

Menghapus gambar hero. Beberapa studi kasus telah menunjukkan bahwa menghapus gambar hero besar dari bagian atas email meningkatkan tingkat klik. Email memuat lebih cepat, terlihat lebih personal, dan CTA bergerak ke atas lipatan. Hal ini layak untuk diuji bagi audiens Anda.

Teks preheader vs. tanpa teks preheader. Ini adalah salah satu pengujian dengan risiko terendah dan hadiah tertinggi yang dapat Anda lakukan. Jika Anda saat ini tidak menggunakan teks pratinjau yang disengaja, uji penambahan teks tersebut. Data secara konsisten menunjukkan peningkatan, dan implementasinya membutuhkan waktu sekitar 30 detik.

Panjang email. Uji email 100 kata terhadap email 400 kata dengan penawaran dan CTA yang sama. Anda mungkin menemukan bahwa email lebih pendek menghasilkan tingkat klik lebih tinggi (lebih sedikit dibaca sebelum CTA) atau bahwa email lebih panjang menghasilkan tingkat konversi lebih tinggi (lebih banyak konteks membangun lebih banyak keinginan). Jawabannya bergantung pada audiens Anda, penawaran Anda, dan kompleksitas apa yang Anda jual. Produk sederhana cenderung mendapat manfaat dari salinan yang lebih pendek. Pembelian kompleks yang membutuhkan pertimbangan tinggi cenderung mendapat manfaat dari lebih banyak detail.

Kerangka prioritas pengujian: Urutkan pengujian potensial berdasarkan dua faktor: dampak yang diharapkan (seberapa banyak hal ini dapat meningkatkan hasil?) dan efek akumulasi (berapa banyak pengiriman mendatang yang akan mendapat manfaat?). Pengujian dengan dampak tinggi dan efek akumulasi tinggi harus selalu diprioritaskan. Nama pengirim, format CTA, dan struktur template email berada di urutan teratas daftar tersebut. Pengujian baris subjek memiliki dampak tinggi tetapi efek akumulasi rendah karena setiap baris subjek bersifat unik.

Signifikansi Statistik

Sebagian besar pemasar menjalankan pengujian A/B dengan cara yang salah. Mereka memeriksa hasil setelah beberapa jam, melihat bahwa satu versi sedang "menang," dan mendeklarasikan pemenang berdasarkan data yang tidak lengkap. Ini menyebabkan penerapan perubahan yang sebenarnya hanya kebisingan acak.

Hanya sekitar 1 dari 7 pengujian A/B menghasilkan pemenang yang signifikan secara statistik. Itu berarti 6 dari 7 pengujian berakhir seri di mana tidak ada versi yang secara bermakna lebih baik. Ini normal. Artinya sebagian besar praktik Anda saat ini sudah cukup baik, dan kemenangan besar ditemukan di margin.

Pedoman ukuran sampel:

Untuk daftar kecil (di bawah 5.000 pelanggan), uji 20 hingga 30% daftar Anda. Anda memerlukan proporsi sampel yang lebih besar karena jumlah totalnya kecil.

Untuk daftar menengah (5.000 hingga 50.000), uji 15 hingga 25%.

Untuk daftar besar (50.000+), uji 10 hingga 20%. Anda dapat menggunakan proporsi yang lebih kecil karena jumlah absolutnya sudah cukup besar untuk signifikansi.

Waktu tunggu untuk hasil yang dapat diandalkan:

Untuk pengujian tingkat buka, 2 jam data memprediksi pemenang dengan akurasi 80%+. Sebagian besar pembukaan terjadi dalam 2 jam pertama setelah pengiriman.

Untuk pengujian berbasis pendapatan, biarkan pengujian berjalan selama satu hari penuh untuk mencapai akurasi 90%. Pendapatan membutuhkan lebih banyak waktu untuk terwujud saat pelanggan mengklik, menjelajah, dan akhirnya melakukan pembelian.

Selalu kirimkan kedua versi pengujian pada waktu yang sama di hari yang sama. Mengirim versi A pada Selasa dan versi B pada Rabu tidak menguji variabel Anda. Itu menguji hari dalam seminggu.

Gunakan kalkulator signifikansi. Jangan menebak-nebak. Alat seperti kalkulator signifikansi pengujian A/B VWO, kalkulator Evan Miller, atau indikator signifikansi bawaan ESP Anda akan memberi tahu apakah hasil Anda dapat diandalkan secara statistik. Sebagian besar kalkulator menggunakan tingkat kepercayaan 95%, yang berarti hanya ada kemungkinan 5% bahwa perbedaan yang diamati disebabkan oleh kebetulan acak. Jangan mendeklarasikan pemenang di bawah kepercayaan 95%.

Pengujian Bayesian vs. frekuentis. Beberapa platform (termasuk Klaviyo dan Optimizely) menggunakan statistik Bayesian daripada metode frekuentis tradisional. Pengujian Bayesian memberi Anda probabilitas bahwa satu versi lebih baik dari yang lain (misalnya, "Versi A memiliki probabilitas 92% menjadi pemenang"), yang banyak orang anggap lebih intuitif daripada nilai-p dan interval kepercayaan. Kedua pendekatan ini valid. Yang penting adalah Anda menggunakan salah satunya daripada menebak.

Kejutan Pengujian A/B

Beberapa hasil pengujian yang paling instruktif adalah yang tidak ada seorang pun yang memperkirakan.

Baris subjek "Hey" kampanye Obama yang mengumpulkan $2,5 juta lebih banyak dari pesaing terdekatnya tetap menjadi contoh yang paling sering dikutip. Tim email kampanye tersebut terkejut. Mereka berasumsi bahwa baris subjek yang santai dan personal tidak akan berhasil untuk penggalangan dana politik. Mereka salah.

Baris subjek negatif dapat mengungguli yang positif. "Jangan buat kesalahan ini dengan email Anda" bisa mengalahkan "Cara meningkatkan email Anda." Aversi kerugian bekerja.

Dell menguji GIF vs. gambar statis dalam email produk. GIF animasi yang menampilkan produk dalam penggunaan menghasilkan pendapatan 109% lebih banyak daripada gambar statis. Pelajarannya: menampilkan produk dalam aksi, bahkan dalam animasi sederhana, membantu pembeli memvisualisasikan kepemilikan.

Menghapus gambar hero dari email telah meningkatkan tingkat buka-ke-klik dalam beberapa studi kasus yang terdokumentasi. Gambar hero besar yang tampak penting bagi tim desain sebenarnya dapat menjadi penghalang keterlibatan.

Menambahkan teks pratinjau secara konsisten menghasilkan tingkat buka sekitar 5% lebih tinggi. Ini adalah salah satu peningkatan yang paling sederhana dan paling andal yang dapat Anda lakukan.

Mungkin temuan yang paling kontraintuitif: mengurangi frekuensi email terkadang meningkatkan total pendapatan. Bagaimana? Dengan meningkatkan penempatan di kotak masuk. Saat Anda mengirim lebih jarang tetapi kepada penerima yang lebih terlibat, penyedia kotak masuk memberi penghargaan kepada Anda dengan penempatan yang lebih baik, dan email yang Anda kirimkan berkinerja jauh lebih baik. Lebih banyak tidak selalu lebih baik. Catatan penting: perubahan frekuensi harus selalu mengikuti sinyal keterlibatan, tahap siklus hidup, dan maksud pelanggan — bukan diterapkan sebagai tuas universal. Untuk daftar yang lebih kecil, produk mahal, audiens B2B, atau merek yang pulih dari masalah pengiriman, meningkatkan frekuensi tanpa kontrol keterlibatan dapat berdampak buruk.

Pengujian multivariat vs. pengujian A/B. Pengujian A/B membandingkan dua versi dengan satu variabel yang diubah. Pengujian multivariat mengubah beberapa variabel secara bersamaan dan mengukur bagaimana berbagai kombinasi berkinerja. Pengujian multivariat menarik karena secara teori lebih cepat, menguji banyak hal sekaligus. Dalam praktiknya, diperlukan ukuran sampel yang jauh lebih besar untuk mencapai signifikansi karena Anda membagi lalu lintas ke lebih banyak varian. Untuk sebagian besar daftar email di bawah 100.000, tetaplah menggunakan pengujian A/B. Pengujian multivariat baru menjadi praktis dalam skala yang signifikan.

Peningkatan Berkelanjutan

Pengujian tanpa sistem hanyalah eksperimentasi acak. Anda membutuhkan proses. Dan kerangka berpikir yang tepat sangat penting: pengujian A/B bukan hanya tentang mengoptimalkan variabel — ini adalah pembelajaran terstruktur. Setiap pengujian harus dimulai dengan asumsi perilaku (bukan hanya "akankah merah mengalahkan biru?"), menggunakan metrik keberhasilan yang selaras dengan asumsi tersebut, dan menghasilkan pembelajaran yang dapat Anda terapkan di luar pengiriman individual. Pengujian bertenaga rendah dengan sampel kecil dan hipotesis samar membuang-buang waktu. Pengujian yang dirancang dengan baik dengan hipotesis yang jelas membangun pengetahuan yang terakumulasi.

Pendekatan sistematis Jeanne Jennings adalah yang akan saya rekomendasikan: analisis kinerja Anda saat ini untuk mengidentifikasi mata rantai yang paling lemah, bentuk hipotesis tentang apa yang mungkin meningkatkannya, uji hipotesis tersebut dengan pengujian A/B yang tepat, terapkan varian pemenang, dan ulangi. Kata kuncinya adalah sistematis. Setiap pengujian dibangun di atas pembelajaran dari pengujian sebelumnya.

Buat kalender pengujian. Gavin Laugenie mengadvokasi rencana pengujian kuartalan yang terkait dengan pertanyaan bisnis. Jangan menguji demi menguji. Mulailah dengan pertanyaan: "Apakah nama pengirim kami mengikis pembukaan?" atau "Akankah email yang lebih pendek meningkatkan klik?" Kemudian rancang pengujian untuk menjawabnya. Dokumentasikan hasil di lokasi bersama sehingga pengetahuan institusional terakumulasi.

Waspadai pengujian berlebihan. Jika Anda menjalankan beberapa pengujian secara bersamaan, atau mengubah terlalu banyak variabel sekaligus, Anda akan kesulitan mengaitkan hasil dan berisiko melelahkan daftar Anda. Satu pengujian yang dirancang dengan baik per pengiriman sudah cukup.

Efek akumulasi optimasi adalah tempat nilai nyata berada. Peningkatan 2% dalam tingkat buka seri selamat datang Anda mungkin tampak sepele. Tetapi peningkatan itu memengaruhi setiap pelanggan baru tunggal dari sekarang hingga Anda mengubahnya lagi. Selama ribuan pelanggan dan berbulan-bulan pengiriman, peningkatan 2% dalam aliran dasar menghasilkan pendapatan yang bermakna.

Prioritaskan pengujian aliran otomatis Anda daripada kampanye. Pengujian kampanye meningkatkan satu pengiriman. Pengujian aliran meningkatkan setiap pengiriman melalui aliran tersebut mulai sekarang. Jika Anda memiliki kapasitas pengujian yang terbatas, fokuskan pada seri selamat datang Anda, urutan keranjang yang ditinggalkan, dan tindak lanjut pasca-pembelian. Ini adalah aliran bervolume tertinggi dan bernilai tertinggi Anda, dan peningkatan terakumulasi tanpa batas.

Dokumentasikan semuanya dalam log pengujian. Minimal, catat: apa yang Anda uji, hipotesis, ukuran sampel untuk setiap varian, hasil dengan tingkat kepercayaan, tanggal, dan apa yang Anda putuskan untuk diterapkan. Seiring waktu, log ini menjadi salah satu aset paling berharga dalam program email Anda. Ini mencegah Anda menguji ulang hal-hal yang sudah pernah Anda uji, dan mengungkapkan pola di seluruh pengujian yang mungkin dilewatkan oleh hasil individual.

Send Time Optimisation

Send Time Optimisation (STO) menggunakan data tentang keterlibatan masa lalu setiap pelanggan untuk memprediksi waktu pengiriman yang optimal untuk setiap email. Alih-alih mengirim seluruh daftar Anda pukul 10:00 pada hari Selasa, STO mengantri setiap email untuk saat-saat ketika pelanggan tertentu itu paling mungkin terlibat.

Cara kerjanya: Platform melacak kapan setiap pelanggan secara historis membuka dan mengklik email. Platform membangun model per pelanggan tentang pola keterlibatan (orang pagi, pemeriksa waktu makan siang, browser malam) dan mengantri pengiriman sesuai. Untuk pelanggan baru dengan data keterlibatan yang tidak memadai, platform biasanya kembali ke rata-rata tingkat audiens hingga data individual yang cukup terakumulasi.

Perbandingan platform:

Platform	Fitur	Metode
Klaviyo	Smart Send Time	ML per individu
Seventh Sense	AI Send Time	Analisis mendalam per kontak
ActiveCampaign	Predictive Sending	Pola per kontak
Mailchimp	STO	Tingkat audiens (bukan individu)
Brevo	STO	Prediksi per kontak

Berikut konteks lebih lanjut tentang masing-masing:

Smart Send Time Klaviyo menggunakan machine learning untuk memprediksi pengiriman optimal di tingkat pelanggan individual. Tersedia di sebagian besar paket dan bekerja dengan baik untuk e-commerce.

Seventh Sense menawarkan analisis per kontak yang paling mendalam dan terintegrasi dengan HubSpot dan Marketo. Ini adalah opsi paling canggih untuk B2B dan enterprise.

Predictive Sending ActiveCampaign membangun pola per kontak dan mengoptimalkan waktu pengiriman. Pilihan bagus untuk B2B kecil hingga menengah.

Send Time Optimisation Mailchimp bekerja di tingkat audiens, bukan tingkat individual. Platform ini menemukan waktu terbaik untuk seluruh audiens Anda, yang kurang presisi tetapi masih lebih baik daripada menebak.

STO Brevo menawarkan prediksi per kontak dan termasuk dalam platform pemasaran mereka.

Hasil: STO biasanya menghasilkan peningkatan 5 hingga 15% dalam tingkat buka. Itu adalah peningkatan substansial untuk fitur yang tidak memerlukan pekerjaan tambahan setelah pengaturan.

Kapan STO tidak membantu:

Konten yang sensitif waktu. Jika email Anda tentang flash sale yang berakhir dalam 4 jam, Anda tidak dapat meneteskannya selama 24 jam. Beberapa pesan perlu tiba pada waktu tertentu.

Daftar kecil di bawah 1.000. Model membutuhkan data yang cukup untuk menemukan pola. Dengan daftar yang sangat kecil, prediksinya tidak cukup dapat diandalkan untuk mengungguli tebakan yang tepat.

Email transaksional. Konfirmasi pesanan, reset kata sandi, dan notifikasi pengiriman harus tiba segera. Menundanya untuk "waktu keterlibatan optimal" akan membuat frustrasi pelanggan.

Temuan waktu umum dari data yang luas:

Email yang dikirim antara pukul 04:00 dan 06:00 cenderung menghasilkan tingkat buka tertinggi, karena berada di bagian atas kotak masuk saat pelanggan bangun dan memeriksa ponselnya. Ini bukan berarti pukul 04:00 adalah waktu pengiriman yang tepat untuk audiens Anda, tetapi hal ini menjelaskan mengapa pengiriman dini hari sering mengungguli pengiriman tengah hari.

Selasa dan Kamis cenderung menjadi hari berkinerja terbaik untuk email B2B. Kotak masuk hari Senin penuh dengan email dari akhir pekan. Perhatian hari Jumat sudah beralih ke akhir pekan. Pertengahan minggu mencapai titik manis.

Untuk B2C dan e-commerce, akhir pekan sebenarnya dapat mengungguli hari kerja untuk vertikal tertentu (fashion, makanan, hiburan) karena pelanggan memiliki lebih banyak waktu luang untuk menjelajah.

Namun inilah inti kesimpulannya: ini semua adalah generalisasi. Audiens Anda spesifik. Alat STO ada karena waktu pengiriman "terbaik" bervariasi tidak hanya berdasarkan audiens, tetapi berdasarkan individu. Gunakan temuan umum sebagai titik awal, kemudian biarkan data dan algoritma mempersempitnya dari sana.

Penanganan zona waktu adalah sepupu yang sering terlupakan dari send time optimisation. Jika audiens Anda mencakup beberapa zona waktu (dan jika Anda memiliki pelanggan internasional, memang demikian), mengirim pukul 10:00 di zona waktu Anda berarti beberapa pelanggan menerimanya pukul 03:00 pagi. Sebagian besar ESP menawarkan pengiriman berbasis zona waktu yang mengirimkan pada waktu lokal yang sama untuk setiap pelanggan. Ini tidak sepresisi STO penuh, tetapi merupakan langkah maju yang signifikan dari mengirim semuanya sekaligus. Untuk audiens yang tersebar secara global, pengiriman zona waktu adalah hal mendasar sebelum Anda bahkan mempertimbangkan STO.

Membangun Budaya Pengujian

Program email paling sukses yang pernah saya kerjakan memiliki sifat umum: mereka memperlakukan setiap pengiriman sebagai kesempatan belajar, bukan hanya siaran. Mereka bertanya "apa yang kita pelajari?" sesering "bagaimana kinerjanya?"

Ini berarti mendokumentasikan hasil pengujian di mana tim dapat menemukannya. Ini berarti merayakan hasil negatif (mengetahui bahwa sesuatu tidak berhasil adalah berharga). Ini berarti mengalokasikan waktu dan pengiriman khusus untuk pengujian daripada mengisi setiap slot dengan kampanye yang berfokus pada pendapatan.

Dedikasikan setidaknya 20% pengiriman kampanye Anda untuk menguji sesuatu. Tidak setiap pengujian akan menghasilkan pemenang. Tetapi selama setahun, kemenangan yang muncul akan terakumulasi menjadi program yang berkinerja jauh lebih baik dari tempat Anda memulai.

Bagikan hasil pengujian lintas tim. Wawasan pengujian email Anda tidak ada dalam ruang hampa. Pengujian baris subjek yang mengungkapkan bahwa audiens Anda merespons lebih baik terhadap pembingkaian negatif memiliki implikasi untuk salinan iklan Anda, judul halaman arahan Anda, dan pesan produk Anda. Pengujian CTA yang menunjukkan bahwa salinan orang pertama mengungguli orang kedua berlaku di mana saja Anda menulis ajakan bertindak. Pengujian email sering kali merupakan cara tercepat dan termurah untuk mempelajari preferensi audiens Anda karena putaran umpan baliknya sangat ketat.

Saat pengujian gagal menghasilkan pemenang. Hasil tidak meyakinkan tetap merupakan hasil. Mereka memberi tahu Anda bahwa variabel yang Anda uji tidak terlalu penting bagi audiens Anda, yang membebaskan Anda untuk berhenti mengkhawatirkannya dan memfokuskan energi optimasi Anda di tempat lain. Jika Anda menguji warna tombol dan tidak menemukan perbedaan signifikan antara merah dan hijau, Anda sekarang tahu bahwa warna tombol bukan tuas untuk Anda. Lanjutkan ke sesuatu yang memang menjadi tuas.

Pengujian bukanlah sebuah fase. Ini adalah sebuah praktik.