Bab 8: Pengujian dan Pengoptimuman

Perbezaan antara program e-mel yang baik dan program yang luar biasa jarang sekali disebabkan oleh satu idea besar. Ia terdiri daripada ratusan penambahbaikan kecil yang terkumpul sepanjang berbulan-bulan dan bertahun-tahun. Pengujian adalah cara anda menemukan penambahbaikan tersebut. Pengoptimuman adalah cara anda mengukuhkannya.

Apa yang Perlu Diuji

Tidak semua perkara perlu diuji. Fokuskan usaha pengujian anda pada perubahan yang akan memberi impak terbesar kepada metrik utama anda dan, dalam keadaan ideal, yang akan terus terkumpul pada penghantaran masa hadapan.

Baris subjek adalah elemen yang paling kerap diuji, dan ada alasan yang kukuh untuk itu. Tetapi uji satu pemboleh ubah pada satu masa. Jangan menguji baris subjek pendek dengan emoji berbanding baris panjang tanpa emoji. Anda tidak akan tahu pemboleh ubah mana yang menyebabkan perbezaan tersebut. Uji panjang dalam satu eksperimen. Pemperibadian dalam eksperimen lain. Soalan berbanding pernyataan dalam eksperimen lain. Emoji berbanding tanpa emoji dalam eksperimen lain.

Masa penghantaran dipandang rendah sebagai pemboleh ubah ujian. E-mel yang sama dihantar pada pukul 6:00 pagi berbanding 2:00 petang boleh menunjukkan keputusan yang sangat berbeza. Platform Send Time Optimisation (STO) mengautomasikan ini pada peringkat individu, tetapi walaupun ujian mudah pagi berbanding petang untuk khalayak anda boleh mendedahkan peluang yang signifikan.

CTA adalah calon ujian yang memberi impak tinggi. Butang berbanding pautan teks, warna butang, salinan butang, dan kedudukan butang semuanya mempengaruhi kadar klik. Ujian CTA yang menghasilkan penambahbaikan 10% memberi manfaat kepada setiap e-mel yang menggunakan format CTA tersebut pada masa hadapan.

Pengujian kandungan dan reka letak mendedahkan sama ada khalayak anda lebih suka e-mel panjang atau pendek, reka letak yang kaya imej atau teks, dan satu atau beberapa topik setiap penghantaran.

Nama penghantar adalah salah satu ujian paling berharga yang boleh anda lakukan. Kerana nama penghantar muncul pada setiap e-mel yang anda hantar, walaupun peningkatan kecil dalam kadar buka hasil daripada perubahan nama penghantar akan terkumpul pada semua penghantaran masa hadapan. Uji nama peribadi berbanding nama jenama berbanding format "individu dari jenama".

Ujian 'e-mel hodoh'. Ambil template HTML anda yang direka dengan indah dan uji berbanding versi teks biasa tanpa imej, tanpa gaya, hanya perkataan. Saya telah melihat beberapa kajian kes di mana versi teks biasa menang dalam konteks B2B, kadang-kala secara ketara. Ini merendahkan hati, tetapi ia adalah data.

Membuang imej hero. Beberapa kajian kes telah menunjukkan bahawa membuang imej hero besar dari bahagian atas e-mel meningkatkan kadar klik. E-mel memuatkan lebih cepat, kelihatan lebih peribadi, dan CTA beralih ke atas lipatan. Ini patut diuji untuk khalayak anda.

Teks preheader berbanding tanpa teks preheader. Ini adalah salah satu ujian risiko paling rendah dan ganjaran paling tinggi yang boleh anda jalankan. Jika anda tidak menggunakan teks pratonton yang disengajakan pada masa ini, uji penambahan teks tersebut. Data secara konsisten menunjukkan peningkatan, dan pelaksanaannya memerlukan masa kira-kira 30 saat.

Panjang e-mel. Uji e-mel 100 patah perkataan berbanding e-mel 400 patah perkataan dengan tawaran dan CTA yang sama. Anda mungkin mendapati bahawa e-mel yang lebih pendek menghasilkan kadar klik yang lebih tinggi (lebih sedikit dibaca sebelum CTA) atau bahawa e-mel yang lebih panjang menghasilkan kadar penukaran yang lebih tinggi (lebih banyak konteks membina lebih banyak keinginan). Jawapannya bergantung kepada khalayak anda, tawaran anda, dan kerumitan apa yang anda jual. Produk mudah cenderung mendapat manfaat daripada salinan yang lebih pendek. Pembelian yang kompleks dan memerlukan pertimbangan tinggi cenderung mendapat manfaat daripada lebih banyak perincian.

Rangka kerja keutamaan pengujian: Susun pengujian berpotensi berdasarkan dua faktor: impak yang dijangkakan (berapa banyak ini boleh meningkatkan keputusan?) dan kesan kumulatif (berapa banyak penghantaran masa hadapan yang akan mendapat manfaat?). Ujian dengan impak tinggi dan kesan kumulatif tinggi harus sentiasa diutamakan. Nama penghantar, format CTA, dan struktur template e-mel berada di bahagian teratas senarai tersebut. Ujian baris subjek mempunyai impak tinggi tetapi kesan kumulatif rendah kerana setiap baris subjek adalah unik.

Kepentingan Statistik

Kebanyakan pemasar menjalankan ujian A/B dengan cara yang salah. Mereka menyemak keputusan selepas beberapa jam, melihat bahawa satu versi sedang "menang," dan mengisytiharkan pemenang berdasarkan data yang tidak lengkap. Ini membawa kepada pelaksanaan perubahan yang sebenarnya hanyalah bunyi rawak.

Hanya kira-kira 1 dalam 7 ujian A/B menghasilkan pemenang yang signifikan secara statistik. Itu bermakna 6 daripada 7 ujian berakhir dengan seri di mana tiada versi yang lebih baik secara bermakna. Ini adalah perkara biasa. Ia bermakna kebanyakan amalan semasa anda sudah agak baik, dan kemenangan besar ditemui di pinggiran.

Panduan saiz sampel:

Untuk senarai kecil (di bawah 5,000 pelanggan), uji 20 hingga 30% senarai anda. Anda memerlukan perkadaran sampel yang lebih besar kerana jumlah keseluruhannya kecil.

Untuk senarai sederhana (5,000 hingga 50,000), uji 15 hingga 25%.

Untuk senarai besar (50,000+), uji 10 hingga 20%. Anda boleh menggunakan perkadaran yang lebih kecil kerana jumlah mutlaknya sudah cukup besar untuk kepentingan.

Masa tunggu untuk keputusan yang boleh dipercayai:

Untuk ujian kadar buka, 2 jam data meramalkan pemenang dengan ketepatan 80%+. Kebanyakan pembukaan berlaku dalam 2 jam pertama selepas penghantaran.

Untuk ujian berasaskan hasil, biarkan ujian berjalan selama sehari penuh untuk mencapai ketepatan 90%. Hasil mengambil masa lebih lama untuk direalisasikan kerana pelanggan mengklik, melayari, dan akhirnya membeli.

Sentiasa hantar kedua-dua versi ujian pada masa yang sama pada hari yang sama. Menghantar versi A pada Selasa dan versi B pada Rabu tidak menguji pemboleh ubah anda. Ia menguji hari dalam seminggu.

Gunakan kalkulator kepentingan. Jangan agak-agak. Alat seperti kalkulator kepentingan ujian A/B VWO, kalkulator Evan Miller, atau penunjuk kepentingan terbina dalam ESP anda akan memberitahu sama ada keputusan anda boleh dipercayai secara statistik. Kebanyakan kalkulator menggunakan tahap keyakinan 95%, yang bermakna hanya ada kemungkinan 5% bahawa perbezaan yang diperhatikan disebabkan oleh peluang rawak. Jangan mengisytiharkan pemenang di bawah keyakinan 95%.

Ujian Bayesian berbanding frekuentis. Sesetengah platform (termasuk Klaviyo dan Optimizely) menggunakan statistik Bayesian dan bukannya kaedah frekuentis tradisional. Ujian Bayesian memberikan anda kebarangkalian bahawa satu versi lebih baik daripada yang lain (cth, "Versi A mempunyai kebarangkalian 92% menjadi pemenang"), yang ramai orang anggap lebih intuitif daripada nilai-p dan selang keyakinan. Kedua-dua pendekatan adalah sah. Yang penting ialah anda menggunakan salah satu daripadanya dan bukannya meneka.

Kejutan Ujian A/B

Sesetengah keputusan ujian yang paling memberi pengajaran adalah yang tidak dijangka oleh sesiapa pun.

Baris subjek "Hey" kempen Obama yang mengumpulkan $2.5 juta lebih banyak daripada pesaing terdekatnya kekal menjadi contoh yang paling banyak disebut. Pasukan e-mel kempen itu terkejut. Mereka mengandaikan bahawa baris subjek santai dan peribadi tidak akan berkesan untuk pengumpulan dana politik. Mereka tersalah.

Baris subjek negatif boleh mengatasi yang positif. "Jangan buat kesilapan ini dengan e-mel anda" boleh menewaskan "Cara menambah baik e-mel anda." Penghindaran kerugian sedang bekerja.

Dell menguji GIF berbanding imej statik dalam e-mel produk. GIF animasi yang menunjukkan produk digunakan menjana 109% lebih banyak hasil daripada imej statik. Pengajarannya: menunjukkan produk dalam tindakan, walaupun dalam animasi mudah, membantu pembeli menvisualisasikan pemilikan.

Membuang imej hero daripada e-mel telah meningkatkan kadar buka-ke-klik dalam beberapa kajian kes yang didokumentasikan. Imej hero besar yang kelihatan penting kepada pasukan reka bentuk sebenarnya boleh menjadi halangan kepada penglibatan.

Menambah teks pratonton secara konsisten menghasilkan kadar buka kira-kira 5% lebih tinggi. Ini adalah salah satu penambahbaikan yang paling mudah dan boleh dipercayai yang boleh anda buat.

Mungkin penemuan yang paling kontraintuitif: mengurangkan kekerapan e-mel kadang-kala meningkatkan jumlah hasil. Bagaimana? Dengan meningkatkan penempatan dalam peti masuk. Apabila anda menghantar lebih jarang tetapi kepada penerima yang lebih terlibat, pembekal peti masuk memberi ganjaran kepada anda dengan penempatan yang lebih baik, dan e-mel yang anda hantar memberikan prestasi yang jauh lebih baik. Lebih banyak tidak sentiasa lebih baik. Amaran: perubahan kekerapan harus sentiasa mengikuti isyarat penglibatan, peringkat kitaran hayat, dan niat pelanggan — dan tidak diterapkan sebagai tuas universal. Untuk senarai yang lebih kecil, produk bernilai tinggi, khalayak B2B, atau jenama yang pulih daripada masalah kebolehantaran, meningkatkan kekerapan tanpa kawalan penglibatan boleh memberi kesan yang sebaliknya.

Ujian multivariat berbanding ujian A/B. Ujian A/B membandingkan dua versi dengan satu pemboleh ubah yang diubah. Ujian multivariat mengubah beberapa pemboleh ubah secara serentak dan mengukur bagaimana kombinasi yang berbeza berfungsi. Ujian multivariat menarik kerana secara teorinya lebih pantas, menguji banyak perkara sekaligus. Dalam amalan, ia memerlukan saiz sampel yang jauh lebih besar untuk mencapai kepentingan kerana anda membahagikan trafik kepada lebih banyak varian. Untuk kebanyakan senarai e-mel di bawah 100,000, berpegang kepada ujian A/B. Ujian multivariat hanya menjadi praktikal pada skala yang ketara.

Penambahbaikan Berterusan

Pengujian tanpa sistem hanyalah eksperimentasi rawak. Anda memerlukan proses. Dan kerangka yang betul penting: ujian A/B bukan sekadar tentang mengoptimumkan pemboleh ubah — ia adalah pembelajaran berstruktur. Setiap ujian harus bermula dengan andaian tingkah laku (bukan sekadar "adakah merah akan menewaskan biru?"), menggunakan metrik kejayaan yang sejajar dengan andaian tersebut, dan menghasilkan pembelajaran yang boleh anda terapkan melampaui penghantaran individu. Ujian berkuasa rendah dengan sampel kecil dan hipotesis samar membuang masa. Ujian yang direka bentuk dengan baik dengan hipotesis yang jelas membina pengetahuan kumulatif.

Pendekatan sistematik Jeanne Jennings adalah yang saya akan syorkan: analisis prestasi semasa anda untuk mengenal pasti pautan yang paling lemah, bentuk hipotesis tentang apa yang mungkin menambah baiknya, uji hipotesis tersebut dengan ujian A/B yang betul, terapkan varian yang menang, dan ulangi. Kata kuncinya adalah sistematik. Setiap ujian dibina atas pembelajaran daripada ujian sebelumnya.

Bina kalendar pengujian. Gavin Laugenie menganjurkan pelan pengujian suku tahunan yang dikaitkan dengan soalan perniagaan. Jangan menguji semata-mata untuk menguji. Mulakan dengan soalan: "Adakah nama penghantar kami menyebabkan kami kehilangan pembukaan?" atau "Adakah e-mel yang lebih pendek akan meningkatkan klik?" Kemudian reka bentuk ujian untuk menjawabnya. Dokumentasikan keputusan di lokasi yang dikongsi supaya pengetahuan institusi terkumpul.

Berhati-hati dengan pengujian berlebihan. Jika anda menjalankan beberapa ujian serentak, atau mengubah terlalu banyak pemboleh ubah sekaligus, anda akan sukar mengaitkan keputusan dan berisiko meletihkan senarai anda. Satu ujian yang direka bentuk dengan baik setiap penghantaran sudah mencukupi.

Kesan kumulatif pengoptimuman adalah tempat nilai sebenar berada. Peningkatan 2% dalam kadar buka siri alu-aluan anda mungkin kelihatan remeh. Tetapi peningkatan itu mempengaruhi setiap pelanggan baru tunggal dari sekarang sehingga anda mengubahnya semula. Sepanjang ribuan pelanggan dan berbulan-bulan penghantaran, peningkatan 2% dalam aliran asas menghasilkan hasil yang bermakna.

Utamakan pengujian aliran automatik anda berbanding kempen. Ujian kempen menambah baik satu penghantaran. Ujian aliran menambah baik setiap penghantaran melalui aliran tersebut mulai sekarang. Jika anda mempunyai kapasiti pengujian yang terhad, fokuskan pada siri alu-aluan anda, urutan troli yang ditinggalkan, dan susulan pasca-pembelian. Ini adalah aliran bervolume tertinggi dan bernilai tertinggi anda, dan penambahbaikan terkumpul tanpa had.

Dokumentasikan segalanya dalam log pengujian. Sekurang-kurangnya, rekodkan: apa yang anda uji, hipotesis, saiz sampel untuk setiap varian, keputusan dengan tahap keyakinan, tarikh, dan apa yang anda putuskan untuk dilaksanakan. Dari masa ke masa, log ini menjadi salah satu aset paling berharga dalam program e-mel anda. Ia menghalang anda daripada menguji semula perkara yang sudah pernah anda uji, dan mendedahkan corak merentasi ujian yang mungkin terlepas oleh keputusan individu.

Send Time Optimisation

Send Time Optimisation (STO) menggunakan data tentang penglibatan masa lalu setiap pelanggan untuk meramalkan masa penghantaran yang optimum bagi setiap e-mel. Daripada menghantar keseluruhan senarai anda pada pukul 10:00 pada hari Selasa, STO meletakkan setiap e-mel dalam giliran untuk saat pelanggan tertentu itu paling berkemungkinan untuk terlibat.

Cara kerjanya: Platform menjejaki masa setiap pelanggan secara historis membuka dan mengklik e-mel. Platform membina model corak penglibatan setiap pelanggan (orang pagi, pemeriksa waktu makan tengah hari, pelayar malam) dan meletakkan penghantaran dalam giliran sewajarnya. Untuk pelanggan baru dengan data penglibatan yang tidak mencukupi, platform biasanya kembali kepada purata peringkat khalayak sehingga data individu yang mencukupi terkumpul.

Perbandingan platform:

Platform	Ciri	Kaedah
Klaviyo	Smart Send Time	ML setiap individu
Seventh Sense	AI Send Time	Analisis mendalam setiap kenalan
ActiveCampaign	Predictive Sending	Corak setiap kenalan
Mailchimp	STO	Peringkat khalayak (bukan individu)
Brevo	STO	Ramalan setiap kenalan

Berikut konteks lanjut tentang setiap platform:

Smart Send Time Klaviyo menggunakan machine learning untuk meramalkan penghantaran optimum pada peringkat pelanggan individu. Tersedia pada kebanyakan pelan dan berfungsi dengan baik untuk e-dagang.

Seventh Sense menawarkan analisis setiap kenalan yang paling mendalam dan berintegrasi dengan HubSpot dan Marketo. Ia adalah pilihan yang paling canggih untuk B2B dan enterprise.

Predictive Sending ActiveCampaign membina corak setiap kenalan dan mengoptimumkan masa penghantaran. Pilihan yang baik untuk B2B kecil hingga sederhana.

Send Time Optimisation Mailchimp berfungsi pada peringkat khalayak, bukan peringkat individu. Ia mencari masa terbaik untuk keseluruhan khalayak anda, yang kurang tepat tetapi masih lebih baik daripada meneka.

STO Brevo menawarkan ramalan setiap kenalan dan disertakan dalam platform pemasaran mereka.

Keputusan: STO biasanya menghasilkan peningkatan 5 hingga 15% dalam kadar buka. Itu adalah peningkatan yang ketara untuk ciri yang tidak memerlukan kerja tambahan selepas persediaan.

Bila STO tidak membantu:

Kandungan yang sensitif masa. Jika e-mel anda mengenai jualan kilat yang berakhir dalam 4 jam, anda tidak boleh menghantarnya secara beransur-ansur selama 24 jam. Sesetengah mesej perlu tiba pada masa tertentu.

Senarai kecil di bawah 1,000. Model memerlukan data yang mencukupi untuk mencari corak. Dengan senarai yang sangat kecil, ramalan tidak cukup boleh dipercayai untuk mengatasi tekaan yang tepat.

E-mel transaksi. Pengesahan pesanan, set semula kata laluan, dan pemberitahuan penghantaran harus tiba dengan segera. Melengahkannya untuk "masa penglibatan optimum" akan mengecewakan pelanggan.

Penemuan masa umum daripada data yang luas:

E-mel yang dihantar antara pukul 4:00 pagi dan 6:00 pagi cenderung menghasilkan kadar buka tertinggi, kerana berada di bahagian atas peti masuk apabila pelanggan bangun dan menyemak telefon mereka. Ini bukan bermakna pukul 4:00 pagi adalah masa penghantaran yang betul untuk khalayak anda, tetapi ia menjelaskan mengapa penghantaran awal pagi sering mengatasi penghantaran tengah hari.

Selasa dan Khamis cenderung menjadi hari berprestasi terbaik untuk e-mel B2B. Peti masuk hari Isnin penuh dengan e-mel dari hujung minggu. Perhatian hari Jumaat sudah beralih ke hujung minggu. Pertengahan minggu mencapai titik yang paling sesuai.

Untuk B2C dan e-dagang, hujung minggu sebenarnya boleh mengatasi hari bekerja untuk kelompok tertentu (fesyen, makanan, hiburan) kerana pelanggan mempunyai lebih banyak masa melayari secara santai.

Tetapi inilah kesimpulan sebenarnya: ini semua adalah generalisasi. Khalayak anda adalah spesifik. Alat STO wujud kerana masa penghantaran "terbaik" berbeza bukan sahaja mengikut khalayak, tetapi mengikut individu. Gunakan penemuan umum sebagai titik permulaan, kemudian biarkan data dan algoritma memperbaikinya dari sana.

Pengendalian zon masa adalah sepupu yang sering dilupakan bagi send time optimisation. Jika khalayak anda merentasi beberapa zon masa (dan jika anda mempunyai pelanggan antarabangsa, memang begitu), menghantar pada pukul 10:00 dalam zon masa anda bermakna sesetengah pelanggan menerimanya pada pukul 3:00 pagi. Kebanyakan ESP menawarkan penghantaran berasaskan zon masa yang menghantar pada masa tempatan yang sama untuk setiap pelanggan. Ia tidak setepat STO penuh, tetapi ia adalah langkah ketara berbanding menghantar semuanya sekaligus. Untuk khalayak yang tersebar secara global, penghantaran zon masa adalah asas sebelum anda mempertimbangkan STO.

Membina Budaya Pengujian

Program e-mel yang paling berjaya yang pernah saya kerjakan berkongsi ciri yang sama: mereka memperlakukan setiap penghantaran sebagai peluang pembelajaran, bukan sekadar siaran. Mereka bertanya "apa yang kita pelajari?" sama kerap dengan "bagaimana prestasinya?"

Ini bermakna mendokumentasikan keputusan ujian di mana pasukan boleh menemuinya. Ini bermakna meraikan keputusan negatif (mengetahui bahawa sesuatu tidak berkesan adalah berharga). Ini bermakna memperuntukkan masa dan penghantaran khusus untuk pengujian dan bukannya mengisi setiap slot dengan kempen yang berfokuskan hasil.

Dedikasikan sekurang-kurangnya 20% penghantaran kempen anda untuk menguji sesuatu. Tidak setiap ujian akan menghasilkan pemenang. Tetapi sepanjang setahun, kemenangan yang muncul akan terkumpul menjadi program yang berprestasi jauh lebih baik berbanding tempat anda bermula.

Kongsi keputusan ujian merentas pasukan. Pandangan pengujian e-mel anda tidak wujud dalam vakum. Ujian baris subjek yang mendedahkan bahawa khalayak anda memberikan respons yang lebih baik kepada pembingkaian negatif mempunyai implikasi untuk salinan iklan anda, tajuk halaman pendaratan anda, dan mesej produk anda. Ujian CTA yang menunjukkan bahawa salinan orang pertama mengatasi orang kedua adalah terpakai di mana sahaja anda menulis ajakan bertindak. Pengujian e-mel sering kali merupakan cara paling pantas dan paling murah untuk mengetahui tentang keutamaan khalayak anda kerana gelung maklum balas sangat rapat.

Apabila ujian gagal menghasilkan pemenang. Keputusan yang tidak meyakinkan tetap merupakan keputusan. Mereka memberitahu anda bahawa pemboleh ubah yang anda uji tidak terlalu penting kepada khalayak anda, yang membebaskan anda daripada risau tentangnya dan memfokuskan tenaga pengoptimuman anda di tempat lain. Jika anda menguji warna butang dan tidak mendapati perbezaan yang ketara antara merah dan hijau, anda kini tahu bahawa warna butang bukan tuas untuk anda. Beralih kepada sesuatu yang memang tuas.

Pengujian bukanlah suatu fasa. Ia adalah suatu amalan.