Как правильно проводить А/А/В-тест. Кейс Leroy Merlin

Макс Ефремов

Ведущий аналитик

Какая тема письма лучше повлияет на процент открытий? Сколько кнопок нужно добавить в письмо, чтобы «уж наверняка» и какой использовать шрифт? Правильных ответов вы не найдете ни в одной статье. Да, тема не должна вызывать ассоциаций со спам рассылкой, фиолетовый текст на салатовом фоне — выбор явно необдуманный, а споры о том, сколько должно быть призывов к действию в рамках одного письма нет-нет, да слышны в маркетинговой песочнице. Но чем больше разбираешься в этом всём, тем больше вопросов возникает, а вывод напрашивается сам собой — нужно тестировать. Как правильно это делать рассказал наш аналитик Макс Ефремов.

Чтобы объяснение не превратилось в скучную теорию, проиллюстрируем примером Leroy Merlin — крупной компании-ритейлера товаров для строительства, отделки и обустройства дома, дачи и сада 🙂

Задача:

Команда маркетологов Leroy Merlin решили изменить немного блоки в письме и посмотреть, какой от этого будет эффект. Мы помогли с версткой письма, а сравнивать старый и новый шаблоны решили с помощью A/B-теста.

Что такое A/B-тестирование:

Это простой и эффективный способ определить, влияют ли изменения в письмах на ключевые показатели: открытия письма, клики по ссылкам в письме, конверсии в покупки. Его суть в том, что мы сравниваем текущий вариант лендинга, поп-апа, письма и т. д. и сравниваем с тем вариантом, который, как мы считаем, сработает лучше. В режиме реального времени, поделив подписчиков на тестовые группы.

В емейлах мы можем сравнить тему письма, контент, время отправки сообщения. При этом, нельзя сравнивать несколько параметров одновременно. Например, если мы изменим одновременно и тему письма и контент, то будет непонятно, за счёт чего мы получили улучшение — за счёт темы или контента. По этой же причине нельзя производить много изменений при тестирование контента. Изменение должно быть единичным и минимальным.

В целом, это достаточно эффективный инструмент, который имеет один главный недостаток: нельзя до конца быть уверенным в результате из-за того что нельзя сказать с уверенностью, что тестовые группы получились равнозначными.

Нюанс в рассылке:

Тестовую рассылку делали в субботу, хотя обычно подписчики получают такую рассылку по четвергам. Теоретически это могло повлиять на реакцию подписчиков, поэтому мы пошли за советом к Максу.

Макс Ефремов

ведущий аналитик

«Предположим, после проведения теста было определено, что вариант В лучше варианта А, но это получилось за счёт того, что вариант В получили более лояльные клиенты, отсюда и такие показатели. Чтобы это избежать, применяется А/А-тестирование».

Что такое А/А-тестирование

А/А-тестирование направлено на определение равнозначности тестовых групп. Если в А/В-тестирование мы сравниваем разные варианты письма, то в данном случае письмо и время отправки у нас остаются неизменными. Если показатели таких писем не сильно отличаются друг от друга, то считаем тестовые группы равнозначными и можем проводить А/В-тестирование. Если показатели значимо отличаются, то это говорит о том, что база подписчиков неоднородна и необходимо производить дополнительную сегментацию, после чего повторять А/А-тест и делать это до тех пор, пока показатели в письмах не будут примерно одинаковыми.

А/В-тест в связке с предварительно проведенным А/А-тестом работает лучше, чем один А/В-тест, но и у этого способа есть минусы.

Во-первых, два письма в один день одному и тому же подписчику мало кто отправляет, поэтому свою погрешность внесёт фактор того, что А/А-тест был проведен в один день, а А/В-тест — в другой.

Во-вторых, при таком, последовательном, способе тестирования А/А-тест проводится на одном письме, а А/В-тест — на другом (мы же не можем отправить одно и тоже письмо одному человеку дважды). Чтобы исправить эти недостатки, на помощь приходит А/А/В-тестирование.

Что сделали:

Провели А/А/В-тест. Мы отправили три письма, для каждого Макс рассчитал точное значение подписчиков, которое подойдет для теста. Первое и второе письмо полностью одинаковые, третье с измененным дизайном

Что такое А/А/В-тестирование

А/А/В-тестирование включает в себя все достоинства А/А и А/В-тестов и лишен их недостатков. При этом способе мы отправляем одно и тоже письмо А на две разных группы пользователей и отправляем вариант В на третью группу с изменениями. Таким образом, мы одновременно тестируем и однородность базы пользователей и контент сообщения.

Сначала мы измеряем результаты А/А-теста, и если они не имеют значимых отличий, то добавляем в расчёты вариант В. Если же варианты А/А имеют значимые отличия, то добавлять вариант В уже нет смысла. Единственным недостатком этого метода является то, что если при исследовании показателей А/А-тест не сработал, то мы зря потратили время и ресурсы на разработку варианта В. В этом плане А/А + А/В-тестирование является более экономичным, чем А/А/В-тестирование, но менее эффективным.

Какие результаты?

Судя по показателям первых двух писем, сделали вывод, что база однородна, так как подписчики из двух тестовых групп примерно одинаково открыли и прокликали в письмах со старым дизайном. Поэтому теперь мы спокойно смогли сравнить показатели рассылок одного из старых писем с письмом в новом дизайне.

Как рассчитать тестовую группу (2 формулы)

Существует множество формул для расчёта размера тестовой группы. Мы обычно пользуемся двумя: формулой простой и формулой посложнее.

Попроще:

где:

S — общее количество подписчиков в базе;

n — искомый размер тестовой группы.

Для этой формулы не нужно знать ничего, кроме общего объема базы. Никаких предположений и гипотез вводить не нужно.

Посложнее:

Для расчёта этой формула вам необходимо задать минимальный видимый эффект. Это разность показателя между новым и старым вариантом, которую вы посчитаете приемлемой, чтобы можно было определить победителя. Например, перед началом теста вы утверждаете, что если письмо В получит как минимум на 3% больше открытий, чем письмо А, то только в этом случае его можно будет считать победителем. Для определения значимости такой разницы нужно гораздо меньше пользователей, чем для определения значимости различия, например, в 1%, поэтому к выбору этого параметра нужно подходить с умом исходя из имеющихся ресурсов. В этой формуле:

p1 — базовая конверсия тестируемого показателя (например, в среднем, в каждом письме 10% открытий или 5% кликов);

pp — минимально-видимый эффект;

n — искомый размер тестовой группы.

Эти формулы приведены для показателя достоверности 95% и для мощности 80%.

Про достоверность тестирования

Предположим, после проведения теста у варианта А получилось 49% открытий, а у варианта В — 50% открытий. Видно, что у варианта В больше открытий, чем у варианта А, но закрадывается сомнение, достаточно ли большая разница в показателях. Для того, чтобы однозначно ответить на этот вопрос, необходимо определить достоверность теста. Для этого необходимо построить доверительные интервалы вокруг итогового показателя. Внутри этих интервалов и будет лежать истинное значение измеряемой величины. Строятся они по следующей формуле:

где:

p — итоговый процент показателя, который в итоге получился при тестировании;

n — размер тестовой группы.

Визуально доверительные интервалы можно представить следующим образом:

Доверительный интервал рассчитывается для каждого тестового письма отдельно. Суть определения значимости в том, что если при проведении А/В-теста доверительные интервалы НЕ пересекаются, то можно сказать о том, что мы получили статистически значимые отличия и у нас есть письмо-победитель. Если интервалы пересекаются, то значимых отличий между вариантами нет (даже если какое-то письмо по показателям чуть лучше другого) и можно считать, что письма равнозначны.

Если кратко, когда интервалы не пересекаются — хорошо, когда пересекаются — плохо. При проведении А/А-теста всё наоборот. Хорошо, когда доверительные интервалы пересекаются. Это означает, что письма равнозначны, а значит и наши группы однородны между собой и мы на законных основаниях можем проводить А/В-тест. Если они не пересекаются, то это говорит о том, что база подписчиков неоднородна и нужно проводить дополнительную сегментацию, чтобы сделать подписчиков примерно похожими друг на друга и повторить А/А-тест.

Порядок интерпретации результатов А/А/В-теста по открытиям

Когда мы проводим только А/А или А/В-тест по открытиям, у нас есть всего один этап при проверке результата. При А/А/В-тестированрии — два:

1 этап: проведение А/А-теста по открытиям.

Так как оба письма А/А одинаковы между собой, значит и показатели у них должны быть одинаковыми. Таким образом мы проводим А/А-тест по этим письмам. Чтобы успешно пройти этот этап, необходимо чтобы доверительные интервалы двух писем пересекались.

2 этап: проведение А/А/В-теста по открытиям.

Если показатели писем А/А значимо не отличаются друг от друга, то к ним добавляется вариант В, который сравнивается с каждым письмом А. Если показатели письма В значимо отличаются от показателей писем А/А — тест можно считать успешным.

Порядок интерпретации результатов А/А/В-теста по кликам

В А/А/В-тесте по кликам ещё больше этапов, чем в тесте по открытиям.

1 этап: проведение А/А/А-теста по уникальным открытиям.

Так как все 3 письма имеют одинаковую тему, значит и показатели уникальных кликов должны быть одинаковыми, ведь контент письма пользователь сможет увидеть только после того, как откроет его. Соответственно, если показатели писем не имеют статистически значимых отличий, то переходим ко второму этапу. Стоит отметить, что при расчёте необходимо использовать именно показатели уникальный открытий, так как на неуникальные открытия может оказывать влияние контент.

2 этап: проведение А/А-теста по кликам.

После того, как мы определили, что показатели уникальных открытий не имеют значимых отличий, мы должны сравнить показатели кликов в двух одинаковых письмах. Если и они не имеют значимых отличий, то только после этого можно переходить к А/А/В-тестированию.

3 этап: проведение А/А/В-тестирования по кликам.

После оценки уникальных открытий и кликов вариантов А/А к ним добавляется вариант В. Если показатель кликов варианта В значимо лучше аналогичного показателя двух остальных писем, то можно признать, что тест прошел успешно.

Что в итоге?

Мы выяснили, что к обновленным блокам в письме подписчики относятся так же как к предыдущим, так как доверительные интервалы пересеклись и можно смело отправлять письма в новом дизайне. С учетом нюансов поведения пользователя, которые нам удалось отметить при этом тестировании.

Вывод

Чтобы письма открывались, ссылки кликались и заветная кнопка «оплатить» нажималась, должно сложиться очень многое. От звезд до цвета шрифта под кнопкой целевого действия. Но звезды ребята непостоянные, и за них мы не ручаемся. Результаты тестирования гораздо убедительней. Тестируйте новый дизайн, время отправки или расположение элементов в письмах. Анализируйте полученные результаты и выводите свою формулу успеха идеального письма 🙂

Согласен

Мы используем файлы cookie для записи информации о сеансе, например, прошлой активности на сайте, чтобы обеспечить лучший сервис, когда посетители возвращаются на наш сайт или настраивают содержимое веб-страницы на основе типа браузера посетителей. Используя веб-сайт, вы выражаете свое согласие с нашей политикой cookie. Вы можете изменить настройки файла cookie в своем веб-браузере.