Как бороться с реферальным спамом в Google Analytics

2 Апреля 2015
Все чаще при заходе в аккаунты Google Analytics в отчетах по переходам можно увидеть множество посещений с непонятных источников со 100%-ным показателем отказов и нулевой длительностью посещения. Как правило, это так называемый реферальный спам.

Вот как это выглядит в отчетах Google Analytics:

реф. спам

Реферальный спам можно разделить на два типа.

Первый тип рефспама

Первый тип — это спам-боты, которые посещают сайты с сомнительными целями и тем самым вызывают подозрительные всплески в отчетах аналитики. К таким ботам относится, например, Semalt.

Как же бороться с этим типом рефспама? Можно, конечно, настраивать фильтрацию таких ботов в аналитике, но от этого их трафик на сайт не прекратится, хотя настройка фильтров и позволит наблюдать корректные данные в отчетах. Но если предположить, что такой спамный трафик искажает данные поисковых систем о поведенческих факторах, то, получается, проблему мы не решили. Поэтому рекомендую  исключить домены, по которым есть спамные переходы, при помощи .htacces, чтобы в принципе закрыть таким спам-ботам дорогу на сайт.

semalt.png

Второй тип рефспама

Второй тип рефспама — это трафик, который никогда не попадал на ваш сайт. Например, переходы с darodar.com, priceg.com. Такой трафик может генерироваться программой, которая отправляет HTTP запросы в разные представления Google Analytics, и для этого даже не нужно посещать сайт. Отправка таких HTTP запросов осуществляется при помощи Measurement Protocol. Так как этих переходов на ваш сайт в реальности никогда не было, вы их не сможете заблокировать используя исключения в .htaccess . Тут поможет только настройка фильтров в Google Analytics.

Как же правильно настроить фильтры в таком случае?

Предлагаю два варианта решения задачи.

Вариант 1

Рассмотрим первый вариант исключения реферального трафика. Основываясь на том, что этот трафик “не проходит” через наш сайт, а, соответственно, имеет другое имя хоста, мы можем легко избавиться от всех спамных переходов, настроив пользовательский фильтр включения трафика только собственного хоста. Тут нужно соблюдать осторожность, чтобы ошибочно не забыть включить нужный хостнейм и не потерять драгоценный трафик. Итак, заходим в отчет по переходам, выбираем максимально возможный период времени в аналитике и в качестве дополнительного параметра добавляем “Имя хоста”.

реф. спам

Среди всех результатов выбираем те, что относятся к нашему сайту. В примере это только "odesseo.com.ua”, но у Вас могут быть и другие. Например, чаще всего это еще домены с www и поддомены.

Далее настраиваем фильтр следующим образом:

добавление фильтра

В шаблоне фильтра необходимо прописать регулярное выражение, которое будет включать трафик со всех ваших хостов. В моем случае оно получилось простым, но если хостов несколько, шаблон регулярного выражения изменится.

Минусом такого решения является то, что есть вероятность включить не все нужные хосты в отчет и получить таким образом искаженные данные.

Если первый вариант состоял во включении в отчеты нужного трафика, то второй заключается в исключении ненужного.

Вариант 2

Необходимо настроить фильтр следующего вида:

добавление фильтра

В шаблоне фильтра необходимо прописать регулярное выражение, которое исключит трафик всех спам-ботов. На скриншоте показано выражение для исключения трафика с darodar и priceg.

.*(darodar|priceg).*

Однако его легко можно расширить на другие источники переходов, добавив их в круглые скобки через вертикальный слеш.

Минусом этого решения является то, что список таких рефералов постоянно пополняется, и нужно периодически мониторить отчеты на предмет возникновения новых рефералов во избежание искажения статистики.

Появляется закономерный вопрос, как же определить, к какому виду реферального спама относятся те или иные рефералы. Замечено, что спамным рефералам второго типа при выборе дополнительного параметра «Имя хоста» соответствуютт значения «co.lumb.co», «apple.com», «message60073399.cenokos.ru» и др., в то время у рефералов первого типа в качестве имени хоста выступает хостнейм вашего сайта. Если все же возникает трудность с определением происхождения рефспама (например, источнику соответствует значение (not set) поля «Имя хоста»), то лучше этот реферал исключить и с помощью .htacces, и настроить фильтр в аналитике.

При настройке фильтров в аналитике данные, соответствующие исключенным критериям, не будут поступать в отчеты, но исторические данные не изменятся, что является неприятным, особенно если поступление спамного трафика было замечено не сразу. В таком случае проанализировать чистые данные вам поможет пользовательский сегмент:

фильтрация спама

Новая функция Google Analytics для фильтрации роботов и пауков

Так как эта статья посвящена фильтрации ботов, напомню, что с прошлого года в Google Analytics стала доступна функция “Исключение обращений роботов и пауков”. Активация этой настройки позволяет исключить все посещения роботов и “пауков” из списка IAB, то есть всех ботов, известных Google.

Подключение этой возможности реализуется в панели “Администратор” в настройках представления активацией чекбокса “Исключение обращений роботов и «пауков»”

фильтрация роботов

Также очень рекомендую дни всплесков трафика, вызванные реферальными атаками, помечать аннотациями, чтобы через год, анализируя общую посещаемость сайта не вспоминать, что это были за наплывы трафика.

Добавить аннотацию можно на уровне представления в разделе “Аннотации”.

Аннотации

Это позволит на диаграммах в местах всплесков трафика добавить вот такие полезные записочки:

И напоследок, напоминаю, если вы используете фильтры, то, во-первых, всегда необходимо проверять фильтры сначала в тестовом представлении, чтобы не допустить ошибок в основном, и во-вторых, нужно оставлять одно представление без фильтров, чтобы всегда можно было посмотреть на данные в необработанном виде и проверить, не отсекается ли какой-то трафик ошибочно.

Вернуться к списку