Как защитить сайт от воровства контента?

Проблема парсинга контента ботами настолько многогранна и сложна, что слишком трудно вместить все ответы, решения и способы борьбы всего в одной статье. Но тем не менее я постараюсь изложить всю полезную информацию кратко и доступно.

Зачем это кому-то нужно?

Здесь все очевидно: кто-то решил схитрить и использовать ваши данные в своих целях.

Эти цели я условно разделяю за 3 категории: 1-я – это белая, 2-я – это черная и 3-я-особенная.

Категории причин

К белым я отношу случаи, когда ваш непроиндексированный контент парсится и постится на чужом ресурсе. То есть у вас специально выискивают и воруют уникальный контент. Велика вероятность, что после самой индексации в поисковых системах вы будете первоисточником своего контента. Получается, что вы теряете и свой ценный материал, и траффик и даже, возможно, позиции.

Вторая категория (черная) – случаи, когда с тематического напаршенного контента синдируется новый. Также возможно, что в спаршенный контент попадут и ваши непроиндексированные статьи, но при этом варианте они не будут целью заказчика парсинга. Главный недостаток здесь – большая нагрузка на сервер из-за ботов и, как следствие, расходование траффика. Distil Networks представили исследование, согласно которому почти треть траффика некоторых больших сайтов – это деятельность ботов.

И последняя категория, к которой я условно приписываю иные цели, те, что не подходят ни к «белым», ни к «чёрным». Это, например, парсинг цен у конкурентов с целью их эффективного преобразования.

Способы защиты от парсинга

Сразу стоит отметить, что если парсинг производится грамотно, вам никогда не удастся от него защититься. К нашему же счастью, большинство программистов,  пишущих  боты допускают ошибки в своем деле. Это можно использовать нам на пользу и реализовать эффективную защиту от парсинга.

Для начала вам стоит убедиться, что контент индексируется достаточно быстро. Также ощутимую пользу вам принесут такие действия, как автоматическое обновление карты сайта, добавление новых страниц, регистрация в Twitter. Вам надо развивать и прокачивать ваш аккаунт в этой социальной сети, постить туда анонсы материалов и также ссылки на них. Вогнать страницу на Yandex через Twitter можно за час, а чтобы провернуть это дело в Google, используйте платформу Blogger.

Добавление пустых блоков, переименование классов защитит вас от повторного парсинга. А динамические изменения в HTML-коде страницы уберегут от продвинутого автоматического сбора данных.

Если вы обладаете большими контент-порталами, для вам есть другие варианты: верификация через Cookies или JavaScript и обусфакция кода. Скрипты могут существенно затруднить работу пасера, так как многие «грабители» не могут или не умеют их интерпретировать. Но с этим методом нужно быть аккуратным: неосторожное использование подобных скриптов запросто сможет привести к тому, что ваш сайт просто выпадет из поисковой выдачи.

Еще один совет — добавьте ограничение на частоту обращений. Если обращение происходит изрядно часто, то есть отклонение от среднего значения дельты у 80% запросов меньше 10 секунд, значит, вы попали под атаку парсеров. Проведя анализ логов сервера помощью анализатора, вы оградите себя от топорного автоматического сбора. Может быть, бот выдает себя по user-agent или же парсинг идет с одинаковых ip. В таком случае через htaccess вы сможете с легкостью обнаружить и уничтожить бот-траффик или же создайте таблицу, куда будут вноситься данные посетителя страницы.

Еще один вариант защиты от парсинга — капча, например, с помощью ReCAPTCHA. Однако у этого метода есть недостатки, которые многим мешают использовать его. Капча снижает лояльность пользователя к вашему ресурсу, его удовольствие пребывания на сайте, так как раздражает их. И второе — существует множество сервисов по распознаванию капчи, они постоянно обновляются и совершенствуются, поэтому на 100%-ую надежность этого метода не стоит полагаться.

Оставьте первый комментарий

Оставить комментарий

Ваш электронный адрес не будет опубликован.