Получили бесценный опыт борьбы за полную индексацию информационного ресурса в Яндексе.
Немного о сайте, с которым пришлось работать. Крупный информационный ресурс, имеющий представительство в США и странах Европы (Франция, Италия) и расширяющий свое присутствие по сей день. Я работала с российским порталом. Естественно, что разработка сайта велась с учетом требований поисковой системы Google, они и представить себе не могли, сколько сложностей возникнет при выходе в российский сегмент интернет, где "балом" правит Яндекс.
Начиналось все не плохо, в индекс попали все страницы, имеющие актуальный и уникальный контент, но через две недели произошло падение проиндексированных страниц в 4-раза и "началось".
Естественно я стала искать причины проблемы с индексацией сайта и анализировать ситуацию в поиске проблемы.
Анализ структуры и наполнения сайта дал следующие результаты: все документы сайта имеют дубли за счет параметров, причем, при простановке ссылок в документах редакторы сайта используют ссылки с параметрами; одновременно все новости сайта дублируются публикацией на ресурсе, который давно присутствует в рунете и имеет приличную посещаемость и стабильную аудиторию, а рассматриваемый сайт был опубликован полтора месяца назад.
Весь контент, размещаемый на сайте писался группой профессиональных журналистов, был абсолютно уникален и интересен целевой аудитории, но публикация на стороннем трастовом и старом ресурсе привела к тому, что новый сайт Яндекс счел новый сайт зеркалом и исключил все документы из индекса. Это произошло в мае этого года, когда я в ужасе обнаружила, что из известных поисковому роботу документов сайта в индексе присутствует менее 1%, это были старые новости, которые не публиковались на российском сайте "старичке".
Конечно, клиент был уведомлен о происходящем и очень удивлен, работая с разными странами и разными поисковыми системами, он никогда не сталкивался с проблемой "дублирующегося контента" и тем более с исключением документов своего сайта из поиска. Пришлось долго объяснять, что стало причиной проблем с индексацией и в чем логика.
Решили проблему установкой редиректов со старого на новый сайт со всех опубликованных новостей.
Завершился процесс к концу июня и лишь в сентябре документы вернулись в индекс.
Эмпирически было выяснено, что Яндекс не корректно отрабатывает тег canonical. В письме - ответе мне было сказано, что тег canonacal отрабатывает не корректно, но в последствии все неканонические документы будут удалены из индекса. Зачем делать двойную работу мне блондинке никогда не понять, но происходит это именно так, своими глазами видела. Постепенно из индекса вычищаются неканонические документы, но пока они в индексе они "портят карму" сайту и не дают попасть в индекс нормальному контенту.
Пришлось использовать clean-param, работа его тоже вызывает вопросы, но сильно ускорила процесс выведения дублей из индекса.
До сих пор дубли в индексе попадаются.
Поделиться записью