в Советы

Ищем новые возможности для SEO с помощью лог-файлов

Автор: Робин Рожон (Robin Rozhon) – SEO-стратег, Electronic Arts

Я использую веб-краулеры на ежедневной основе. Но хотя эти инструменты очень полезны, они лишь имитируют поведение роботов поисковых систем, а это значит, что вы никогда не видите полной картины.

Единственный инструмент, который даёт полное представление о том, как поисковые системы сканируют сайт – это лог-файлы. При этом многие люди до сих пор одержимы бюджетом сканирования – числом URL, которые Googlebot может обойти.

С помощью анализа лог-файлов вы можете обнаружить те URL, о которых даже не подозревали, но при этом они сканируются поисковыми системами.

«Расходование ресурсов сервера на такие страницы приводит к тому, что Google не может просканировать те страницы, которые действительно являются ценными, что может привести к значительным задержкам в обнаружении отличного контента на сайте», — отметили в Google.

Это увлекательная тема, но в действительно большинству сайтов не нужно беспокоиться о бюджете сканирования. Так, известный в SEO-сообществе сотрудник Google Джон Мюллер уже не раз говорил об этом.

Тем не менее, в анализе лог-файлов, создаваемых этими обходами, таятся значительные возможности для SEO. Он покажет, какие страницы сканирует Google и есть ли какие-либо проблемы, которые нужно исправить.

Когда вы знаете наверняка, что говорят вам ваши лог-файлы, вы получаете важную информацию о том, как Google сканирует и видит ваш сайт. А это значит, что располагая этими данными вы сможете оптимизировать свой сайт, чтобы увеличить трафик. И чем крупнее сайт, тем большее влияние может оказать на него решение этих проблем.

Что такое журналы сервера

Лог-файлы – это запись всего, что входит и выходит с сервера. Это своего рода книга запросов, сделанных краулерами и реальными пользователями. С помощью этих файлов вы можете точно узнать, какие ресурсы Google сканирует на вашем сайте.

Вы также можете увидеть, какие ошибки требуют вашего внимания. Например, одна из ошибок, которую мы обнаружили через анализ лог-файлов, заключалась в том, что наша CMS создавала два URL-адреса для каждой страницы и Google сканировал обе версии. В результате это привело к возникновению проблем с дублированным контентом, поскольку два URL с одинаковым содержимым конкурировали друг с другом.

Анализ лог-файлов – это не ракетостроение. Логика этого процесса такая же, как при работе с таблицами в Excel или Google Sheets. Чтобы получить информацию для анализа, нужно экспортировать и отфильтровать эти данные.

При первом просмотре содержимое лог-файла может показаться несколько устрашающим, потому что когда вы откроете его, то увидите что-то вроде этого:

Но вам нужно успокоиться, выбрать любую строку и внимательнее присмотреться к ней. Например:

66.249.65.107 - - [08/Dec/2017:04:54:20 -0400] "GET /contact/ HTTP/1.1" 200 11179 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Вы быстро поймёте, что:

  • 66.249.65.107 – это IP-адрес (кто);
  • [08/Dec/2017:04:54:20 -0400] – это метка времени (когда);
  • GET – это метод;
  • /contact/ — это запрашиваемый URL (что);
  • 200 – это код ответа сервера (результат);
  • 11179 – количество переданных байтов (размер);
  • “-” – URL перехода (источник). В данном случае это поле пустое, поскольку запрос был сделан краулером;
  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) – это агент пользователя (подпись). В данном случае это user-agent Googlebot.

Когда вы знаете, из чего состоит каждая строка, содержимое лог-файла уже не кажется таким пугающим. Теперь можно переходить к следующим шагам.

Инструменты, которые можно использовать

Есть много инструментов, с помощью которых можно анализировать содержимое лог-файлов. В этой статье я не буду приводить полный список доступных вариантов, но проведу различие между статическими и реал-тайм инструментами.

  • Статические – это те инструменты, которые анализируют статические файлы. В них вы не можете расширить временной период. Хотите проанализировать другой период? Вам нужно будет запросить новый лог-файл. Мой любимый инструмент для анализа статических файлов – Power BI.
  • Реал-тайм инструменты дают вам прямой доступ к журналам сервера. Мне нравится ELK Stack (Elasticsearch, Logstash и Kibana) с открытым исходным кодом. Для его внедрения потребуются определённые усилия, но как только стек будет готов, вы сможете менять временные рамки на основании своих потребностей и для этого вам не понадобится помощь программиста.

Приступаем к анализу

Не погружайтесь в лог-файлы в надежде найти что-то интересное в процессе – начните с вопросов. Если вы не сформулировали вопросы с самого начала, то в конечном итоге получите кучу информации, но не будете понимать, что с ней делать дальше.

Вот несколько примеров тех вопросов, которые я использую в начале анализа:

  • Какие поисковые системы сканируют мой сайт?
  • Какие URL сканируются чаще всего?
  • Какие типы контента сканируются чаще всего?
  • Какие коды ответа сервера возвращаются?

Если вы видите, что Google сканирует несуществующие страницы (404), вы можете поинтересоваться, какие из этих страниц возвращают код ответа сервера 404.

Упорядочьте список по количеству запросов и оцените те из них, по которым цифры самые большие, чтобы найти страницы с самым высоким приоритетом (чем больше запросов, тем выше приоритет). Подумайте, что с ними можно сделать – переадресовать их на другие URL или выполнить другие действия.

Если вы используете CDN или кеш-сервер, то вам также понадобятся их данные для получения полной картины.

Сегментируйте данные

Группировка данных в сегменты позволяет получить агрегированные цифры и более полное представление о происходящем. В результате становится легче определить тренды, которые можно пропустить, анализируя только данные на уровне отдельных URL.

Есть несколько способов группировки URL:

  • По типу контента (страницы товаров vs страницы категорий)
  • По языку (английский vs русский)
  • По региону (США vs Канада)
  • По формату файла (JS vs изображения vs CSS)

Также не забывайте сегментировать данные по агенту пользователя. Если вы будете смотреть на статистику в целом, то это вряд ли позволит выделить какие-то конкретные тренды.

Отслеживайте изменения в поведении краулеров

С течением времени ваш сайт меняется, что также влечёт за собой изменения в поведении краулеров. Googlebot часто увеличивает или снижает скорость сканирования на основании таких факторов, как скорость загрузки страницы, структура внутренних ссылок и наличие «ловушек для краулеров».

Поэтому хорошо бы проверять журналы сервера на протяжении года или после внесения изменений в работу сайта. Когда мы внедряем значительные изменения на крупных сайтах, то проверяем эти файлы практически еженедельно.

Анализируя журналы сервера как минимум дважды в год, вы увидите, как меняется поведение краулеров.

Следите за спуфингом

Чтобы избежать спам-фильтров и блокировки, боты и «скреперы» контента могут выдавать себя за агента пользователя Googlebot.

Чтобы проверить, действительно ли краулер, обращающийся к вашему серверу, является роботом Googlebot, вы можете запустить обратный просмотр DNS, а затем прямой просмотр DNS. Подробнее об этом можно узнать в Справочном центре Google для вебмастеров.

Объединяйте лог-файлы с другими источниками данных

Подключаться к другим источникам данных необязательно, но сделав это, можно получить больше информации и контекста. Из-за возможности лёгкого подключения нескольких наборов данных и получения статистики из них нашим инструментом выбора является Power BI, но вы можете использовать тот инструмент, который больше нравится вам (например, Tableau).

Объедините данные из лог-файлов со сведениями из таких источников, как Google Analytics, данные о сканировании, файлы Sitemap, и начните задавать вопросы. Например:

  • Какие страницы не включены в файл sitemap.xml, но при этом активно сканируются?
  • Какие страницы включены в файл sitemap.xml, но не сканируются?
  • Как часто сканируются страницы, приносящие доход?
  • Являются ли большинство сканируемых страниц индексируемыми?

Данные, полученные в результате анализа, помогут вам усилить свою SEO-стратегию. Например, обнаружив, что около 70% запросов Googlebot относятся к тем страницам, которые не индексируются, вы сможете предпринять необходимые действия.

Используйте лог-файлы для решения вопросов с Google Analytics

Журналы сервера – это не только ещё один инструмент для SEO. Это также бесценный источник информации, с помощью которого можно выявить технические ошибки ещё до того, как они станут крупной проблемой.

Случай из практики

В прошлом году Google Analytics сообщил о крупном падении трафика по нашим брендированным запросам. Однако наш инструмент для отслеживания ключевых слов, STAT Search Analytics, и другие инструменты не показывали ничего, что могло бы стать причиной такого снижения.

Разобраться в ситуации нам помогли лог-файлы. На самом деле никакого падения трафика не было. Снижение показателей было вызвано тем, что недавно внедрённый нами защитный экран уровня приложений (Web Application Firewall) переопределял referrer, в результате чего часть органического трафика в Google Analytics классифицировалась как прямой.

Быстро найти причину нам помогло использование лог-файлов в сочетании с отслеживанием ключевых слов в STAT.

Вместо заключения

Анализ лог-файлов – это важный инструмент для SEO-специалиста, особенно если речь идёт о работе с крупными сайтами.

Наш совет – начните с сегментации данных и отслеживания изменений с течением времени. Когда почувствуете, что готовы, изучите возможности объединения этих данных с данными сканирования или Google Analytics. Здесь сокрыты огромные возможности для SEO.

Продвижение сайта с помощью, rookee и большой, sEO, wiki




Все большую популярность приобретает услуга «комплексного маркетингового обслуживания» по двум основным причинам:. Итоговая стоимость: 3000 рублей. Вот, товарищи, пожалуй и хватит на хостинг компания сегодня отнимать у вас время. Аналогично для википедия хостинг России: (поиск в Интернете) ( поиск страниц на русском) (трех видов: показать все, только Россия, только на русском языке) (поиск в Интернете, Россия) рис.4, далее необходимо выбрать поисковую систему, в которой будет производиться поиск ссылок. Современная же SEO-индустрия избалована автоматизированными подходами и ждать качественной работы на потоке не приходится. Продвижение в интернете

Как правильно настроить SEO плагин читайте тут. Важно работать над качеством сайта: Как я уже говорил выше, к развитию сайта нужно подходить комплексно. Создание и размещение на сайте разнообразного контента для привлечения внимания пользователя и возможности работать с обширным семантическим ядром: инфографики, видео, рекомендаций, советов, отзывов, продающих описаний.д. В таких условиях логично ожидать, что доля поиска Google будет расти. Мы ни раз замечали такую корреляцию на своих проектах. Роман Клевцов, генеральный директор, в новом году SEO уже не будет прежним!


comments

Nitehu

Они обладают огромными возможностями в плане мониторинга продвижения сайта, отслеживания позиций по продвигаемым ключевым словам, интерфейс для создания стратегий для продвижения и много других интересных возможностей. Открываются новые дополнительные сервисы и возможности, как то Babkee.д. С тех пор много изменилось, обновляется плагин часто, автор совершенствует его в лучшую сторону, добавляет новые возможности (загрузили 22, 328, 279). В будущем разработчики намерены увеличить функциональные возможности программы. Планируется добавление новых бейджей и стикеров, которые хостинг cms будут бесплатными. » Топ 5 бесплатных онлайн сервисов для анализа скорости. » Подбор ключевых слов: инструкции.

Ответить
Jipuwo

В большей степени вебмастера и оптимизаторы обращают внимание на ссылки, определяемые Yahoo, в данной программе прошлых версий была возможность в настройках сразу же задать приоритетную поисковую систему для поиска. Размещение информации о компании /продукции (по возможности со ссылками на сайт) на ресурсах, уже занимающих первые строки в поисковых системах по целевым высокочастотным запросам. Новые возможности для малого бизнеса в AdWords Express. Новая функция отслеживания телефонных звонков (в настоящее время находится в стадии тестирования которая арена хостинг даст возможность рекламодателю увидеть число клиентов, позвонивших с помощью.мой блог, задавать вопросы, по мере возможности буду писать ответы, а если потребуется и целые статьи для разъяснения непонятных. Реально, там просто нет возможности вручную выяснить, как много внешних ссылок и качество каждой ссылки, что вы уже имеете.особенно если домен купили имеет отношение к теме сайта и новым. Есть возможность проследить позицию вашего сайта и постоянно контролировать его место на посковой странице выдачи.

Ответить
Cavadohu

Есть возможность управлять несколькими сайтами и хостинг онлайн производить операции с различными ключевыми словами. WebSite X5 Evolution 10: хороший конструктор для создания сайтов с мобильной версией. И еще один плюс программа постоянно развивается и пополняется новыми движками для продвижения. Имеется возможность сворачивания программы в трей). Еда» ввел оплату за доставку любых заказов, пишет «РБК».

Ответить
Efice

Обзор хостинга, макхост (Mchost его технические возможности, достоинства и недостатки. Причины для этого могут быть самыми разными: возможно, вы хотите узнать больше о владельце площадки или отправить жалобу в адрес хостера. Считается, что если человек научился делать сайты и хочет начать собирать статистику, например поставив метрику, Яндекс не считает его целевой аудиторией, ибо сейчас яро выставляет его виноватым в индексации скрытых страниц. Сегодня будем говорить не о письках, хостинг 101 а о натуральных лобковых вшах, которые вывели меня из себя после рассказа ректора СПбГУП Запесоцкого.

Ответить
Obotu

Дайджесты газеты КоммерсантЪ, журналов В свободном доступе журналы Домовой и Автопилот, хостинг selectel петербургское приложение к газете Коммерсантъ. Uber нанял в качестве главного инженера бывшего сотрудника. Ru научилась вызывать пользователям такси. Фильтрация и сервис CloudFlare оказался для нас не подходящим и нерентабельным да, изначально это был выход, но потом нас это. Как настроить ретаргетинг на основе сегментов Метрики?

Ответить
Nidida

Txt, адрес их сайта как Зеркало? Как показывает практика, не selectel хостинг все владельцы бизнеса и наемные. На сайт дополнений для Google Chrome выложена новая.2015.104.123 версия плагина RDS bar. Более 300 компаний в Сибирском федеральном округе в категории. Серьезные атаки на L7 уровне создаются.

Ответить
Wuqaneka

Как определить хостинг сайта Ольга Кузьмина О хостинге Порой у пользователей сети возникает необходимость определить хостинг, на котором размещен сайт. Питере или в столице. 196084, Санкт, петербург,. Srvgame.ru а также с m Статистика посещаемости полученная с m может сильно отличатся. Google хостинг спейсвеб рекомендует применять Disavow Links Tool для отклонения обратных ссылок только в крайних случаях, когда избавиться от их влияния никакими другими способами не удается. Залив файлов на контент хостинг вручную.

Ответить
Olesyr

Страницы, добавленные в этот инструмент, будут переданы. Google и евангелист поиска Дэнни Салливан заявил в Twitter, что. Возможность загрузки бесплатной версии. Настолько надежен и проверенный людьми, что по статистике спейсвеб хостинг каждый второй по стране оформляется именно здесь. Абузоустойчивый хостинг - это не обязательно именно виртуальный. Хостинг - самый лучший вариант при выборе хостинга.

Ответить
Inawuk

По словам Сплита, JavaScript должен хостинг amazon заботить SEO. Голландии, регистрация доменов, реселлинг хостинга, VPS VDS виртуальные сервера в Европе, выделенные серверы в Европе, создание продвижение сопровождение. Selectel Корневые DNS-серверы Договор о хостинге узла K-root имеет бессрочный характер. Он показывает набор данных из Google. Лидирующий хостинг провайдер «Макхост» ждет Вас! Встроенный редактор сообщений предоставляет вам самый быстрый и удобный интерфейс в программах данного типа.

Ответить
Kymyci

О предстоящем крупном обновлении метрики Domain Authority (DA) первом за многие годы существования этого показателя. на бюджет сканирования Сотрудник Гэри Илш обновил свой пост с частыми вопросами. Безлимитный и неограниченный хостинг. Про хостинг санкт хостинг арендовать - петербург хостинг. Хостинг сайтов с серверами в, нидерландах (. Для того, чтобы воспользоваться этим режимом, нужно было приобрести очки с цветными фильтрами. Сбербанк закрыл сделку по покупке 46,5 акций Rambler Group в августе.

Ответить
Capynyt

Хостинг, самп разумеется не бесплатный хостинг википедия всего 1руб/слот. «Адман» Продают VPS на VmWare, цены очень приятные. Не случайно количество людей, использующих эту технологию, в том числе блогеров, увеличивается с каждым днем. Скачать движок для сайта на бесплатный хостинг. Selectel самый лучший хостинг как для маленьких, так и для довольно крупных проектов.

Ответить
Hasidemy

Полные тексты документов в последней редакции. Турбо - страницы проще оставлять. Скорость загрузки сайта, как фактор ранжирования, google. И еще один плюс программа постоянно java хостинг развивается и пополняется новыми движками для продвижения. Txt полностью запрещал посещение, могла сложиться. Еда» сделала доставку в Москве полностью платной, поделиться Поделиться Твитнуть Сервис «Яндекс.

Ответить
Owoqo

Поисковая система Яндекс реализовал полную выгрузку всех. Карты помогут найти улицу, дом, организацию, построить маршрут на общественном транспорте. Если я опубликовал свой запрос не в той ветке, давайте переместим ее в раздел Ранжирование, Сканирование и индексирование и я хочу получить ответ : Как избавиться от спамных ссылок? Вышла новая версия хостинг музыки форума ard.4.8 RUS Nulled Релиз ard.4.8 является техническим и исправляет найденные ошибки.

Ответить