Лог-файли як рентген SEO: що реально показує серверний лог і як знайти «завислі» або марні URL

Коли сайт втрачає видимість, а технічний аудит наче «чистий», лог-файли стають тим самим рентгеном, який показує, що відбувається всередині. Це сирі записи кожного запиту до сервера: хто прийшов (бот чи користувач), що попросив (URL), що отримав (статус-код), скільки це тривало й важило. Для SEO це безцінно: саме логи відповідають на питання, куди витрачається crawl budget і чому частина сторінок так і не потрапляє в індекс.

Що насправді показують логи

Серверні логи — це не «ще один звіт», а об’єктивна телеметрія. На відміну від аналітики чи сканерів, вони фіксують реальні візити ботів пошукових систем у реальному часі. Завдяки їм ми бачимо, як Googlebot, Bingbot або інші краулери рухаються сайтом, де «спотикаються» та що ігнорують.

Передусім звертайте увагу на ключові поля: дата й час запиту, метод (GET/HEAD), повний URL, код відповіді (200/301/404/5xx), розмір відповіді, user-agent і час обробки. Цього достатньо, щоб розкласти краулінг по поличках і зрозуміти, де site health просідає.

Чим логи корисніші за інші дані? Вони показують саме те, що відбувається між ботом і сервером, без вибірки, агрегацій чи затримок. Ми бачимо 301-ланцюжки, 5xx-сплески, дублікати з параметрами, петлі пагінації, а також чи дійсно Googlebot заходить на важливі сторінки.

Що ми часто знаходимо на проєктах Ticket to Online? За нашими аудитами, 15–35% усього бот-трафіку з’їдають технічні або малокорисні URL: фільтри з безкінечними параметрами, сторінки сортування, календарні архіви, дубльовані пагінації, внутрішні пошукові результати.

Який бонус для швидкодії? Логи підказують, де сервер буксує. Якщо median TTFB для ботів у 2–3 рази вищий, ніж для користувачів, це марнує бюджет обходу та зменшує глибину краулінгу.

Після такої діагностики ми отримуємо не просто список проблем, а карту руху ботів по сайту з пріоритетами виправлень.

Як підготувати лог-дані до аналізу

Спершу домовляємось із хостингом/DevOps про вибірку access.log за 30–60 днів і виключаємо чутливі поля. Далі — нормалізуємо часові пояси, фільтруємо боти з валідацією (для Googlebot — reverse DNS-перевірка), об’єднуємо з картою сайту, списком канонічних URL і даними власного сканера. Підійдуть GoAccess, Screaming Frog Log File Analyser, ELK або навіть SQL/BigQuery — головне, щоб ви могли будувати зрізи по кодах, директоріях і параметрах.

Перед наступним блоком важливо розуміти: «завислі» чи марні URL — це не завжди «сміття». Часто це наслідок архітектури: фільтри, сортування, трекінгові метки, пагінації. Наше завдання — навчити ботів їх не витрачати.

Ознаки «завислих» або марних URL у логах:

- Високий відсоток бот-відвідувань на сторінки з ?utm=, ?page=, ?sort=, комбінації параметрів або нескінченні фільтри.
- Ланцюжки 301/302 довжиною 2+ переходи, особливо між http/https, www/non-www, зі слешем/без.
- Часті 404/410 по шаблонних шляхах (старі категорії, видалені товари, тестові директориї).
- 5xx-сплески в пікові години краулу — сигнал, що сервер «гасить» бота, і той скорочує глибину обходу.
- Низька частота візитів на дійсно індексовані money-сторінки в порівнянні з технічними URL.
- Дублікати з різними параметрами й однаковим контентом (видно по розміру відповіді та шаблону).

Після виявлення таких патернів ми сегментуємо URL за типом проблеми й оцінюємо «вартість» помилки — скільки бот-хітів вона з’їдає та як впливає на індексацію.

Що робити: алгоритм чистки й економії crawl budget

План дій має бути покроковим і вимірюваним. Працює проста формула: прибрати шум → спростити маршрути → прискорити сервер.

Чекліст виправлень, який ми застосовуємо:

- Перерізати 301-ланцюжки до 1 редиректу, уніфікувати слеші, протоколи та хости.
- Закрити технічні шляхи в txt, а там, де потрібні — додати noindex, follow або канонікали.
- Зменшити простір параметрів: прибрати UTM з внутрішніх лінків, частину фільтрів зробити статичними або обмежити комбінації.
- Оптимізувати пагінацію: ліміти сторінок, чіткі canonical і навігація без пасток «календарів».
- Видавати 410 для безповоротно видалених сторінок, 404 — тільки коли справді невідомо, що це.
- Прискорити відповіді: кешування, CDN, стиснення (Brotli/Gzip), оптимізація TTFB для важливих шаблонів.
- Підняти внутрішню лінковку на пріоритетні URL, щоб боти частіше їх знаходили.

Після впровадження змін обов’язково робимо повторний лог-аудит і дивимось на KPI: частка бот-хітів на індексовані сторінки, скорочення 404/5xx, зменшення ланцюжків 3xx, зростання частоти візитів на «гроші»-URL, падіння median TTFB.

Лог-файли — це не «технічна магія», а найчесніший спосіб подивитись, як пошукові боти насправді взаємодіють із сайтом. Вони показують, де ви втрачаєте бюджет обходу, чому пріоритетні сторінки рідко відвідуються й де сервер гальмує. Якщо вам потрібен практичний аудит із чітким планом дій і вимірюваними метриками — команда «Агентство маркетингу Ticket to Online» проведе лог-аналіз, прибере шум у краулінгу та поверне вашому сайту видимість там, де вона приносить гроші.