Як виключити вміст WordPress з Пошуку Google

Як виключити вміст та файли WordPress з Пошуку Google

Іноді потрібно виключити певний вміст або файли WordPress з індексації в результатах пошуку Google. Індекс, або “індексування” до появи Google та іншої пошукової системи, було словом, яке здебільшого асоціюється з книгами. Зазвичай він розміщений на задній частині більшості книг, і саме тому Кембриджський словник визначає його в цьому контексті як:


Індекс: алфавітний список, наприклад такий, який надрукований на звороті книги, що показує, на якій сторінці знаходиться тема, ім’я тощо.

Швидкий перехід до 1995 року, під час буму в Інтернеті, у нас є такі сервіси, як пошукова система Yahoo, і в 1997 році пошук Google різко змінив спосіб пошуку та отримання інформації в Інтернеті.

Згідно з опитуванням, проведеним у січні 2018 року, в Інтернеті є 1805,260,010 (понад 1,8 мільярда) веб-сайтів, і багато з цих веб-сайтів взагалі не відвідують відвідувачів..

Що таке індексація Google?

Існують різні пошукові системи з різним форматом індексації, але популярні пошукові системи включають в себе Google, Bing та для людей, орієнтованих на конфіденційність, duckduckgo.

Індексація Google, як правило, стосується процесу додавання нових веб-сторінок, включаючи цифровий контент, таких як документи, відео та зображення, та зберігання їх у своїй базі даних. Іншими словами, щоб вміст вашого веб-сайту відображався в результатах пошуку Google, їх потрібно спочатку зберігати в індексі Google.

Що таке індексація Google?

Google може індексувати всі ці цифрові сторінки та вміст за допомогою своїх павуків, сканерів або ботів, які неодноразово сканують різні веб-сайти в Інтернеті. Ці боти та сканери дотримуються інструкцій власників веб-сайтів щодо того, як сканувати та що слід ігнорувати під час сканування..

Чому веб-сайти потрібно індексувати?

У цю епоху цифрової епохи майже неможливо пересуватися мільярдами веб-сайтів, які знаходять певну тему та зміст. Буде набагато простіше, якщо є інструмент, який покаже нам, які сайти є надійними, який контент корисний і актуальний для нас. Ось чому Google існує і займає розміщення веб-сайтів за результатами пошуку.

Індексація стає невід’ємною частиною роботи пошукових систем загалом і Google зокрема. Це допомагає визначити слова та вирази, які найкраще описують сторінку, і загалом сприяє рейтингу сторінок та веб-сайтів. Щоб відобразитися на першій сторінці вашого веб-сайту Google, включаючи веб-сторінки та цифрові файли, такі як відео, зображення та документи, спочатку потрібно індексувати.

Індексація – необхідний крок для того, щоб веб-сайти добре оцінювали пошукові системи в цілому та Google зокрема. Використовуючи ключові слова, сайти можна краще побачити та виявити після індексації та ранжирування пошуковими системами. Потім це відкриває двері для більшої кількості відвідувачів, передплатників та потенційних клієнтів для вашого веб-сайту та бізнесу.

Найкраще місце для заховання мертвого тіла – сторінка друга Google.

Хоча наявність великої кількості індексованих сторінок не робить автоматично, що ваші сайти займають вищу позицію, якщо вміст цих сторінок також якісний, ви також можете підвищити рівень SEO.

Чому і як заблокувати пошукову систему від індексування вмісту

Хоча індексація відмінно підходить для власників веб-сайтів та підприємств, є сторінки, які, можливо, не захотіти відображатись в результатах пошуку. ви можете ризикувати відкриття чутливих файлів і вмісту в Інтернеті. Без паролів чи автентифікації приватний вміст загрожує експозицією та несанкціонованим доступом, якщо ботам надається безкоштовне вподобання папок та файлів вашого веб-сайту..

На початку 2000-х хакери пошук Google використовував для відображення інформації про кредитні картки з веб-сайтів з простими пошуковими запитами. Цей недолік безпеки багато хакерів використовували для викрадення інформації про карти з веб-сайтів електронної комерції.

Ще одна недавня У минулому році на box.com трапився недолік безпеки, популярна система хмарного зберігання. Дірку безпеки виявив Маркус Нейс, менеджер розвідки погроз для Swisscom. Він повідомив, що прості експлуатації пошукових систем, включаючи Google та Bing, можуть відкрити конфіденційні файли та інформацію багатьох бізнес-клієнтів та окремих клієнтів.

Такі випадки трапляються в Інтернеті і можуть призвести до втрати продажів та доходу для власників бізнесу. Для корпоративних веб-сайтів, електронної комерції та членства вкрай важливо спочатку заблокувати індексацію пошуку чутливого вмісту та приватних файлів, а потім, ймовірно, поставити їх за гідну систему аутентифікації користувачів..

Давайте розглянемо, як ви можете керувати вмістом і файлами, які можна сканувати та індексувати Google та інші пошукові системи..

1. Використання Robots.txt для зображень

Robots.txt – це файл, що знаходиться в корені вашого веб-сайту, який надає ботам Google, Bing та інших пошукових систем інструкції про те, як сканувати, а що ні. Хоча robots.txt зазвичай використовується для контролю сканування трафіку та веб-сканерів (мобільних та настільних), він також може бути використаний для запобігання появі зображень у результатах пошуку Google..

Файл robots.txt на звичайних веб-сайтах WordPress виглядатиме так:

Користувач-агент: *
Заборонити: / wp-admin /
Відключити: / wp-include /

Стандартний файл robots.txt починається з інструкції для користувача-агента та символу зірочки. Зірочка – це інструкція для всіх ботів, які приїжджають на веб-сайт, дотримуватися всіх інструкцій, наданих під ним.

Тримайте ботів подалі від конкретних цифрових файлів за допомогою Robot.txt

Robots.txt також можна використовувати для припинення сканування пошукових систем цифрових файлів, таких як PDF, JPEG або MP4. Щоб заблокувати пошук сканування файлів PDF та JPEG, його слід додати до файлу robots.txt:

Файли PDF

Користувач-агент: *
Відключити: / pdfs / # Блокувати каталог / pdfs /.
Заборонити: * .pdf $ # Блокувати PDF-файли з усіх ботів. Хоча і нестандартний, він працює для основних пошукових систем.

Зображення

Користувацький агент: Googlebot-Image
Вимкнути: /images/cats.jpg #Block cats.jpg зображення спеціально для Googlebot.

У випадку, якщо ви хочете заблокувати всі зображення .GIF від індексування та відображення в пошуку зображень Google, дозволяючи інші формати зображень, такі як JPEG та PNG, слід скористатися такими правилами:

Користувацький агент: Googlebot-Image
Відключити: /*.gif$

Важливо: Вищевказані фрагменти просто виключають ваш вміст з індексації на сторонніх сайтах, таких як Google. Вони все ще доступні, якщо хтось знає, де шукати. Щоб зробити файли приватними, щоб ніхто не мав доступу до них, вам знадобиться використовувати інший метод, наприклад, ці плагіни обмеження вмісту.

Googlebot-Зображення можна використовувати для блокування зображень та певного розширення зображення для появи в пошуку зображень Google. Якщо ви хочете виключити їх із усіх пошукових запитів Google, наприклад пошук в Інтернеті та зображення, бажано замість цього використовувати користувальницький агент Googlebot.

Інші користувальницькі агенти Google для різних елементів веб-сайту включають Googlebot-Video для відео, які можна застосовувати у розділі відео Google в Інтернеті. Аналогічно використання користувачем-агентом Googlebot заблокує показ усіх відео у відео Google, веб-пошуку чи мобільному веб-пошуку.

Роботи txt No-Index

Майте на увазі, що використання Robots.txt не є відповідним методом блокування чутливих чи конфіденційних файлів та вмісту через такі обмеження:

  • Robots.txt може вказувати лише хорошим сканерам; інші невідповідні пошукові системи та боти можуть просто ігнорувати його вказівки.
  • Robots.txt не перешкоджає вашому серверу надсилати ці сторінки та файли стороннім користувачам на запит.
  • Пошукові системи все ще можуть знайти та індексувати сторінку та вміст, який ви блокуєте, якщо вони пов’язані з іншими веб-сайтами та джерелами.
  • Robots.txt доступний для всіх, хто зможе прочитати всі надані вами інструкції та отримати доступ до цього вмісту та файлів безпосередньо

Щоб заблокувати індексацію пошуку та захистити вашу приватну інформацію, ефективніше скористайтеся наступними методами.

2. Використання метатегів без індексів для сторінок

Використання метатегів без індексів – це правильний та більш ефективний метод блокування пошукової індексації чутливого вмісту на вашому веб-сайті. На відміну від robots.txt, метатег без індексу розміщується у розділ веб-сторінки з дуже простим тегом HTML:



...

Будь-яка сторінка з цією інструкцією в заголовку не відображатиметься в результатах пошуку Google. Інші директиви наприклад, nofollow та notranslate також можна використовувати скажіть веб-сканерам не сканувати посилання та пропонує переклад цієї сторінки відповідно.

Ви можете доручити декільком сканерам, скориставшись декількома метатегами на сторінці наступним чином:



...


Є два способи додати цей код на ваш веб-сайт. Ваш перший варіант – створити дочірню тему WordPress, тоді у своїх функціях.php ви можете використовувати гак дій WordPress wp_head для вставки noindex або будь-яких інших метатегів. Нижче наводиться приклад того, як ви зробили noindex до своєї сторінки входу.

addgery ('wp_head', function () {
if (is_page ('login')) {
відлуння '';
}
});

Ваш другий варіант – використовувати ваш плагін SEO для контролю видимості сторінки. Наприклад, за допомогою Yoast SEO ви можете перейти до розділу розширених налаштувань на сторінці та просто вибрати “Ні” для параметрів, щоб дозволити пошуковій системі показувати сторінку:

Налаштування результатів пошуку SEO Yoast

3. Використання заголовка HTTP X-Robots-Tag для інших файлів

X-Robots-Tag надає вам більше гнучкості для блокування пошукової індексації вашого вмісту та файлів. Зокрема, порівняно з мета-тегом без індексу, він може використовуватися як відповідь заголовка HTTP для будь-яких заданих URL-адрес. Наприклад, ви можете використовувати X-Robots-Tag для файлів зображень, відео та документів, де неможливо використовувати метатеги роботів.

Можна читати Повний посібник з метатегів Google для роботів, але ось як ви можете доручити сканерам не слідувати та індексувати зображення JPEG за допомогою X-Robots-Tag у його HTTP-відповіді:

HTTP / 1.1 200 ОК
Тип вмісту: image / jpeg
Дата: сб, 27 листопада 2018 01:02:09 GMT
(…)
X-Robots-Tag: noindex, nofollow
(…)

Будь-які директиви, які можна використовувати з метатегом роботів, також застосовні до X-Robots-Tag. Так само ви можете доручити кілька ботів пошукової системи:

HTTP / 1.1 200 ОК
Дата: Вт, 21 вересня 2018 21:09:19 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: bingbot: noindex
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Важливо зазначити, що пошукові системи-боти виявляють метатеги Robots та заголовки HTTP X-Robots-Tag під час сканування. Тож якщо ви хочете, щоб ці боти виконували вашу інструкцію, щоб не дотримуватися та не індексувати конфіденційний вміст та документи, ви не повинні зупиняти сканування цих URL-адрес сторінки та файлів..

Якщо вони не зможуть сканувати за допомогою файлу robots.txt, ваші вказівки щодо індексації не будуть прочитані і, таким чином, ігноруються. Як результат, у випадку, якщо інші веб-сайти посилаються на ваш вміст та документи, вони все ще будуть проіндексовані Google та іншими пошуковими системами.

4. Використання .htaccess правил для серверів Apache

Ви також можете додати заголовок HTTP X-Robots-Tag до свого файлу .htaccess, щоб блокувати сканери від індексування сторінок та цифрового вмісту вашого веб-сайту, розміщеного на сервері Apache. На відміну від мета-тегів без індексу, правила .htaccess можуть застосовуватися до всього веб-сайту або певної папки. Підтримка регулярних виразів пропонує вам ще більшу гнучкість для націлювання на кілька типів файлів одночасно.

Щоб заблокувати Googlebot, Bing та Baidu від сканування веб-сайту чи спеціального каталогу, використовуйте такі правила:

ПереписатиEngine On
RewriteCond% {HTTP_USER_AGENT} (googlebot | bingbot | Baiduspider) [NC]
Перепишіть правило. * - [R = 403, L]

Щоб заблокувати пошукову індексацію всіх .txt, .jpg, .jpeg, .pdf-файлів на всьому веб-сайті, додайте такий фрагмент:


Набір заголовків X-Robots-Tag "noindex, nofollow"

5. Використання автентифікації сторінки за допомогою імені користувача та пароля

Наведені вище методи запобігають появі вашого приватного вмісту та документів у результатах пошуку Google. Однак будь-який користувач із посиланням може отримати доступ до вашого вмісту та отримати доступ до файлів безпосередньо. В цілях безпеки настійно рекомендується налаштувати належну автентифікацію за допомогою імені користувача та пароля, а також дозволу на доступ до ролей.

Використання автентифікації сторінки

Наприклад, сторінки, що містять особисті профілі персоналу та конфіденційні документи, до яких не мають доступу анонімні користувачі, повинні бути відсунуті за ворота аутентифікації. Тож навіть коли користувачам якимось чином вдасться знайти сторінки, їм буде запропоновано облікові дані, перш ніж вони зможуть перевірити вміст.

WordPress Захист паролем

Для цього за допомогою WordPress просто встановіть видимість публікації на захищений паролем. Таким чином ви можете вибрати пароль, необхідний для перегляду вмісту на цій сторінці. Це досить легко зробити за принципом “за допис / сторінку”. Щоб отримати більш повну конфіденційність сайту, спробуйте додати один із цих плагінів для членства в WordPress на свій веб-сайт.

Зауважте, що захищені паролем або приховані сторінки від пошукових систем та відвідувачів не обов’язково захищають документи, відео та зображення, додані до його вмісту. Для реального захисту завантажених вами файлів WordPress настійно рекомендується преміальна послуга, наприклад Prevent Direct Access Gold.

Висновок

В гонці про те, щоб перейти на сторінку Google, власники бізнесу можуть не враховувати, які пошукові системи можуть бачити. Незалежно від того, чи ви блокуєте ботів з певного файлу, ховаєте користувацьку сторінку входу або захищаєте паролі приватних каталогів користувачів … Є багато сторінок, які слід врахувати про неіндексацію, коли мова йде про пошукові системи..

У вас є питання щодо виключення вмісту з результатів пошуку? Або забороняє певні файли індексувати bing? Залиште коментар нижче!

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map