محبوبه گلکار

فرق robots.txt و نقشه سایت چیست و چه کاربردی دارد؟

فایل نقشه سایت XML و Robots.txt؛ دو ابزار کلیدی برای کمک به موتورهای جستجو برای درک و ایندکس صحیح وب سایت هستند.

چرا نقشه سایت و robots.txt اهمیت دارند؟

ترکیب این دو فایل لیستی جامع و دقیق از محتوا و صفحاتی هستند که مایلید موتورهای جستجو ایندکس کنند و نحوه‌ی سازماندهی کل صفحات را مشخص می‌کنند.

چه باید کرد؟

در نقشه سایت مشخص کنید کدام صفحات ایندکس یا نوایندکس شوند.

پوشه‌ها یا فایل‌هایی که نمی‌خواهید ایندکس شوند در فایل robots.txt مسدود کنید.

تفاوت فایل robots.txt و نقشه سایت چیست؟

نقشه سایت یک فایل XML است که تمام URLها یا صفحات وب سایت‌های شما را ایندکس می‌کند. نقشه سایت ساختار کلی و روابط متقابل محتوای سایت شما را به موتورهای جستجو نشان می‌دهد و هدفش هدایت رباتها برای کرال صفحات وبسایت شماست.

فایل Robots.txt به موتورهای جستجو نشان می‌دهد که کدام صفحات را بخزند و کدام را حذف کنند.

 

۳ دلیل مهم برای استفاده از فایل robots.txt

مسدود کردن صفحات غیر عمومی: صفحاتی که نمی‌خواهید ایندکس شوند. مثلا ممکن است صفحه‌ی لندینگی باشد که برای کمپینی خاص ایجاد می‌شود و در هیچ‌ یک از مسیرهای سفر مشتری لحاظ نشده و نمی‌خواهید افراد تصادفی روی چنین صفحاتی فرود بیایند. در این شرایط است که از robots.txt برای جلوگیری از کرال استفاده می‌کنید.

به حداکثر رساندن کرال باجت یا بودجه خزش:  ایندکس همه‌ی صفحات سایت ممکن است شما را با مشکل بودجه خزش مواجه کند. با مسدود کردن صفحات بی‌اهمیت با robots.txt، Googlebot می‌توانید بودجه خزش سایت را صرف صفحاتی کنید که واقعاً مهم هستند.

جلوگیری از ایندکس منابع: استفاده از تگ‌های متا می‌تواند به همان اندازه Robots.txt برای جلوگیری از ایندکس شدن صفحات کار کند. با این حال دستورالعمل‌های متا برای منابع چندرسانه‌ای مانند فایل‌های PDF و تصاویر به خوبی اعمال نمی‌شود. اینجاست که robots.txt به کار می‌آید.

نتیجه نهایی؟

گزارش صفحاتی که ایندکس شدند در سرچ کنسول قابل بررسی است.

robots. txt در سرچ کنسول

اگر تعداد صفحاتی که معتبر شناخته شدند با تعداد صفحاتی که می‌خواهید ایندکس شوند مطابقت دارد، نیازی نیست خودتان را برای ایجاد و تنظیم فایل Robots.txt به زحمت بیاندازید.

اما اگر این عدد بیشتر از چیزی است که انتظار داشتید (و متوجه URL‌هایی شدید که برخلاف میل شما ایندکس شدند باید یک فایل robots.txt برای وب سایت خود ایجاد کنید.

بهترین کار چیست؟

یک فایل Robots.txt ایجاد کنید

فایل robots.txt فایل متنی که می‌توانید با استفاده از notepad ویندوز آن را ایجاد کنید.

البته در نهایت اینکه چگونه فایل robots.txt خود را می‌سازید، اهمیت چندانی ندارد اما فرمت آن باید به شکل زیر باشد :

User-agent: X
Disallow: Y

User-agent ربات خاصی است که شما با آن صحبت می‌کنید و هر چیزی که بعد از “Disallow” می‌آید صفحات یا بخش‌هایی هستند که قصد مسدود کردن آنها را دارید.

مثال:

User-agent: googlebot
Disallow: /images

این دستور به Googlebot می‌گوید که فولدر تصاویر وب‌سایت شما را ایندکس نکند.

همچنین می‌توانید از یک ستاره (*) برای صحبت با همه ربات‌هایی استفاده کنید که از وب‌سایت شما گذر می‌کنند.

مثال:

User-agent: *
Disallow: /images

“*” به همه اسپایدرها یا رباتها می‌گوید که فولدر تصاویر شما را کرال نکنند.

مثال بالا تنها یکی از راههای استفاده از فایل robots.txt است. راهنمای رسمی گوگل اطلاعات بیشتری در مورد دستورات مختلفی دارد که می‌توانید از آنها برای مسدود کردن یا اجازه خزیدن ربات‌ها در صفحات مختلف سایت خود استفاده کنید.

سایر پیشنهادات برای فایل robots.txt سایت

  • پیدا کردن فایل Robots.txt خود را آسان کنید
  • اگر فایل robots.txt دارید، گاهی بروزرسانی کنید
  • از نظر فنی می‌توانید فایل robots.txt خود را در هر دایرکتوری اصلی سایت قرار دهید.
  • اما برای افزایش شانس یافتن فایل robots.txt، توصیه می‌شود آن را در این آدرس قرار دهید:

https://example.com/robots.txt

(توجه داشته باشید که فایل robots.txt شما به حروف کوچک و بزرگ حساس است. بنابراین مطمئن شوید که از یک “r” کوچک در نام فایل استفاده کنید)

  • خطاها و اشتباهات را بررسی کنید.

همچنین بسیار مهم است که فایل robots.txt شما به درستی تنظیم شود. با یک اشتباه ممکن است کل سایت شما از لیست فهرست و ایندکس گوگل خارج شود.

خوشبختانه نیازی نیست نگران تنظیم صحیح کد باشید. گوگل ابزاری قوی برای تست ربات دارد که می‌توانید برای بررسی صحت فایل از آن استفاده کنید:

تست robots.txt در ابزار

فایل robots.txt هر خطا و هشداری را که پیدا کند نشان می‌دهد.

مثلا همانطور که می‌بینید، صفحه مدیریت وردپرس خود را مسدود می‌کنیم تا رباتها آن را کرال نکنند.

همچنین به صورت خودکار با استفاده از robots.txt  مانع خزش صفحاتی می‌شویم که با برچسب‌های وردپرس ایجاد کردیم تا محتوای تکراری نداشته باشیم.

Robots.txt در مقابل دستورات متا

چرا وقتی می‌توانید صفحاتی را در سطح صفحه با متا تگ «noindex» مسدود کنید، از robots.txt استفاده شود؟

۱- همانطور که قبلاً اشاره کردم تگ noindex برای پیاده‌سازی روی منابع چندرسانه‌ای مانند فیلم‌ها و فایل‌های PDF چالش دارد.

۲- اگر تعداد صفحات سایت زیاد باشد مثل بسیاری از سایتهای فروشگاهی که بالای هزاران صفحه دارند. اگر بخواهید به صورت دستی متا تگ نوایندکس به هر صفحه اضافه کنید مسدود کردن همه‌ی صفحاتی که نمی‌خواهید ایندکس باشند در فایل robots.txt آسانتر است.

۳- مواردی هم وجود دارد که نمی‌خواهید کرال باجت را برای فرود گوگل در صفحاتی با تگ نوایندکس هدر دهید.

خارج  از این ۳ حالت توصیه می‌شود به جای robots.txt از متاتگ‌ها استفاده کنید. چراکه اجرا و پیاده‌سازی آنها آسان‌تر است و احتمال وقوع فجایعی مانند مسدود شدن کل سایت کمتر است.

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

روز نگار

امروز چند تا سوال از خودت پرسیدی؟  کجا دنبال جوابهاشون بودی؟

Share It