عناكب البحث تعمل بشكل تلقائي لارشفه الصفحات

اول شئ تشيك عليه لاي رابط جديد هو ملف robot.txt 

وشو هالملف ووش وظيفته ؟

 

هذا الملف تحطه بالمجلد الرئيسي لموقعك

مثلا SITE.com/robot.txt

يحتوي على بعض الاوامر لعناكب البحث مواقع البحث نتكلم عن Google , Bing ,Yahoo وغيرها الاقل شهره طبعا

تقدر ترفض اضافة مجلد او صفحة او رابط بموقعك بحيث مايطلع بنتائج البحث او ترفض لاحد محركات البحث وتسمح للثاني ( مثلا ترفض bing وتسمح ل Google بس ) !

طيب ناخذ مثال عشان توضح لنا اكثر

[alert color=”grey”]

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /TEST/

[/alert]

 

User-agent = اللي هو العناكب لمحركات البحث .. لاحظ النجمه يعني للكل بدون استثناء

Disallow = لاتسمح بأرشفة هذا المجلد واللي تحته من ملفات بمحرك البحث

طبعا فيه بعض المجلدات والصفحات مالها سنع تتأرشف .. زي مثلا صفحة الدخول للمشرف Admin page .. بالووردبريس مثلا wp-admin وبعض المجلدات الثانيه . هذي المفروض ماتتأرشف لو فيها ثغرات ولاشي تبعد عن اللي يبحث عن صفحتك .

 

هذي صورة لاهمية الملف

لاحظ اليمين يوقف مايأرشف المجلدات الخاصة بينما اليسار يطلع كل شئ وهذي قد تكون مصيبه لبعض المواقع بالذات اذا كان حاط بعض الملفات خاصه للتحميل للاعضاء فقط مثلا .

 

robots_txt_explained

 

  • كيف تسوي الملف ؟ ابد من المفكرة واحفظه بصيغة txt
  • مهم جدا ان الاسم يكون نفسه robot.txt .. اذا كتبت Robot.txt يختلف تماما عنه وماراح يكون له أي اعتبار