فایل robots.txt چیست؟
فایل robots.txt چیست؟
با استفاده از ساخت فایل robots.txt و بهینه سازی آن برای سایت خود، می توانید دسترسی لازم برای موتور های جستجو را برای دایرکتوری یا همان
پوشه های موجود در هاستتون تعیین کنید، تا با اینکار به ربات های گوگل که صفحات شما رو بررسی و ایندکس می کنند، اجازه این فعالیت را ندهید.
فابل robots.txt چه کاربردی دارد؟
موتور های جستوجو همانند گوگل، یاهو ، بینگ و ماکروسافت برای یافتن و ایندکس کردن صفحات مختلف وب و سایت های موجود از ربات های جستجو که با
نام Robot و Spider و crawler مشهور هستند، استفاده می کنند. این ربات ها با پیمایش خودکار در صفحات وب اطلاعات مربوط به صفحات رو
بدست می آورند و آنها رو به موتور های جستوجو مربوطه ارسال می کنند. معمولا براساس مدت زمان آپدیت اول تا آپدیت بعدی سایت، مدت زمان جستجو و
ایندکس آن هم متفاوت است، شاید شما علاقه نداشته باشید که موتور های جستجو صفحات شما را بشناسند و ایندکس کنند؛ برای اینکه به موتور های جستجو بگید
چه صفحات یا فولدر هایی در سایت رو پیمایش و ایندکس کنه و اینکه چه صفحاتی رو ایندکس نکنه می توانید از یک فایل با نام robots.txt در ایندکس
هاست سایتتون (ریشه اصلی) و یا در پوشه ای خاص استفاده کنید. دستورات قرار دادن محدودیت هایی برای ربات های گوگل در هدر با
تگ متا: برای جلوگیری از ورود تمامی ربات های اینترنتی به صفحه از تگ:
<"meta name="robots" content="noindex” />
ساخت فایل robots.txt
یک فایل ساده برای مدیریت ربات های اینترنتی از دو قانون اصلی استفاده می کند که عبارت است از :
User-agent : نشان دهنده نوع رباتی است که نباید به صفحه دسترسی داشته باشد.
Disallow :برای جلوگیری از ایندکس شدن استفاده می شود. با ترکیب این دو دستور بالا شما می توانید
قوانین مختلفی برای دسترسی به صفحات داخلی سایت خود تعریف کنید. مثلا برای یک User-agent مشخص می توان چندین آدرس را معرفی نمود و یا برعکس.
لیست تمامی ربات های اینترنتی معتبر در دیتابیس Web Robots Database وجود دارد وشما می توانید با قرار دادن هر یک
به عنوان User-agent قوانین مشخص و جدیدی برای آنها تعریف کنید.
موتور جستجو گوگل چندین نوع ربات مخصوص به خود دارد که معروفترین آنها با نام Googlebot شناخته می شود و این ربات ها وظیفه بررسی و ایندکس
صفحات وب را برعهده دارند و ربات Googlebot-image نیز مسئول بررسی تصاویر سایت ها و ایندکس کردن آنها می باشد.
شما میتوانید با نوشتن این دستور بات گوگل را داخل User-agent قرار دهید و به آن اجازه بررسی صفحه خود را ندهید.
User-Agent: Googlebot
Disallow: /folder2/
به تعدادی از قوانینی که شما میتوانید برای این ربات ها بگذارید در زیر اشاره می کنیم
برای عدم دسترسی ربات ها به تمام محتویات سایت از کاراکتر / استفاده میکنیم.
Disallow: /
برای عدم دسترسی به یک فولدر یا دسته از سایت نام آن را وارد کنید.
Disallow: /blog/
برای اعمال محدودیت روی یک صفحه خاص آدرس دقیق آن را بدون نام سایت وارد کنید.
Disallow: /blog/keyword-planner/
برای محدود کردن یک تصویر بر روی سایت آدرس آن را به همراه User-agent مربوط به آن وارد کنید.
User-agent: Googlebot-Image Disallow: /images/dogs.jpg
و برای مخفی کردن تمام تصاویر موجود بر روی سایت از دید موتورهای جستجو از دستور زیر استفاده کنید.
User-agent: Googlebot-Image Disallow: /
همچنین شما میتوانید یک نوع فایل مشخص را از دید موتورهای جستجو مخفی نگه دارید، ب عنوان مثال برای تصاویری با فرمت Gif.
User-agent: Googlebot Disallow: /*.gif$
توجه داشته باشید که فایل robots.txt نسبت به بزرگ و کوچک بودن حروف انگلیسی حساس بوده و آدرس صفحات باید به دقت وارد شوند
پس از ساخت فایل مورد نظر خود و ذخیره آن در فرمت txt آن را بر روی سرور و در ریشه اصلی کپی کنید. از بقیه مقالات ما دیدن کنید. صباهاست