فایل Robots.txt یا فایل ربات ساز یکی از موارد مهم در چک لیست سئو تکنیکال است که فعالیت رباتهای جستجوگر جهت ایندکس صفحات مختلف یک وب سایت را کنترل و مدیریت میکند. هر وب سایت برای کسب رتبه مطلوب در صفحه نتایج موتور جستجوگر گوگل توسط رباتهای مختلف و به طور روزانه مورد بررسی قرار میگیرد. این رباتها به صورت خودکار تمامی صفحات یک سایت را بازدید کرده و آنها را به لحاظ ساختاری و فنی ارزیابی میکنند و سپس صفحات بازدید شده را در صفحه نتایج جستجو نمایش میدهند. اما هر وب سایت دارای برخی صفحات عمومی و یا محرمانهای است که نمایش آنها در صفحه نتایج جستجو هیچ ضرورتی ندارد و حتی ممکن است به سئو سایت لطمه وارد کند.
در اینجاست که ساخت فایل Robots.txt به کمک شما میآید و این مشکل را به راحتی برطرف میسازد. با ایجاد یک فایل robots.txt میتوانید فعالیت رباتها و خزندههای وب را برای ایندکس کردن صفحات سایت خود محدود سازید. اما چطور و چگونه؟ در ادامه این مطلب ماهیت و کارکرد فایل ربات ساز را مورد بررسی قرار میدهیم و نحوه ساخت فایل Robots.txt را نیز به شما آموزش خواهیم داد. با وبکده همراه باشید.
فایل robots.txt چیست؟
فایل Robots.txt یک فایل متنی بسیار ساده است که ایندکس کردن صفحات سایت توسط رباتها و خزندههای وب را محدود میسازد. این فایل در واقع صفحات مجاز و غیرمجاز وب سایت جهت ایندکس شدن را به رباتها نشان میدهد و فعالیت آنها را مدیریت میکند. فایل Robots.txt شامل URLهایی است که نمیخواهید توسط رباتهای گوگل و یا هر موتور جستجوگر دیگری ایندکس شوند و در معرض دید کاربران قرار گیرند. بنابراین فایل ربات ساز از ورود رباتها به صفحات موردنظر شما جلوگیری کرده و ایندکس شدن آنها را ممنوع خواهد کرد.
زمانی که رباتها یک سایت را در محیط وب پیدا میکنند، فایل Robots.txt اولین چیزی است که به سراغ آن میروند تا دریابند کدام صفحات اجازه ورود و ایندکس شدن را دارند و کدام صفحات نیز دارای ممنوعیت ورود هستند. بنابراین فایل ربات ساز زبان برقراری ارتباط شما با رباتهای گوگل است که از طریق آن میتوانید به رباتها بگویید که کدام صفحات را ایندکس کرده و در نتایج جستجوی گوگل نمایش دهند و کدام صفحات را ایندکس نکرده و در دسترس کاربران قرار ندهند. فایل Robots.txt یک فایل عمومی است که در دایرکتوری روت سایت ذخیره میشود و برای پیدا کردن آن کافی است نام وب سایت خود را به همراه robots.txt/ در انتهای آن در مرورگر سرچ کنید؛ بدین شکل: www.website-example.com/robots.txt تا لیست تمامی فایلها را مشاهده نمایید.
اهمیت فایل Robots.txt در سئو
استفاده از فایل Robots.txt تاثیر بسزایی بر عملکرد بهینه سایت و سئو آن دارد و به همین دلیل است که تمامی وب سایتها باید دارای فایل ربات ساز باشند. اهمیت استفاده فایل Robots.txt در سئو این است که از ورود رباتها به تمامی صفحات و ایندکس کردن آنها جلوگیری خواهد کرد؛ اما این ممنوعیت چه ارتباطی با سئو دارد؟ رباتها برای جمع آوری اطلاعات یک سایت باید وارد تمامی صفحات شده و محتوای آنها را ایندکس کنند. جمع آوری این اطلاعات به طور روزانه، سرعت وب سایت و عملکرد بهینه آن را تحت تاثیر قرار داده و همین موضوع نیز به طور مستقیم بر سئو سایت و رتبه آن در صفحه نتایج جستجو تاثیر خواهد داشت.
بنابراین برای جلوگیری از جمع آوری اطلاعات صفحات غیرضروری سایت و کاهش حجم رفت و آمد رباتها به وب سایت خود حتما باید به فکر ایجاد فایل Robots.txt باشید. البته رعایت این موضوع در وب سایتهای پربازدید از اهمیت بالاتری برخوردار است زیرا وب سایتهایی که روزانه دارای حجم ترافیک بالایی هستند بدون وجود فایل Robots.txt قادر به مدیریت صحیح سایت و ارائه خدمات بهینه به کاربران نخواهند بود. در نتیجه برای کسب رتبه مطلوب در صفحه نتایج جستجو، بهبود تجربه کاربران، جلوگیری از افت سرعت و کاهش نرخ پرش کاربران از وب سایت خود حتما فایل Robots.txt را در روت سایت خود بسازید و از ایندکس شدن برخی صفحات خاص توسط رباتهای گوگل جلوگیری نمایید.
فایل Robots.txt چگونه کار می کند؟
همانطور که اشاره کردیم فایل Robots.txt یک فایل متنی با ساختار نوشتاری ساده است که دارای برخی دستورالعملهایی است که فعالیت رباتهای گوگل را محدود میسازد. اما برای نوشتن دستور در فایل ربات ساز ابتدا باید با اجزای اصلی آن آشنا باشید تا بتوانید فرمان خود را به درستی در این فایل وارد نمایید. اجزای مختلف فایل Robots.txt شامل:
User-agent
فرمان User-agent در فایل Robots.txt به دو شکل مورد استفاده قرار میگیرد و کاربرد آن نیز مشخص کردن رباتهایی است که اجازه ایندکس کردن صفحات سایت شما را دارند. اگر میخواهید اجازه ایندکس کردن صفحات سایت را به تمامی رباتهای جستجوگر بدهید باید فرمان خود را به این شکل بنویسید:
User-agent: *
* در این فرمان به معنای تمامی رباتها و خزندگان وب است. اما اگر میخواهید اجازه ایندکس کردن صفحات را تنها به یک ربات مثلا ربات گوگل بدهید باید دستور خود را به این شکل بنویسید:
User-agent: Googlebot
بنابراین برای محدود ساختن اجازه ایندکس در این فرمان باید پس از * نام ربات موردنظر را بنویسید.
Disallow
فرمان Disallow به معنای عدم ایندکس صفحات موردنظر توسط رباتها است. یعنی با قرار دادن این دستور در فایل Robots.txt خود دسترسی رباتها به برخی صفحات را محدود میسازید و اجازه ایندکس کردن را به آنها نمیدهید. برای نوشتن این دستور نیز دو روش وجود دارد؛ اگر میخواهید هیچ صفحهای از سایت شما توسط رباتها ایندکس نشود باید فرمان خود را به این شکل بنویسید:
User-agent: *
Disallow: /
اما اگر میخواهید دسترسی به یک صفحه خاص همچون پنل ادمین را برای رباتها محدود سازید باید پس از علامت / نام فایل یا آدرس صفحه را بدین شکل بنویسید:
User-agent: *
Disallow: /wp-admin
Allow
فرمان Allow دقیقا برعکس Disallow است و اجازه ایندکس کردن صفحات را به رباتهای جستجوگر میدهد. یعنی شما با استفاده از این فرمان در فایل Robots.txt به رباتها اجازه دسترسی و ایندکس صفحات موردنظر خود را میدهید. نوشتن دستور Allow نیز دقیقا مانند Disallow بوده و باید پس از علامت / آدرس صفحه یا فایل موردنظر خود را بنویسید. به عنوان مثال اگر میخواهید صفحه برقراری ارتباط با کاربران توسط تمامی رباتها ایندکس شود باید دستور خود را به این صورت بنویسید:
User-agent: *
Allow: /contact
Crawl-delay
Crawl-delay یا نرخ تاخیر یکی دیگر از کدهای دستوری اصلی در فایل Robots.txt است به رباتهای جستجوگر فرمان میدهد تا صفحات سایت شما را با تاخیر ایندکس کنند. با نوشتن این دستور میتوانید از ارسال درخواستهای پیاپی رباتها به سرور سایت خود جلوگیری نمایید. یعنی اگر بخواهید محتوای یک صفحه را ویرایش کرده و یا مشکل فنی آن را برطرف سازید باید مدت زمان تاخیر برای ایندکس شدن توسط رباتها را ذکر کنید. به عنوان مثال با نوشتن فرمان Crawl-delay: 180 به رباتهای دستور میدهید که پس از ایندکس کردن یک صفحه باید به مدت 180 ثانیه صبر کنند و سپس به سراغ ایندکس صفحه بعدی بروند؛ یعنی فاصله میان این ایندکس صفحات باید 180 ثانیه باشد. البته توجه داشته باشید که این دستور برای ربات گوگل (Googlebot) قابل اجرا نیست اما برای اجرای آن میتوانید از گوگل سرچ کنسول (Google Search Console) استفاده کنید.
Sitemap
دستور Sitemap یا نقشه سایت نیز از دیگر فرمانهای اصلی در فایل Robots.txt است که به منظور معرفی نقشه کامل سایت به رباتها و خزندهها نوشته میشود. نقشه سایت یک فایل XML بوده که فهرستی از تمامی صفحات وب است و اجازه دسترسی به آنها را برای رباتها صادر میکند. البته نوشتن نقشه سایت در فایل ربات ساز ضرورتی ندارد اما با نوشتن آن به رباتها نشان میدهید که از چه مسیری میتوانند به فایل xml نقشه سایت شما دسترسی پیدا کنند. برای نوشتن Sitemap در فایل Robots.txt از کد دستوری زیر استفاده کنید و به جای example.com آدرس وب سایت خود را وارد نمایید:
Sitemap: https://example.com/sitemap.xml
بدین ترتیب و با نوشتن این دستورالعملهای ساده میتوانید فعالیت رباتها در وب سایت خود را محدود کرده و کنترل کاملی بر آن داشته باشید.
چرا باید از فایل Robots.txt استفاده کنیم؟
سوالی که اکنون ممکن است برایتان پیش آمده باشد این است که چرا باید از فایل Robots.txt استفاده کنیم؟ و یا چرا باید از ایندکس شدن صفحات سایت خود توسط رباتها جلوگیری به عمل آوریم؟ مزایای فایل robots.txt در یک وب سایت بی شمار است اما مهمترین مزیت این فایل، بهبود عملکرد سایت و سئو آن است که در بخشهای قبلی به آن اشاره کردیم. برخی از مهمترین دلایل استفاده از فایل Robots.txt شامل:
کنترل دسترسی رباتهای جستجوگر
با ایجاد فایل Robots.txt میتوانید از ایندکس شدن صفحات غیرضروری سایت و یا صفحاتی که هنوز دارای محتوای مناسبی نیستند و یا قوانین سئو در آنها پیاده نشده است به راحتی جلوگیری نمایید. انجام این کار تاثیر مستقیمی بر سئو سایت شما دارد و تنها صفحات استاندارد و معتبر را در دسترس رباتها و سپس کاربران قرار خواهد داد.
استفاده حداکثری از بودجه خزش (Crawl Budget)
بودجه خزش به تعداد صفحاتی از سایت اشاره دارد که رباتهای جستجوگر در طول یک بازه زمانی مشخص مثلا یک روز یا یک هفته به ایندکس آنها میپردازند. نرخ خزش هر وب سایت بر اساس میزان بزرگی و بازدید روزانه و تعداد لینکهای آن مشخص میشود و مسلما هرچه میزان بودجه خزش یک سایت بیشتر باشد، رتبه بهتری در صفحه نتایج جستجو بدست خواهد آورد. بنابراین با استفاده از فایل Robots.txt میتوانید از بودجه خزش سایت خود استفاده بهینه داشته باشید و از آن برای ایندکس کردن صفحات مهم وب سایت و مسدود ساختن صفحات غیر ضروری استفاده کنید.
مدیریت ترافیک ورود ربات ها به وب سایت
با نوشتن فایل Robots.txt میتوانید میزان ورود رباتها به سایت خود جهت ایندکس صفحات را محدود سازید و به دنبال آن نیز سرعت بارگذاری صفحات سایت را افزایش دهید. اگر روزانه تعداد زیادی ربات برای بررسی و ایندکس صفحات وارد سایت شما شوند قطعا با مشکل افت سرعت مواجه خواهید شد. کاهش سرعت بارگذاری سایت نیز ارتباط مستقیمی با سئو و تجربه کاربران دارد. بنابراین با استفاده از فایل ربات ساز میتوانید از کاهش سرعت سایت خود و ورود تعداد زیادی ربات به آن جلوگیری نمایید.
چگونه یک فایل robots.txt بسازیم؟
برای ساخت فایل Robots.txt به ابزار و یا برنامه خاصی احتیاج ندارید و میتوانید آن را از طریق Notepad ویندوز خود یادداشت کنید و سپس با فرمت txt از آن خروجی بگیرید. برای ساخت فایل باید بر اساس کدهای دستوری تعریف شده پیش بروید و آنها را به ترتیب در فایل Robots.txt بنویسید. فرمت کلی فایل شما باید به صورت زیر باشد:
User-agent: X
Disallow: Y
User-agent ربات خاصی است که با آن صحبت میکنید و هر آنچه که پس از Disallow آورده شود، صفحه و یا بخشهایی از سایت است که شما ایندکس آنها را برای رباتها مسدود کردهاید. به مثال زیر توجه کنید:
User-agent: googlebot
Disallow: /images
با این کدنویسی به ربات گوگل دستور میدهید که پوشه عکسهای سایت را ایندکس نکند. شما همچنین میتوانید از نشان * برای صحبت با تمامی رباتهای جستجو استفاده کنید و دیگر نیازی نیست نام هر ربات را به صورت جداگانه در فایل خود ذکر کنید. تنها کافی است مانند مثال زیر یک * مقابل User-agent قرار دهید:
User-agent: *
Disallow: /images
نشان * به معنای آن است که هیچ ربات و یا خزندهای اجازه دسترسی به پوشه عکسها را نخواهد داشت. برای صدور اجازه نیز میتوانید با همین روش اقدام کنید اما به خاطر داشته باشید که باید ترتیب قرارگیری کدهای دستوری را رعایت کنید. یعنی ابتدا باید User-agent بعد از آن Disallow و پس از آن نیز Allow را مشخص نمایید تا رباتها قادر به خواندن و تشخیص دستورات شما باشند.
بررسی صحت فایل Robots.txt
شما به عنوان وب مستر و یا صاحب یک وب سایت باید فایل Robots.txt را به درستی و با رعایت استاندادرهای موجود تهیه و تنظیم کنید؛ زیرا وجود هرگونه خطا در این فایل ممکن است سایت شما را به طور کلی از صفحه نتایج جستجو حذف کند. خوشبختانه برای بررسی صحت فایل Robots.txt میتوانید از ابزار تست سرچ کنسول کوگل استفاده نمایید تا از درستی اطلاعات وارد شده اطمینان حاصل کنید.
برای انجام این کار و یافتن خطاهای فایل Robots.txt ابتدا وارد وب سایت Google Search Console شده و سپس وارد بخش robots.txt Tester شوید و گزینه Test را انتخاب کنید. در صورت وجود هرگونه مشکل در فایل Robots.txt پس از چند ثانیه ارور قرمز رنگ Disallowed به همراه تمامی خطاهای موجود به صورت با هایلایت شده برای شما نمایش داده میشوند. اما اگر فایل خود را به درستی تنظیم کرده باشید گزینه قرمز Test به گزینه Allowed سبز رنگ تغییر پیدا خواهد کرد.
Robots.txt یا تگ noindex
برای ایندکس نشدن صفحات یک وب سایت روش دیگری به جز فایل Robots.txt وجود دارد که از طریق آن نیز میتوانید از ایندکس شدن برخی صفحات جلوگیری کنید. متا تگ نوایندکس (noindex) نیز به منظور ایندکس نشدن صفحات سایت مورد استفاده قرار میگیرد. اما بسیاری از وب مسترها برای محدود ساختن ایندکس صفحات وب سایت میان Robots.txt یا تگ noindex مردد میشوند و نمیدانند که کدام یک از آنها گزینه بهتری است.
به طور کلی استفاده از فایل Robots.txt برای محدود ساختن دسترسی رباتها به برخی صفحات گزینه بهتری محسوب میشود زیرا اجرا و پیاده سازی تگ نوایندکس بر روی منابع چندرسانهای کمی دشوار است. از طرفی دیگر نیز محدود ساختن تعداد زیادی صفحه در سایت از طریق فایل Robots.txt بسیار ساده است و با افزودن یک آدرس به فایل انجام میشود اما تگ نوایندکس باید به صورت دستی به هر صفحه اضافه شود. بنابراین برای جلوگیری از ایندکس صفحات سایت، فایل ربات ساز نسبت به متا تگ noindex انتخاب هوشمندانهتری به نظر میرسد.
جمع بندی
فایل Robots.txt یک فایل متنی و ساده است که با ساخت آن میتوانید از ایندکس شدن برخی صفحات در وب سایت خود جلوگیری نمایید. ساخت فایل ربات ساز تاثیرات مثبتی بر سئو وب سایت دارد و از ایندکس شدن و قرار گرفتن صفحات غیرضروری سایت در نتایج جستجو کاربران جلوگیری خواهد کرد. ساخت فایل Robots.txt برای وب سایتهای پربازدید بسیار مهم است زیرا از طریق آن میتوانند تنها صفحاتی که دارای محتواهای مفید و استاندارد هستند را در دسترس کاربران قرار دهند و نرخ خزش سایت خود را برای صفحات بی اهمیت مصرف نکنند.