آنچه در این مقاله میخوانید

    فایل Robots.txt چیست و چه کاربردی دارد؟

    فایل Robots.txt چیست و چه کاربردی دارد؟

    فایل Robots.txt یا فایل ربات ساز یکی از موارد مهم در چک لیست سئو تکنیکال است که فعالیت‌ ربات‌های جستجوگر جهت ایندکس صفحات مختلف یک وب سایت را کنترل و مدیریت می‌کند. هر وب سایت برای کسب رتبه مطلوب در صفحه نتایج موتور جستجوگر گوگل توسط ربات‌های مختلف و به طور روزانه مورد بررسی قرار می‌گیرد. این ربات‌ها به صورت خودکار تمامی صفحات یک سایت را بازدید کرده و آنها را به لحاظ ساختاری و فنی ارزیابی می‌کنند و سپس صفحات بازدید شده را در صفحه نتایج جستجو نمایش می‌دهند. اما هر وب سایت دارای برخی صفحات عمومی و یا محرمانه‌ای است که نمایش آنها در صفحه نتایج جستجو هیچ ضرورتی ندارد و حتی ممکن است به سئو سایت لطمه وارد ‌کند.
    در اینجاست که ساخت فایل Robots.txt به کمک شما می‌آید و این مشکل را به راحتی برطرف می‌سازد. با ایجاد یک فایل robots.txt می‌توانید فعالیت ربات‌ها و خزنده‌های وب را برای ایندکس کردن صفحات سایت خود محدود سازید. اما چطور و چگونه؟ در ادامه این مطلب ماهیت و کارکرد فایل ربات ساز را مورد بررسی قرار می‌دهیم و نحوه ساخت فایل Robots.txt را نیز به شما آموزش خواهیم داد. با وبکده همراه باشید.


    فایل ربات سایت

    فایل robots.txt چیست؟

    فایل Robots.txt یک فایل متنی بسیار ساده است که ایندکس کردن صفحات سایت توسط ربات‌ها و خزنده‌های وب را محدود می‌سازد. این فایل در واقع صفحات مجاز و غیرمجاز وب سایت جهت ایندکس شدن را به ربات‌ها نشان می‌دهد و فعالیت آنها را مدیریت می‌کند. فایل Robots.txt شامل URLهایی است که نمی‌خواهید توسط ربات‌های گوگل و یا هر موتور جستجوگر دیگری ایندکس شوند و در معرض دید کاربران قرار گیرند. بنابراین فایل ربات ساز از ورود ربات‌ها به صفحات موردنظر شما جلوگیری کرده و ایندکس شدن آنها را ممنوع خواهد کرد.
    زمانی که ربات‌ها یک سایت را در محیط وب پیدا می‌کنند، فایل Robots.txt اولین چیزی است که به سراغ آن می‌روند تا دریابند کدام صفحات اجازه ورود و ایندکس شدن را دارند و کدام صفحات نیز دارای ممنوعیت ورود هستند. بنابراین فایل ربات ساز زبان برقراری ارتباط شما با ربات‌های گوگل است که از طریق آن می‌توانید به ربات‌ها بگویید که کدام صفحات را ایندکس کرده و در نتایج جستجوی گوگل نمایش دهند و کدام صفحات را ایندکس نکرده و در دسترس کاربران قرار ندهند. فایل Robots.txt یک فایل عمومی است که در دایرکتوری روت سایت ذخیره می‌شود و برای پیدا کردن آن کافی است نام وب سایت خود را به همراه robots.txt/ در انتهای آن در مرورگر سرچ کنید؛ بدین شکل: www.website-example.com/robots.txt تا لیست تمامی فایل‌ها را مشاهده نمایید.

    اهمیت فایل Robots.txt در سئو

    استفاده از فایل Robots.txt تاثیر بسزایی بر عملکرد بهینه سایت و سئو آن دارد و به همین دلیل است که تمامی وب سایت‌ها باید دارای فایل ربات ساز باشند. اهمیت استفاده فایل Robots.txt در سئو این است که از ورود ربات‌ها به تمامی صفحات و ایندکس کردن آنها جلوگیری خواهد کرد؛ اما این ممنوعیت چه ارتباطی با سئو دارد؟ ربات‌ها برای جمع آوری اطلاعات یک سایت باید وارد تمامی صفحات شده و محتوای آنها را ایندکس کنند. جمع آوری این اطلاعات به طور روزانه، سرعت وب سایت و عملکرد بهینه آن را تحت تاثیر قرار داده و همین موضوع نیز به طور مستقیم بر سئو سایت و رتبه آن در صفحه نتایج جستجو تاثیر خواهد داشت.
    بنابراین برای جلوگیری از جمع آوری اطلاعات صفحات غیرضروری سایت و کاهش حجم رفت و آمد ربات‌ها به وب سایت خود حتما باید به فکر ایجاد فایل Robots.txt باشید. البته رعایت این موضوع در وب سایت‌های پربازدید از اهمیت بالاتری برخوردار است زیرا وب سایت‌هایی که روزانه دارای حجم ترافیک بالایی هستند بدون وجود فایل Robots.txt قادر به مدیریت صحیح سایت و ارائه خدمات بهینه به کاربران نخواهند بود. در نتیجه برای کسب رتبه مطلوب در صفحه نتایج جستجو، بهبود تجربه کاربران، جلوگیری از افت سرعت و کاهش نرخ پرش کاربران از وب سایت خود حتما فایل Robots.txt را در روت سایت خود بسازید و از ایندکس شدن برخی صفحات خاص توسط ربات‌های گوگل جلوگیری نمایید.


    فایل robots.txt چیست

    فایل Robots.txt چگونه کار می کند؟

    همانطور که اشاره کردیم فایل Robots.txt یک فایل متنی با ساختار نوشتاری ساده است که دارای برخی دستورالعمل‌هایی است که فعالیت ربات‌های گوگل را محدود می‌سازد. اما برای نوشتن دستور در فایل ربات ساز ابتدا باید با اجزای اصلی آن آشنا باشید تا بتوانید فرمان خود را به درستی در این فایل وارد نمایید. اجزای مختلف فایل Robots.txt شامل:


    مزایای فایل robots.txt

    User-agent


    فرمان User-agent در فایل Robots.txt به دو شکل مورد استفاده قرار می‌گیرد و کاربرد آن نیز مشخص کردن ربات‌هایی است که اجازه ایندکس کردن صفحات سایت شما را دارند. اگر می‌خواهید اجازه ایندکس کردن صفحات سایت را به تمامی ربات‌های جستجوگر بدهید باید فرمان خود را به این شکل بنویسید:
    User-agent: *
    * در این فرمان به معنای تمامی ربات‌ها و خزندگان وب است. اما اگر می‌خواهید اجازه ایندکس کردن صفحات را تنها به یک ربات مثلا ربات گوگل بدهید باید دستور خود را به این شکل بنویسید:
    User-agent: Googlebot
    بنابراین برای محدود ساختن اجازه ایندکس در این فرمان باید پس از * نام ربات موردنظر را بنویسید.


    Disallow

    فرمان Disallow به معنای عدم ایندکس صفحات موردنظر توسط ربات‌ها است. یعنی با قرار دادن این دستور در فایل Robots.txt خود دسترسی ربات‌ها به برخی صفحات را محدود می‌سازید و اجازه ایندکس کردن را به آنها نمی‌دهید. برای نوشتن این دستور نیز دو روش وجود دارد؛ اگر می‌خواهید هیچ صفحه‌ای از سایت شما توسط ربات‌ها ایندکس نشود باید فرمان خود را به این شکل بنویسید:
    User-agent: *
    Disallow: /
    اما اگر می‌خواهید دسترسی به یک صفحه خاص همچون پنل ادمین را برای ربات‌ها محدود سازید باید پس از علامت / نام فایل یا آدرس صفحه را بدین شکل بنویسید:
    User-agent: *
    Disallow: /wp-admin


    Allow

    فرمان Allow دقیقا برعکس Disallow است و اجازه ایندکس کردن صفحات را به ربات‌های جستجوگر می‌دهد. یعنی شما با استفاده از این فرمان در فایل Robots.txt به ربات‌ها اجازه دسترسی و ایندکس صفحات موردنظر خود را می‌دهید. نوشتن دستور Allow نیز دقیقا مانند Disallow بوده و باید پس از علامت / آدرس صفحه یا فایل موردنظر خود را بنویسید. به عنوان مثال اگر می‌خواهید صفحه برقراری ارتباط با کاربران توسط تمامی ربات‌ها ایندکس شود باید دستور خود را به این صورت بنویسید:
    User-agent: *

    Allow: /contact

    Crawl-delay

    Crawl-delay یا نرخ تاخیر یکی دیگر از کدهای دستوری اصلی در فایل Robots.txt است به ربات‌های جستجوگر فرمان می‌دهد تا صفحات سایت شما را با تاخیر ایندکس کنند. با نوشتن این دستور می‌توانید از ارسال درخواست‌های پیاپی ربات‌ها به سرور سایت خود جلوگیری نمایید. یعنی اگر بخواهید محتوای یک صفحه را ویرایش کرده و یا مشکل فنی آن را برطرف سازید باید مدت زمان تاخیر برای ایندکس شدن توسط ربات‌ها را ذکر ‌کنید. به عنوان مثال با نوشتن فرمان Crawl-delay: 180 به ربات‌های دستور می‌دهید که پس از ایندکس کردن یک صفحه باید به مدت 180 ثانیه صبر کنند و سپس به سراغ ایندکس صفحه بعدی بروند؛ یعنی فاصله میان این ایندکس صفحات باید 180 ثانیه باشد. البته توجه داشته باشید که این دستور برای ربات گوگل (Googlebot) قابل اجرا نیست اما برای اجرای آن می‌توانید از گوگل سرچ کنسول (Google Search Console) استفاده کنید.


    معایب Robots.txt


    Sitemap

    دستور Sitemap یا نقشه سایت نیز از دیگر فرمان‌های اصلی در فایل Robots.txt است که به منظور معرفی نقشه کامل سایت به ربات‌ها و خزنده‌ها نوشته می‌شود. نقشه سایت یک فایل XML بوده که فهرستی از تمامی صفحات وب است و اجازه دسترسی به آنها را برای ربات‌ها صادر می‌کند. البته نوشتن نقشه سایت در فایل ربات ساز ضرورتی ندارد اما با نوشتن آن به ربات‌ها نشان می‌دهید که از چه مسیری می‌توانند به فایل xml نقشه سایت شما دسترسی پیدا کنند. برای نوشتن Sitemap در فایل Robots.txt از کد دستوری زیر استفاده کنید و به جای example.com آدرس وب سایت خود را وارد نمایید:

    Sitemap: https://example.com/sitemap.xml

    بدین ترتیب و با نوشتن این دستورالعمل‌های ساده می‌توانید فعالیت ربات‌ها در وب سایت خود را محدود کرده و کنترل کاملی بر آن داشته باشید.


    اهمیت فایل Robots.txt در سئو

    چرا باید از فایل Robots.txt استفاده کنیم؟

    سوالی که اکنون ممکن است برایتان پیش آمده باشد این است که چرا باید از فایل Robots.txt استفاده کنیم؟ و یا چرا باید از ایندکس شدن صفحات سایت خود توسط ربات‌ها جلوگیری به عمل آوریم؟ مزایای فایل robots.txt در یک وب سایت بی شمار است اما مهم‌ترین مزیت این فایل، بهبود عملکرد سایت و سئو آن است که در بخش‌های قبلی به آن اشاره کردیم. برخی از مهم‌ترین دلایل استفاده از فایل Robots.txt شامل:

    کنترل دسترسی ربات‌های جستجوگر

    با ایجاد فایل Robots.txt می‌توانید از ایندکس شدن صفحات غیرضروری سایت و یا صفحاتی که هنوز دارای محتوای مناسبی نیستند و یا قوانین سئو در آنها پیاده نشده است به راحتی جلوگیری نمایید. انجام این کار تاثیر مستقیمی بر سئو سایت شما دارد و تنها صفحات استاندارد و معتبر را در دسترس ربات‌ها و سپس کاربران قرار خواهد داد.

    استفاده حداکثری از بودجه خزش (Crawl Budget)

    بودجه خزش به تعداد صفحاتی از سایت اشاره دارد که ربات‌های جستجوگر در طول یک بازه زمانی مشخص مثلا یک روز یا یک هفته به ایندکس آنها می‌پردازند. نرخ خزش هر وب سایت بر اساس میزان بزرگی و بازدید روزانه و تعداد لینک‌های آن مشخص می‌شود و مسلما هرچه میزان بودجه خزش یک سایت بیشتر باشد، رتبه بهتری در صفحه نتایج جستجو بدست خواهد آورد. بنابراین با استفاده از فایل Robots.txt می‌توانید از بودجه خزش سایت خود استفاده بهینه داشته باشید و از آن برای ایندکس کردن صفحات مهم وب سایت و مسدود ساختن صفحات غیر ضروری استفاده کنید.

    مدیریت ترافیک ورود ربات ها به وب سایت


    با نوشتن فایل Robots.txt می‌توانید میزان ورود ربات‌ها به سایت خود جهت ایندکس صفحات را محدود سازید و به دنبال آن نیز سرعت بارگذاری صفحات سایت را افزایش دهید. اگر روزانه تعداد زیادی ربات برای بررسی و ایندکس صفحات وارد سایت شما شوند قطعا با مشکل افت سرعت مواجه خواهید شد. کاهش سرعت بارگذاری سایت نیز ارتباط مستقیمی با سئو و تجربه کاربران دارد. بنابراین با استفاده از فایل ربات ساز می‌توانید از کاهش سرعت سایت خود و ورود تعداد زیادی ربات به آن جلوگیری نمایید.


    چگونه یک فایل robots.txt بسازیم؟


    برای ساخت فایل Robots.txt به ابزار و یا برنامه خاصی احتیاج ندارید و می‌توانید آن را از طریق Notepad ویندوز خود یادداشت کنید و سپس با فرمت txt از آن خروجی بگیرید. برای ساخت فایل باید بر اساس کدهای دستوری تعریف شده پیش بروید و آنها را به ترتیب در فایل Robots.txt بنویسید. فرمت کلی فایل شما باید به صورت زیر باشد:


    User-agent: X
    Disallow: Y


    User-agent ربات خاصی است که با آن صحبت می‌کنید و هر آنچه که پس از Disallow آورده شود، صفحه و یا بخش‌هایی از سایت است که شما ایندکس آنها را برای ربات‌ها مسدود کرده‌اید. به مثال زیر توجه کنید:


    User-agent: googlebot
    Disallow: /images
    با این کدنویسی به ربات گوگل دستور می‌دهید که پوشه عکس‌های سایت را ایندکس نکند. شما همچنین می‌توانید از نشان * برای صحبت با تمامی ربات‌های جستجو استفاده کنید و دیگر نیازی نیست نام هر ربات را به صورت جداگانه در فایل خود ذکر کنید. تنها کافی است مانند مثال زیر یک * مقابل User-agent قرار دهید:
    User-agent: *
    Disallow: /images
    نشان * به معنای آن است که هیچ ربات و یا خزنده‌ای اجازه دسترسی به پوشه عکس‌ها را نخواهد داشت. برای صدور اجازه نیز می‌توانید با همین روش اقدام کنید اما به خاطر داشته باشید که باید ترتیب قرارگیری کدهای دستوری را رعایت کنید. یعنی ابتدا باید User-agent بعد از آن Disallow و پس از آن نیز Allow را مشخص نمایید تا ربات‌ها قادر به خواندن و تشخیص دستورات شما باشند.


    Robots.txt یا تگ noindex


    بررسی صحت فایل Robots.txt


    شما به عنوان وب مستر و یا صاحب یک وب سایت باید فایل Robots.txt را به درستی و با رعایت استاندادرهای موجود تهیه و تنظیم کنید؛ زیرا وجود هرگونه خطا در این فایل ممکن است سایت شما را به طور کلی از صفحه نتایج جستجو حذف کند. خوشبختانه برای بررسی صحت فایل Robots.txt می‌توانید از ابزار تست سرچ کنسول کوگل استفاده نمایید تا از درستی اطلاعات وارد شده اطمینان حاصل کنید.
    برای انجام این کار و یافتن خطاهای فایل Robots.txt ابتدا وارد وب سایت Google Search Console شده و سپس وارد بخش robots.txt Tester شوید و گزینه Test را انتخاب کنید. در صورت وجود هرگونه مشکل در فایل Robots.txt پس از چند ثانیه ارور قرمز رنگ Disallowed به همراه تمامی خطاهای موجود به صورت با هایلایت شده برای شما نمایش داده می‌شوند. اما اگر فایل خود را به درستی تنظیم کرده باشید گزینه قرمز Test به گزینه Allowed سبز رنگ تغییر پیدا خواهد کرد.


    Robots.txt یا تگ noindex


    برای ایندکس نشدن صفحات یک وب سایت روش دیگری به جز فایل Robots.txt وجود دارد که از طریق آن نیز می‌توانید از ایندکس شدن برخی صفحات جلوگیری کنید. متا تگ نوایندکس (noindex) نیز به منظور ایندکس نشدن صفحات سایت مورد استفاده قرار می‌گیرد. اما بسیاری از وب مسترها برای محدود ساختن ایندکس صفحات وب سایت میان Robots.txt یا تگ noindex مردد می‌شوند و نمی‌دانند که کدام یک از آنها گزینه بهتری است.
    به طور کلی استفاده از فایل Robots.txt برای محدود ساختن دسترسی ربات‌ها به برخی صفحات گزینه بهتری محسوب می‌شود زیرا اجرا و پیاده سازی تگ نوایندکس بر روی منابع چندرسانه‌ای کمی دشوار است. از طرفی دیگر نیز محدود ساختن تعداد زیادی صفحه در سایت از طریق فایل Robots.txt بسیار ساده است و با افزودن یک آدرس به فایل انجام می‌شود اما تگ نوایندکس باید به صورت دستی به هر صفحه اضافه شود. بنابراین برای جلوگیری از ایندکس صفحات سایت، فایل ربات ساز نسبت به متا تگ noindex انتخاب هوشمندانه‌تری به نظر می‌رسد.


    چطور یک فایل robots.txt بسازیم


    جمع بندی


    فایل Robots.txt یک فایل متنی و ساده است که با ساخت آن می‌توانید از ایندکس شدن برخی صفحات در وب سایت خود جلوگیری نمایید. ساخت فایل ربات ساز تاثیرات مثبتی بر سئو وب سایت دارد و از ایندکس شدن و قرار گرفتن صفحات غیرضروری سایت در نتایج جستجو کاربران جلوگیری خواهد کرد. ساخت فایل Robots.txt برای وب سایت‌های پربازدید بسیار مهم است زیرا از طریق آن می‌توانند تنها صفحاتی که دارای محتواهای مفید و استاندارد هستند را در دسترس کاربران قرار دهند و نرخ خزش سایت خود را برای صفحات بی اهمیت مصرف نکنند.

    ارسال نظر
    نام
    ایمیل
    نظر

    آژانس برندسازی «بمان»

    "Baman" branding agency

    مأموریت ما در «بمان» طراحی و توسعه‌ی وبسایت اختصاصی و حرفه‌ای است. ما در طول ۱۷ سال فعالیت در حوزه برندسازی، افتخارِ طراحی 480 وبسایت تخصصی را برای کسب‌وکارهای مختلف داشته‌ایم. ما بر این باوریم که وبسایت صرفاً یک نرم‌افزار نیست، بلکه یک دفتر کار مجازی است که می‌باید هویت و احساس کسب‌وکار را به مخاطبان خود معرفی و منتقل کند.

    رزرو مشاوره