כלי בדיקת robot.txt

דוגמא: websiteplanet.com/robots.txt

01

פשוט לתפעול:

איך בודקים קובץ robots.txt? פשוט וקל, הכנס את כתובת הקובץ והכלי שלנו ינתח אותו בלחיצת עכבר
02

תכליתי:

הכלי מוצא שגיאות סינטקסט ושגיאות לוגיות כמו למשל שגיאות הקלדה
03

מדויק:

כלי האימות לוקח בחשבון הן מניעת כניסה של רובוטים והן של קרוולרים (כמו זה של גוגל, ינדקס ובינג). ובכלל זה את האבחנה לגבי Sitemap

שאלות נפוצות

מהו הכלי לבדיקה ולאישור של robots.txt?

הכלי לבדיקה של קובץ ה-robots.txt נועד לבדוק אם קובץ זה באתר שלכם הוא מדויק ואין בו שגיאות. קובץ robots.txt הוא חלק מהאתר שלכם ומספק חוקים לסריקה של האתר עבר מנועי החיפוש השונים, כדי לוודא שהבוטים של מנועי החיפוש סורקים בצורה נכונה את האתר ומאנדקסים קודם כל את התוכן החשוב ביותר.

הכלי הוא פשוט מאוד לשימוש ונותן לכם דוח מפורט בשניות – אתם רק צריכים להכניס את כתובת הדומיין שלכם ולהוסיף בסופה /robots.txt (yourwebsite.com/robots.txt). לאחר מכן עליכם ללחוץ על כפתור “בדיקה”. הכלי שלנו יאתר אם יש שגיאות בקובץ (כמו טעויות הקלדה, טעויות תחביר או טעויות ב”היגיון” של הקובץ) וייתן לכם טיפים שיעזרו לכם לשפר אותו.

למה אני צריך לבדוק את קובץ ה-robots.txt שלי?

בעיות שונות בקובץ robots.txt – או במקרה שאין בכלל קובץ כזה באתר – יכולים להשפיע באופן שלילי על דירוגי הקידום האורגני שלכם (SEO), ולגרום לכך שהאתר שלכם לא יופיע במקומות גבוהים בתוצאות של מנועי החיפוש. זה יכול להיגרם על ידי סריקה של תוכן שולי לפני (או במקום) סריקת התוכן החשוב שבאתר שלכם.

בדיקה של הקובץ לפני שהבוטים של מנועי החיפוש מאנדקסים את האתר יכול לעזור לכם להימנע ממצב בו כל התוכן של האתר שלכם נסרק ומופיע בחיפוש, ולא רק הדפים שאתם רוצים שייכללו בתוצאות.

לדוגמה, אם יש לכם דף באתר שאתם רוצים שגולשים יגיעו אליו רק לאחר שמילאו טופס באתר, או דף המיועד לחברים רשומים בלבד, ואתם לא מונעים סריקה שלו באמצעות קובץ robots.txt – הדף הזה עלול להיסרק ולהופיע בין דפי האתר שלכם בתוצאות החיפוש כמו שאר הדפים האחרים.

מה המשמעות של השגיאות (errors) והאזהרות שמופיעות בדוח?

יש מגוון שגיאות שיכולות להשפיע על קובץ ה-robots.txt שלכם, כמו גם נושאים חשובים לשיפור שאתם יכולים לראות כשאתם בודקים את הקובץ באמצעות הכלי שלנו. מדובר בדברים שיכולים להשפיע על הקידום של האתר ושצריך לטפל בהם. אזהרות, בניגוד לשגיאות, הן פחות חשובות וניתן לראות בהן עצות כלליות כיצד לשפר את הקובץ.

שגיאות שאתם עלולים לקבל כוללות:

שגיאה בכתובת (Invalid URL) – אתם תראו הודעת שגיאה זו אם אין בכלל קובץ robots.txt באתר.

שגיאת תו חופשי אפשרית (Potential wildcard error) – אמנם זוהי יותר אזהרה משגיאה מבחינה טכנית, אבל אם אתם רואים שגיאה זו פירוש הדבר הוא שקובץ ה-robots.txt שלכם כולל תו חופשי (*) בשדה הדפים שבהם נמנעת הסריקה (לדוגמה -Disallow: /*.rss). זוהי יותר המלצה לתיקון מאשר שגיאה, מפני שגוגל מאפשר תו חופשי בשדה זה – אך בכל זאת ממליץ להימנע מכך.

הוראות לכל מנועי החיפוש ולמנועים ספציפיים באותו קטע קוד (Generic and specific user-agents in the same block of code) – זוהי טעות תחביר של קוד שצריך לתקן כדי להימנע מבעיות כאשר מנועי החיפוש סורקים את האתר שלכם.

אזהרות שאתם עלולים לקבל כוללות:

Allow: / – להשתמש באפשרות ה-allow לא תפגע במאמצי קידום האתרים שלכם, אבל נהוג להימנע ממנה בקבצי robots.txt תקינים. מנועי החיפוש הגדולים כמו גוגל ובינג אמנם יישמעו להוראה הזו, אך לא בהכרח כל הסורקים וכל הבוטים של מנועי החיפוש האחרים. באופן כללי, מומלץ שקובץ ה-robots.txt יתאים לכל מנועי החיפוש, ולא רק לגדולים שבהם.

שימוש באותיות גדולות בשדה השם (Field name capitalization) – אמנם שדות של שמות אינם בהכרח רגישים לשימוש באותיות קטנות או גדולות באנגלית (case sensitive), אך יכול להיות שחלק מהבוטים שיסרקו את האתר כן רגישים לשימוש זה. לכן, מומלץ לדאוג לשימוש באותיות גדולות בשדות של שמות בקובץ ה-robots.txt.

תמיכה במפת אתר (Sitemap support) – חלק מקבצי ה-robots.txt כוללים את הפרטים של מפת האתר שלכם, אך מומלץ שלא לכלול אותם בקובץ. גוגל ובינג כן תומכים באפשרות זו.

איך אני יכול לתקן את השגיאות בקובץ ה-robots.txt שלי?

תיקון השגיאות בקובץ תלוי בפלטפורמה שבה אתם משתמשים לניהול האתר. אם אתם משתמשים בוורדפרס, עדיף להשתמש בתוסף כמו WordPress Robots.txt Optimization או Robots.txt Editor. אם האתר שלכם מחובר ל-Google Search Console – אתם יכולים לערוך את הקובץ משם.

חלק מהפלטפורמות לבניית אתרים, כמו Wix, לא מאפשרות לכם לערוך את קובץ ה-robots.txt באופן ישיר, אך כן מאפשרות להוסיף לכל דף בנפרד תגית HTML של no-index, שמשמשת למטרת חסימת הבוטים הסורקים את האתר.