שלבים ורכיבים של תהליך הסריקה

שלבים ורכיבים של תהליך הסריקה
David Kaufmann
מדריכי SEO
8 min read

Crawling, spiders, bots — אלו מונחים שכל איש SEO רגיל לטפל בהם יום-יום, ויש להם משקל חיוני בכל אסטרטגיית קידום, כי אם השלב הזה נכשל, גם השאר ייכשל.

בואו נראה בפירוט ממה מורכב תהליך סריקה של אתר.

מה זה אומר לסרוק אתר?

לפני שנמשיך, בואו נגדיר את התהליך של סריקת אתר, נציג את החשיבות שלו בתוך כל ניסיון להופיע בתוצאות החיפוש של Google.

סריקת אתר מובנת כתהליך שבו spiders או crawlers נעים דרך הדפים השונים של אתר, אוספים את כל המידע הנגיש, כדי לאחסן אותו, לעבד אותו ולסווג אותו אחר כך.

ראוי להדגיש כמה מונחים יסודיים בתוך ההגדרה שזה עתה הנחנו:

  • מסע: חשבו על spider באמת. החרק הידידותי הזה צריך לעבור דרך כמה שיותר דפים כדי להוציא מהם את כל המידע שאפשר. כדי לעבור מדף לדף, הוא עושה זאת דרך הקישורים הפנימיים שמחברים ביניהם. מכאן החשיבות של קישוריות פנימית נכונה שמאפשרת ל-spiders האלו "לגלות" — אם לא את כל — לפחות את הדפים הרלוונטיים ביותר עבורנו.

  • נגישות: המידע צריך להיות נגיש ל-spiders האלו. כלומר, אם בדרך כלשהי אנחנו מגבילים את הגישה שלהם בכוונה או בטעות, אנחנו נמנע מ-spiders להיות מסוגלים לעבד את כל התוכן, ולכן להבין ובסופו של דבר לסווג אותו.

חסימה או הגבלה זו של תוכן הדף יכולה להתרחש בכמה דרכים שונות, שננסה להסביר בהמשך הפוסט הזה.

ה-crawlers

דיברנו על spiders, ידועים גם כ-crawlers או bots. אנחנו יכולים להגדיר אותם כתוכניות שמנתחות את המסמכים באתר שלנו, כלומר, הם כמו "ספרנים" שמחפשים, מסווגים ומארגנים. התפקיד העיקרי שלהם הוא לכן לבנות מסדי נתונים. יש כמה סוגים, תלוי בסוג המידע שהם אוספים. בואו נזכיר כמה מהנפוצים ביותר.

Googlebot: ה-spider שאחראי לסרוק את התוכן שלנו ולסווג אותו בתוך התוצאות האורגניות (SERPs). לאנשי SEO, זה החשוב ביותר.

בתוך הסוג הזה אנחנו יכולים להבחין בכמה תתי-סוגים:

  • Googlebot (smartphones): גרסת mobile

  • Googlebot (desktop version): גרסת desktop

  • Googlebot Images: אחראי לסרוק תמונות

  • Googlebot News: לחדשות

  • Googlebot Video: עכשיו תור הסרטונים

דוגמה ל-bot שזוהה בלוגים שלנו:

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

הם לא היחידים — יש אחרים כמו Adsbot, Adsense וכו'. לאחר שכבר הזכרנו את הרלוונטיים למגזר ה-SEO, להבחין ביניהם ובין השאר אינו הפוקוס של המאמר הזה, אבל אתה יכול למצוא מידע נוסף ב**קישור הרשמי של Google**.

שלבי תהליך הסריקה והאינדקס של Google

עכשיו שאנחנו יודעים מהו crawling, מי אחראי לפונקציה הזו, ודיברנו על התהליך, בואו נראה אותו בפירוט יותר ספציפי.

שלב ראשון: סריקה וסיווג

התהליך שבו הדפים שלנו מופיעים בתוצאות של Google עובר דרך שלב ראשון של סריקה, כפי שראינו, שמבוצע ע"י ה-spiders (crawlers), כך שהם קוראים, מפרשים, מאנדקסים ומסווגים את התוכן שלנו.

זו המילה החדשה שנרצה לנתח בפירוט, לסווג. Google חייבת להבין באופן מושלם את התוכן שלנו, פשוט ומהר, כי כפי שנראה אחר כך, Google מקדישה כמות זמן ספציפית לאתר שלנו, ובזמן הזה היא חייבת "להבין" את התוכן שלנו ולקשר אותו לכוונות החיפוש השונות של המשתמשים.

זו הסיבה שב-SEO מודרני המילה "Search Intent" נשמעת כל כך הרבה, מאחר ש-Google תיקח אותה בחשבון בסיווג הזה והיא תגדיר את המיקום שהדפים שלנו יתפסו בדירוגי SERP.

לכן תהליך הסריקה צריך להיות נקי, פשוט, מהיר, ללא מכשולים וכו', כך שהכל יהיה ברור ונסווג נכון.

שלב שני: אינדקס

אנחנו לא יכולים לשכוח את שלב האינדקס, שקודם לסיווג וגם משחק תפקיד יסודי, מאחר שיהיה הצעד שבו Google תוסיף את התוכן שלנו למסד הנתונים שלה, כלומר, היא מאנדקסת אותו.

crawling web
crawling web

חסימת הרובוטים של Google

הזכרנו קודם שיש דרכים שבהן ייתכן שאנחנו מגבילים את הגישה של ה-spiders האלו לתוכן שלנו. לשם כך, יש אלמנט בעל משקל חיוני ב-SEO שידוע כ-robots.txt.

קובץ ה-robots.txt הוא קובץ טקסט שאנחנו מעלים לשרת שלנו, שבו אנחנו נותנים הוראות מדויקות ל-spiders השונים לאפשר או לחסום אותם מסריקת URLs באתר שלנו. החסימה הזו יכולה להיות מיושמת:

  • לכל הדומיין

  • לנתיב ספציפי

  • ל-URL ספציפי

  • או לסט של URLs שתואמים תבנית מסוימת.

בואו נראה דוגמת תצורה של הקובץ הזה:

User-agent: *

Disallow: /wp-admin/

Allow: wp-admin/admin-ajax.php

Sitemap: /sitemap.xml

כפי שאנחנו רואים, יש לו שורה ראשונה שבה אנחנו מציינים את ה-user-agent (השם של ה-crawler שאנחנו רוצים לחסום או לאפשר, מאלו שראינו קודם), ולאחריו פקודות ה-"disallow" כדי לאסור כניסה או "allow" כדי לאפשר אותה.

במקרה הספציפי שאנחנו רואים, ע"י ציון עם * אנחנו אומרים "כל ה-crawlers", ללא יוצא מן הכלל. אנחנו אוסרים עליהם להיכנס לנתיב /wp-admin/, אבל בתוך הנתיב הזה אנחנו רוצים לאפשר להם להיכנס ל-/admin-ajax.php.

תצורה לא נכונה של הקובץ הזה יכולה לגרום לכך שאנחנו חוסמים חלקים חשובים של התוכן שלנו. זוהי טעות נפוצה לחסום את כל האתר בזמן שהוא בפיתוח, ואז לשכוח להסיר את החסימה הזו לאחר הצבתו בייצור, מה שהופך אותו ללא נגיש ל-Google.

בעיה נוספת שה-spiders של Google עלולים להיתקל בה בעת סריקה של התוכן שלנו היא לא להיות מסוגלים לעקוב אחר הקישורים הפנימיים שיש לנו באתר, ולכן לא לגשת לשאר ה-URLs. זה קורה כשאנחנו משתמשים באלמנטים javascript במקום "href" בקישורים האלו. הפרקטיקה הזו נפוצה מאוד, מאחר ששימוש ב-JS יש לו יתרונות רבים ברמת המשתמש, אבל אם לא משתמשים בו נכון, ומוסיפים לקישורים פנימיים, ייתכן ש-Google לא תוכל לעקוב אחריהם.

בעולם ה-SEO זה ידוע כ-"link obfuscation". נכון להיום, זה דיון פתוח האם Google מסוגלת לסרוק ולעבד דפים שנעשו ב-JS נכון.

קודי תגובת שרת

כדי להמשיך להבין את התהליך הזה היטב, אנחנו לא יכולים להתעלם ממושג שאנשי SEO צריכים להתמודד איתו יומיומית, קודי תגובת שרת.

קודם, ראינו את המחזור שבו Google מוצאת אותנו, אבל איך זה קורה? משתמש מבצע חיפוש (query) ב-Google. מנוע החיפוש פונה למסד הנתונים שלו ומציג את התוצאות הרלוונטיות ביותר (SERPs), בהתאם לסיווג שנעשה, לחיפוש הזה.

לאחר שהמשתמש רואה את התוצאות השונות (impressions), הוא לוחץ על אחת מהן, זו שלפי שיקול דעתו הכי מתאימה למה שהוא צריך. ברגע הזה, בקשת Google לשרת שבו האתר מתארח נכנסת לתמונה, כדי שהוא "ישרת" את התוכן.

כשזה קורה, תגובת השרת מופקת דרך הקוד המקביל. בואו נמנה את הרלוונטיים ביותר שאנו, כאנשי SEO, חייבים לקחת בחשבון:

  • 200: קוד התגובה הזה הוא זה שאומר ל-Google שהדף קיים, שיש לו תוכן ושאין בעיה להציג אותו. הוא הכי מבוקש על ידי אנשי SEO, כל עוד התוכן של הדף הזה עם קוד 200 הוא אופטימלי.

  • 30x: משפחת קודי הסטטוס 30x מתאימה להפניות מחדש. הבולטים ביותר הם 301 (קבועה), 302 ו-307 (זמניות). בעיקרון הם אומרים ל-Google "היי, ה-URL A שביקשת זה לא יותר זה, זה ה-URL B הזה". יש עוד, אבל הם לא הפוקוס של המושג שאנחנו מפתחים. חשוב לדעת ש, כאנשי SEO, המועדפים הם 301s, שמעבירים את כל הסמכות.

קריאה מומלצת: מדריך על הפניות מחדש 301

  • 40X: קודי שגיאה. הכי פחות רצויים על ידי אנשי SEO. הנפוץ ביותר הוא ה-404 המפורסם. כשהקוד הזה מופיע, אנחנו אומרים ל-Google בתגובה לבקשתה ל-URL שהוא כבר לא קיים ולכן הוא שגיאה.

  • 410: רצינו לבודד את הקוד הזה ממשפחת ה-40x בגלל הערך SEO שלו. כשאנחנו משתמשים בקוד הזה, בתגובה לבקשה משרת Google ל-URL, אנחנו אומרים לה שהוא "נעלם לתמיד". זה מעניין כי, בניגוד ל-404, Google מבינה שהוא לא יהיה שם יותר אף פעם ותפסיק לנסות לסרוק אותו, בעוד עם 404, היא תסרוק אותו שוב כי היא חושבת שאולי נרצה לתקן אותו.

  • 50x: סוג התגובה הזה קשור לשגיאות שרת. כשהמכונה שלנו נכשלת מסיבה כלשהי, ו-Google מנסה לבקש את התוכן של URL כלשהו ממנו, אם השרת נכשל, הוא מחזיר קוד סטטוס 505.

Crawl Budget

בנקודה הזו בפוסט, עדיין צריך לטפל במונח שהפך לפופולרי לפני כמה שנים בעולם ה-SEO, ידוע כ-crawl budget.

ה-crawl budget מתייחס לזמן שה-spiders של Google מבלים בסריקת אתר וכל ה-URLs שלו. הוא, כפי שאמרנו קודם, זמן סופי. מכאן החשיבות של אופטימיזציה של האתר שלנו, על מנת להקל על כך שהוא יראה את הדפים הרלוונטיים ביותר באתר שלנו בזמן הזה.

הזמן הזה ש-crawlers מבלים בעבור על האתר שלנו אינו ערך קבוע, הוא יגדל או יקטן בהתאם להיבטים כמו התדירות שבה אנחנו מעדכנים את התוכן, סמכות הדומיין שלנו (פופולריות) וכו'.

ככל שהאיכות של האתר שלנו גבוהה יותר, הסמכות גדולה יותר ויש יותר תוכן טרי, כך Google תחשיב אותנו יותר רלוונטיים ותקצה יותר תקציב לסריקה שלנו.

עם תוכניות crawling כמו Screaming Frog, אנחנו מבצעים סריקות אידיאליות מדומות של האתר שלנו, כלומר, כאילו ל-spiders יש את כל הזמן בעולם לעבור על כל אחד מה-URLs שלנו.

אבל זה לא איך שזה עובד כשאנחנו מדברים על Googlebot — אלא, בכל פעם ש-Google מבקרת באתר שלנו, היא תבקר ב-URLs מסוימים יותר מאחרים. למעשה, ייתכן שיש כאלו שהיא בכלל לא מבקרת בהם. ננתח את זה עם מה שידוע כ-logs של השרת, (רישומים של אילו URLs Google סרקה, באיזו תדירות עשתה זאת וכמה פעמים בפרק זמן נתון).

עד כאן, כל הניתוח לגבי הבנת מהו crawling והאלמנטים השונים שמהווים חלק ממערכת הסריקה של Google.

יש שאלות או הצעות? כתמיד... נשמח לשמוע מכם!

מאת: David Kaufmann

David Kaufmann

במהלך 10+ השנים האחרונות הייתי מרותק לחלוטין ל-SEO — ולמען האמת, לא הייתי רוצה את זה אחרת.

הקריירה שלי עלתה לרמה חדשה כשעבדתי כמומחה SEO בכיר ב-Chess.com — אחד מ-100 האתרים המבוקרים ביותר באינטרנט. עבודה בקנה מידה כזה לימדה אותי מה ששום קורס או תעודה לא יכלו ללמד.

מהניסיון הזה הקמתי את SEO Alive — סוכנות למותגים שרציניים לגבי צמיחה אורגנית. ומכיוון שלא מצאתי כלי שמטפל גם בעולם הקלאסי וגם בעידן ה-AI כראוי, בניתי את SEOcrawl. אם אתה מחפש שותף SEO מנוסה שאוהב את התחום — אשמח לשמוע ממך!

→ קרא את כל המאמרים של David
מאמרים נוספים: David Kaufmann

גלה תוכן נוסף של מחבר זה