مراحل عملية الزحف ومكوناتها

Crawling وspider وbot مصطلحات يتعامل معها أي متخصص SEO يوميًا، وتشكّل ركيزة أساسية في كل استراتيجية ترتيب. فإذا فشلت هذه المرحلة، انهارت معها بقية المراحل أيضًا.
دعنا نلقي نظرة تفصيلية على ما تتكوّن منه عملية crawl الويب.
ماذا يعني crawl لموقع ويب؟
قبل الدخول في الموضوع، سنُعرّف عملية crawl الموقع ونوضح أهميتها في كل محاولة للظهور في نتائج Google.
يمكن فهم crawl موقع ما بأنه عملية يقوم فيها الـ spider أو الـ crawler بالتجوّل في صفحات الموقع، حيث يجمع كل المعلومات المتاحة، ثم يخزنها ويعالجها ويصنّفها.
تجدر الإشارة إلى بعض المصطلحات الجوهرية في التعريف الذي سُقناه للتو.
-
التجوّل (Journey): تخيّل عنكبوتًا حقيقيًا. يحتاج هذا الكائن الودود إلى المرور بأكبر عدد ممكن من الصفحات لاستخراج أكبر قدر ممكن من المعلومات. ينتقل من صفحة إلى أخرى عبر الروابط الداخلية التي تربط بينها. ولهذا من المهم وجود هيكل روابط داخلية صحيح يتيح للـ spider "اكتشاف" أهم الصفحات بالنسبة لنا، إن لم يكن كل صفحات الموقع.
-
إمكانية الوصول (Accessibility): يجب أن تكون المعلومات متاحة لهذا الـ spider. أي إذا كنا نقيّد وصوله عمدًا أو خطأً، فلن يستطيع الـ spider معالجة كل المحتوى، وبالتالي لن يتمكن من فهمه أو تصنيفه.
يمكن أن يحدث هذا الحجب أو التقييد لمحتوى الصفحة بعدة طرق سنشرحها بمزيد من التفصيل لاحقًا.
الـ crawler
تحدثنا عن الـ spider، أي الـ crawler أو bot. يمكن تعريفها كبرامج تحلّل وثائق موقعنا، أي أشبه بـ "أمناء مكتبة" يبحثون ويصنّفون وينظّمون. وظيفتها الرئيسية إذًا هي بناء قاعدة بيانات. هناك أنواع عديدة تبعًا لنوع المعلومات التي تجمعها. وسنذكر بعض الأنواع الأكثر شيوعًا.
Googlebot: هو الـ spider المسؤول عن crawl محتوانا وتصنيفه ضمن نتائج البحث الطبيعية (SERP). إنه أهم bot بالنسبة لمتخصص SEO.
داخل هذا الإطار يمكن تمييز عدة أنواع فرعية.
-
Googlebot (smartphones): نسخة الهاتف المحمول
-
Googlebot (desktop version): نسخة سطح المكتب
-
Googlebot Images: المسؤول عن crawl الصور
-
Googlebot News: للأخبار
-
Googlebot Video: للفيديوهات
مثال على bot ظاهر في السجلات:
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
ليست هذه القائمة شاملة. هناك bots أخرى مثل Adsbot وAdsense. ذكرنا الأكثر صلة بمجال SEO، وتفصيل البقية ليس محور هذا المقال. لمزيد من المعلومات راجع الرابط الرسمي من Google.
مراحل عملية crawl والفهرسة لدى Google
بعد أن تحدّثنا عن ماهية crawling ومن يضطلع بهذه الوظيفة وعن العملية، فلنلقِ نظرة أكثر تحديدًا.
المرحلة الأولى: crawl وتصنيف
تمرّ العملية حتى ظهور صفحتنا في نتائج Google عبر مرحلة crawl الأولى التي يقوم بها الـ spider (الـ crawler) كما رأينا، حيث يقرأ محتوانا ويفسره ويفهرسه ويصنّفه.
الكلمة التي أرغب في تحليلها بدقة هي هذه الكلمة الجديدة: التصنيف. على Google أن تفهم محتوانا فهمًا تامًا وبشكل بسيط وسريع. وكما سنرى لاحقًا، تخصص Google زمنًا محددًا لموقعنا، وضمن هذا الزمن يجب عليها "فهم" المحتوى وربطه بمختلف نوايا بحث المستخدم.
ولهذا تتردد كلمة "نية البحث (Search Intent)" كثيرًا في SEO الحديث. فـ Google تأخذها بعين الاعتبار في عملية التصنيف، وهي ما يحدد الموضع الذي تشغله صفحتنا في ترتيب الـ SERP.
لذا يجب أن تكون عملية crawl نظيفة وبسيطة وسريعة وخالية من العقبات. كل شيء يجب أن يكون واضحًا حتى نُصنَّف بشكل صحيح.
المرحلة الثانية: الفهرسة
لا يمكن أن ننسى مرحلة الفهرسة التي تسبق التصنيف وتؤدي دورًا أساسيًا بالقدر نفسه. فهي المرحلة التي تضيف فيها Google محتوانا إلى قاعدة بياناتها، أي تفهرسه.

حجب bots Google
ذكرنا سابقًا أن ثمة طرقًا لتقييد وصول الـ spider إلى المحتوى. ولهذا الغرض يوجد عنصر بالغ الأهمية في SEO وهو ملف robots.txt.
ملف robots.txt عبارة عن ملف نصي يُرفع على الخادم، ويُعطي توجيهات دقيقة لمختلف الـ spiders بالسماح أو الحجب لـ crawl عناوين URL في الموقع. يمكن تطبيق هذا الحجب على:
-
النطاق بأكمله
-
مسار محدد
-
URL محدد
-
أو مجموعة URLs تطابق نمطًا معينًا
دعنا نرى مثالًا لإعداد هذا الملف.
User-agent: *
Disallow: /wp-admin/
Allow: wp-admin/admin-ajax.php
Sitemap: /sitemap.xml
كما ترى، نحدد في السطر الأول user-agent (اسم الـ crawler الذي نريد حجبه أو السماح له، وهو واحد من تلك التي رأيناها)، ثم يأتي توجيه "disallow" الذي يمنع الدخول، أو "allow" الذي يسمح به.
في هذه الحالة بالذات، نستخدم * للإشارة إلى "كل الـ crawlers بلا استثناء". ونحجب الدخول إلى مسار /wp-admin/، مع السماح بالدخول إلى /admin-ajax.php الموجود داخل ذلك المسار.
قد يؤدي الإعداد الخاطئ لهذا الملف إلى حجب جزء مهم من المحتوى. ومن الأخطاء الشائعة حجب الموقع بالكامل أثناء التطوير ثم نسيان رفع الحجب بعد الانتقال إلى بيئة الإنتاج، فلا تتمكن Google من الوصول إلى الموقع.
مشكلة أخرى قد يواجهها spider Google عند crawl محتوانا هي عدم القدرة على تتبع الروابط الداخلية داخل الموقع، وبالتالي عدم الوصول إلى بقية الـ URLs. يحدث ذلك عند استخدامنا عناصر javascript بدلًا من "href" في تلك الروابط. هذه الممارسة شائعة جدًا لأن استخدام JS من جانب المستخدم له مزايا كثيرة، لكنها إذا أُضيفت إلى الروابط الداخلية دون استخدامها بشكل صحيح، فقد لا تستطيع Google تتبعها.
في عالم SEO يُسمى ذلك "link obfuscation (تشويش الروابط)". وحتى اليوم لا يزال النقاش قائمًا حول قدرة Google على crawl وrender صفحات JS بشكل صحيح.
رموز استجابة الخادم
لفهم هذه العملية جيدًا، لا يمكن إغفال رموز استجابة الخادم، وهي مفهوم يجب أن يتعامل معه متخصصو SEO يوميًا.
تناولنا سابقًا دورة عثور Google علينا، فكيف يحدث ذلك؟ يقوم المستخدم بإجراء بحث (query) في Google. يعرض محرك البحث من قاعدة بياناته أكثر النتائج صلة المصنّفة لذلك البحث (SERP).
عند رؤية النتائج المختلفة (المشاهدات)، ينقر المستخدم على النتيجة التي يراها الأنسب لاحتياجه. في تلك اللحظة يحدث طلب من Google إلى الخادم الذي يستضيف الموقع، طالبًا منه "تقديم" المحتوى.
عندئذ تتولّد استجابة الخادم عبر الرمز المقابل. لنرَ أهم الرموز التي يجب على متخصص SEO أخذها في الاعتبار.
-
200: رمز الاستجابة الذي يُعلم Google بأن الصفحة موجودة، ولها محتوى، وأنها تُعرض دون مشكلات. هذا هو الرمز الذي يرغب فيه أي متخصص SEO، بافتراض أن محتوى تلك الصفحة 200 جيد.
-
30x: عائلة الحالات 30x تتعلق بعمليات إعادة التوجيه. أبرزها 301 (دائمة)، و302 و307 (مؤقتة). فبشكل أساسي تخبر Google: "اسمعي، هذا الـ URL A الذي تطلبينه لم يعد ذلك، بل هو هذا الـ URL B". هناك المزيد، لكنها ليست محور المفاهيم التي نتناولها الآن. تجدر الإشارة إلى أن الرمز 301، الذي ينقل كامل الـ authority، هو الرمز المفضل لدى متخصص SEO.
قراءة موصى بها: دليل إعادة التوجيه 301
-
40X: رموز الأخطاء. وهي الأقل رغبة لدى متخصص SEO. أكثرها شيوعًا هو 404 الشهير. عند ظهور هذا الرمز، نُخبر Google عند طلبها لـ URL أن هذا الـ URL لم يعد موجودًا وبالتالي يُعد خطأ.
-
410: رمز ضمن عائلة 40x أردنا إفراده لقيمته في SEO. باستخدام هذا الرمز، عندما تطلب خوادم Google عنوان URL، نُخبرها بأنه "اختفى إلى الأبد". الجانب المثير للاهتمام أنه على عكس 404، تفهم Google أنه لن يكون موجودًا مجددًا فلا تحاول crawl له، بينما في حالة 404 تظن أننا قد نرغب في إصلاحه فتعود إلى crawl له.
-
50x: ترتبط هذه الاستجابة بأخطاء الخادم. عندما يفشل خادمنا لسبب ما، إذا طلبت Google محتوى URL ما وفشل الخادم، يرجع رمز الحالة 505.
Crawl budget
ثمة مصطلح آخر يجب أن نتناوله الآن وقد اكتسب شهرة في عالم SEO منذ سنوات قليلة، وهو crawl budget.
Crawl budget هو الزمن الذي يقضيه spider Google في crawl الموقع وكل ما فيه من URLs. كما قلنا، إنه زمن محدود. لذلك من المهم تحسين الموقع كي تظهر صفحاتنا الأكثر صلة في هذا الإطار الزمني.
هذا الزمن الذي يقضيه الـ crawler في تصفّح الموقع ليس قيمة ثابتة، بل يزيد أو ينقص بحسب عوامل مثل وتيرة تحديث المحتوى وauthority النطاق (الشهرة).
كلما كانت جودة الموقع أعلى، وauthority أكبر، والمحتوى الجديد أكثر، رأت Google أننا أكثر صلة وخصصت ميزانية crawl أكبر.
تتيح برامج crawl مثل Screaming Frog محاكاة crawl موقعنا بشكل مثالي، أي كأن الـ spider يستطيع الوصول إلى كل الـ URLs خلال زمن كافٍ.
لكن ذلك لا ينطبق على Googlebot. بل عند زيارة Google للموقع، تزور بعض الـ URLs أكثر من غيرها. بل قد لا تزور بعضها على الإطلاق. ويُحلَّل ذلك من خلال سجلات الخادم (سجل لما crawl Google من URLs، وكم مرة، وعدد المرات خلال فترة معينة).
إلى هنا ينتهي تحليلنا لفهم ما هو crawling والعناصر المختلفة التي يتكوّن منها نظام crawl Google.
هل لديك أسئلة أو اقتراحات؟ كالعادة… يسعدنا سماع رأيك!
بقلم: David Kaufmann

قضيتُ السنوات العشر الأخيرة منشغلًا تمامًا بـ SEO — وبصراحة، لم أكن لأبدّل ذلك بأي شيء آخر.
تطوّرت مسيرتي إلى مستوى جديد عندما عملت أخصّائيَّ SEO أوّل في Chess.com — أحد أكثر 100 موقع زيارةً على الإنترنت بأكمله. العمل على هذا النطاق علّمني ما لم تعلّمه لي أي دورة أو شهادة.
من هذه التجربة، أسّستُ SEO Alive — وكالة للعلامات التجارية الجادّة بشأن النموّ العضوي. وبما أنّي لم أجد أداةً تُتقن العالَمَين الكلاسيكي وعصر الذكاء الاصطناعي، بنيتُ SEOcrawl. إن كنت تبحث عن شريك SEO خبير يعشق هذا المجال — يسعدني التواصل معك!
اكتشف المزيد من محتوى هذا الكاتب

