Các giai đoạn và yếu tố của quá trình Crawling

Crawling, spiders, bots — đây là những thuật ngữ mà bất kỳ người làm SEO nào cũng đã quen xử lý hàng ngày, và chúng mang trọng lượng thiết yếu trong bất kỳ chiến lược xếp hạng nào, vì nếu giai đoạn này thất bại, phần còn lại cũng sẽ thất bại.
Hãy cùng xem chi tiết quá trình crawling web bao gồm những gì.
Crawl một trang web có nghĩa là gì?
Trước khi tiếp tục, hãy định nghĩa quá trình crawl một trang web, cho thấy tầm quan trọng mà nó nắm giữ trong bất kỳ nỗ lực nào để xuất hiện trong kết quả tìm kiếm của Google.
Crawl một trang web được hiểu là quá trình mà các spider hoặc crawler đi qua các trang khác nhau của một trang web, thu thập tất cả thông tin có thể truy cập được, để lưu trữ, xử lý và sau đó phân loại nó.
Đáng để làm nổi bật một vài thuật ngữ cơ bản trong định nghĩa mà chúng ta vừa nêu ra:
-
Hành trình: Hãy nghĩ đến một con nhện thực sự. Loài côn trùng thân thiện này phải đi qua nhiều trang nhất có thể để trích xuất nhiều thông tin nhất có thể. Để đi từ trang này sang trang khác, nó làm như vậy thông qua các liên kết nội bộ kết nối chúng. Do đó tầm quan trọng của việc có liên kết nội bộ chính xác cho phép các spider này "khám phá" — nếu không phải toàn bộ — thì ít nhất là các trang phù hợp nhất với chúng ta.
-
Khả năng truy cập: Thông tin phải có thể truy cập được đối với các spider này. Tức là, nếu bằng cách nào đó chúng ta đang giới hạn quyền truy cập của họ một cách cố ý hoặc do nhầm lẫn, chúng ta sẽ ngăn các spider có thể xử lý tất cả nội dung, và do đó hiểu và cuối cùng phân loại nó.
Việc chặn hoặc giới hạn nội dung trang này có thể xảy ra theo nhiều cách khác nhau, mà chúng tôi sẽ cố gắng giải thích thêm trong bài viết này.
Các crawler
Chúng ta đã nói về spider, còn được gọi là crawler hoặc bot. Chúng ta có thể định nghĩa chúng là các chương trình phân tích các tài liệu trên trang web của chúng ta, tức là chúng giống như "thủ thư" tìm kiếm, phân loại và sắp xếp. Chức năng chính của chúng do đó là xây dựng cơ sở dữ liệu. Có nhiều loại, tùy thuộc vào loại thông tin chúng thu thập. Hãy đề cập đến một số loại phổ biến nhất.
Googlebot: Spider chịu trách nhiệm crawl nội dung của chúng ta và phân loại nó trong kết quả tự nhiên (SERPs). Đối với người làm SEO, đó là quan trọng nhất.
Trong loại này, chúng ta có thể phân biệt một số loại phụ:
-
Googlebot (smartphones): Phiên bản di động
-
Googlebot (phiên bản desktop): Phiên bản máy tính để bàn
-
Googlebot Images: Chịu trách nhiệm crawl hình ảnh
-
Googlebot News: Cho tin tức
-
Googlebot Video: Bây giờ đến lượt video
Ví dụ về một bot được xác định trong nhật ký của chúng ta:
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Chúng không phải là loại duy nhất — có những loại khác như Adsbot, Adsense, v.v. Đã đề cập đến những loại liên quan cho lĩnh vực SEO, việc phân biệt chúng với phần còn lại không phải là trọng tâm của bài viết này, nhưng bạn có thể tìm thêm thông tin tại liên kết chính thức của Google sau đây.
Các giai đoạn của quy trình crawling và lập chỉ mục của Google
Bây giờ chúng ta đã biết crawling là gì, ai chịu trách nhiệm về chức năng đó, và chúng ta đã thảo luận về quá trình, hãy xem nó chi tiết hơn.
Giai đoạn đầu tiên: crawling và phân loại
Quá trình mà các trang của chúng ta xuất hiện trong kết quả của Google trải qua một giai đoạn đầu tiên của crawling, như chúng ta đã thấy, được thực hiện bởi các spider (crawler), để chúng đọc, diễn giải, lập chỉ mục và phân loại nội dung của chúng ta.
Chính từ mới này mà chúng ta muốn phân tích chi tiết, phân loại. Google phải hiểu hoàn hảo nội dung của chúng ta, đơn giản và nhanh chóng, vì như chúng ta sẽ thấy sau, Google dành một khoảng thời gian cụ thể trên trang web của chúng ta, và trong thời gian đó nó phải "hiểu" nội dung của chúng ta và liên kết nó với các ý định tìm kiếm khác nhau của người dùng.
Đó là lý do tại sao trong SEO hiện đại từ "Search Intent" được nghe rất thường xuyên, vì Google sẽ tính đến nó trong việc phân loại đó và nó sẽ xác định vị trí mà các trang của chúng ta chiếm trong xếp hạng SERP.
Đó là lý do tại sao quá trình crawling phải sạch, đơn giản, nhanh chóng, không có trở ngại, v.v., để mọi thứ được rõ ràng và chúng ta được phân loại chính xác.
Giai đoạn hai: Lập chỉ mục
Chúng ta không thể quên giai đoạn lập chỉ mục, đứng trước phân loại và cũng đóng vai trò cơ bản, vì đó sẽ là bước nơi Google thêm nội dung của chúng ta vào cơ sở dữ liệu của nó, tức là, nó lập chỉ mục nó.

Chặn các robot của Google
Chúng tôi đã đề cập trước đó rằng có những cách mà chúng ta có thể đang giới hạn quyền truy cập của các spider này vào nội dung của chúng ta. Vì điều này, có một yếu tố có trọng lượng quan trọng trong SEO được gọi là robots.txt.
Tệp robots.txt là một tệp văn bản mà chúng ta tải lên máy chủ của mình, trong đó chúng ta đưa ra các hướng dẫn chính xác cho các spider khác nhau để cho phép hoặc chặn chúng crawl các URL trên trang web của chúng ta. Việc chặn này có thể được áp dụng:
-
cho toàn bộ tên miền
-
cho một đường dẫn cụ thể
-
cho một URL cụ thể
-
hoặc cho một tập hợp các URL khớp với một mẫu nhất định.
Hãy xem một cấu hình ví dụ của tệp này:
User-agent: *
Disallow: /wp-admin/
Allow: wp-admin/admin-ajax.php
Sitemap: /sitemap.xml
Như chúng ta có thể thấy, nó có một dòng đầu tiên nơi chúng ta chỉ định user-agent (tên của crawler mà chúng ta muốn chặn hoặc cho phép, từ những crawler chúng ta đã thấy trước đó), tiếp theo là các lệnh "disallow" để cấm vào hoặc "allow" để cho phép vào.
Trong trường hợp cụ thể chúng ta thấy, bằng cách chỉ định bằng dấu * chúng ta đang nói "tất cả các crawler", không có ngoại lệ. Chúng ta đang cấm chúng vào đường dẫn /wp-admin/, nhưng trong đường dẫn đó chúng ta muốn cho phép chúng vào /admin-ajax.php.
Một cấu hình không chính xác của tệp này có thể khiến chúng ta đang chặn các phần quan trọng của nội dung. Đó là một sai lầm phổ biến khi có toàn bộ trang web bị chặn trong khi nó đang được phát triển, và sau đó quên loại bỏ chặn đó sau khi đưa nó vào sản xuất, làm cho nó không thể truy cập được đối với Google.
Một vấn đề khác mà các spider của Google có thể gặp phải khi crawl nội dung của chúng ta là không thể theo các liên kết nội bộ mà chúng ta có trên trang web của mình, và do đó không truy cập được phần còn lại của các URL. Điều này xảy ra khi chúng ta sử dụng các phần tử javascript thay vì "href" trong các liên kết đó. Thực hành này rất phổ biến, vì sử dụng JS có nhiều lợi thế ở cấp độ người dùng, nhưng nếu không được sử dụng đúng cách, và được thêm vào các liên kết nội bộ, Google có thể không theo được chúng.
Trong thế giới SEO, điều này được gọi là "link obfuscation". Tính đến hôm nay, đó là một cuộc tranh luận mở liệu Google có khả năng crawl và render các trang được làm bằng JS một cách chính xác hay không.
Mã phản hồi máy chủ
Để tiếp tục hiểu rõ quá trình này, chúng ta không thể bỏ qua một khái niệm mà người làm SEO phải đối phó hàng ngày, mã phản hồi máy chủ.
Trước đây, chúng ta đã thấy chu kỳ mà Google tìm thấy chúng ta, nhưng điều này xảy ra như thế nào? Một người dùng thực hiện tìm kiếm (truy vấn) trên Google. Công cụ tìm kiếm đi đến cơ sở dữ liệu của nó và hiển thị các kết quả phù hợp nhất (SERPs), theo phân loại đã được thực hiện, cho tìm kiếm đó.
Khi người dùng nhìn thấy các kết quả khác nhau (impressions), họ nhấp vào một trong số chúng, cái mà theo phán đoán của họ phù hợp nhất với những gì họ cần. Tại thời điểm đó, yêu cầu của Google đến máy chủ nơi trang web được lưu trữ phát huy tác dụng, để nó "phục vụ" nội dung.
Khi điều này xảy ra, phản hồi của máy chủ được tạo ra thông qua mã tương ứng. Hãy đặt tên cho những mã liên quan nhất mà, với tư cách là người làm SEO, chúng ta phải tính đến:
-
200: Mã phản hồi này là mã cho Google biết rằng trang tồn tại, rằng nó có nội dung và không có vấn đề gì khi hiển thị nó. Đó là mã được người làm SEO mong muốn nhất, miễn là nội dung của trang có mã 200 đó là tối ưu.
-
30x: Họ mã trạng thái 30x tương ứng với chuyển hướng. Những mã đáng chú ý nhất là 301 (vĩnh viễn), 302 và 307 (tạm thời). Về cơ bản, chúng nói với Google "này, URL A mà bạn đã yêu cầu không còn là cái này nữa, nó là URL B khác này". Có nhiều hơn nữa, nhưng chúng không phải là trọng tâm của khái niệm chúng ta đang phát triển. Quan trọng cần biết rằng, với tư cách là người làm SEO, mã ưa thích là 301, mã chuyển tất cả uy tín.
Đọc thêm: Hướng dẫn về chuyển hướng 301
-
40X: Mã lỗi. Ít được người làm SEO mong muốn nhất. Phổ biến nhất là 404 nổi tiếng. Khi mã này xuất hiện, chúng ta đang nói với Google để đáp lại yêu cầu của nó về một URL rằng nó không còn tồn tại nữa và do đó là một lỗi.
-
410: Chúng tôi muốn tách riêng cái này khỏi họ 40x vì giá trị SEO của nó. Khi chúng ta sử dụng mã này, để đáp lại yêu cầu từ máy chủ của Google cho một URL, chúng ta đang nói với nó rằng nó "đã đi mất hẳn". Nó thú vị bởi vì, không giống như 404, Google hiểu rằng nó sẽ không bao giờ ở đó nữa và sẽ ngừng cố gắng crawl nó, trong khi với 404, nó sẽ crawl lại nghĩ rằng chúng ta có thể muốn sửa nó.
-
50x: Loại phản hồi này được liên kết với lỗi máy chủ. Khi máy của chúng ta thất bại vì một lý do nào đó, và Google cố gắng yêu cầu nội dung của một URL nào đó từ chúng ta, nếu máy chủ thất bại, nó trả về mã trạng thái 505.
Crawl Budget
Tại thời điểm này trong bài viết, chúng ta vẫn cần đề cập đến một thuật ngữ trở nên phổ biến vài năm trước trong thế giới SEO, được gọi là crawl budget.
Crawl budget đề cập đến thời gian mà các spider của Google dành để crawl một trang web và tất cả các URL của nó. Như chúng ta đã nói trước đó, đó là một thời gian hữu hạn. Do đó tầm quan trọng của việc tối ưu hóa trang web của chúng ta, để giúp nó dễ dàng hơn để xem các trang phù hợp nhất của trang web của chúng ta trong thời gian đó.
Thời gian này mà các crawler dành để đi qua trang web của chúng ta không phải là một giá trị cố định, nó sẽ tăng hoặc giảm tùy thuộc vào các khía cạnh như tần suất chúng ta cập nhật nội dung, uy tín của tên miền của chúng ta (sự phổ biến), v.v.
Chất lượng của trang web càng cao, uy tín càng lớn và càng nhiều nội dung mới, Google sẽ càng coi chúng ta là phù hợp và sẽ phân bổ nhiều ngân sách hơn cho việc crawl chúng ta.
Với các chương trình crawling như Screaming Frog, chúng ta thực hiện các crawl mô phỏng lý tưởng của trang web, tức là, như thể các spider có tất cả thời gian trên thế giới để đi qua từng URL của chúng ta.
Nhưng đây không phải là cách nó hoạt động khi chúng ta nói về Googlebot — thay vào đó, mỗi khi Google truy cập trang web của chúng ta, nó sẽ truy cập một số URL nhiều hơn các URL khác. Trên thực tế, có thể có một số URL nó thậm chí không truy cập. Chúng ta sẽ phân tích điều này với cái được gọi là nhật ký máy chủ, (ghi lại các URL nào Google đã crawl, tần suất nó đã làm như vậy và bao nhiêu lần trong một khoảng thời gian nhất định).
Đến đây, tất cả phân tích về việc hiểu crawling là gì và các yếu tố khác nhau là một phần của hệ thống crawling của Google.
Có câu hỏi hay đề xuất nào không? Như mọi khi... chúng tôi rất muốn nghe từ bạn!
Tác giả: David Kaufmann

Tôi đã dành hơn 10 năm qua hoàn toàn đắm chìm trong SEO — và thành thật mà nói, tôi không muốn điều gì khác thay thế.
Sự nghiệp của tôi bước sang một tầm cao mới khi tôi làm việc với vai trò chuyên gia SEO cấp cao tại Chess.com — một trong 100 website được truy cập nhiều nhất trên toàn bộ internet. Vận hành ở quy mô đó, trên hàng triệu trang, hàng chục ngôn ngữ và trong một trong những SERPs cạnh tranh khốc liệt nhất, đã dạy tôi những điều mà không khóa học hay chứng chỉ nào có thể mang lại. Trải nghiệm đó đã thay đổi cách tôi nhìn nhận về SEO thực sự xuất sắc — và trở thành nền tảng cho mọi thứ tôi xây dựng từ đó đến nay.
Từ kinh nghiệm ấy, tôi đã sáng lập SEO Alive — một agency dành cho những thương hiệu thực sự nghiêm túc với tăng trưởng organic. Chúng tôi không ở đây để bán dashboards và báo cáo hàng tháng. Chúng tôi ở đây để xây dựng những chiến lược thực sự tạo ra chuyển biến, kết hợp tinh hoa của SEO truyền thống với thế giới mới đầy thú vị của Generative Engine Optimization (GEO) — đảm bảo thương hiệu của bạn không chỉ xuất hiện trong các liên kết xanh của Google, mà còn hiện diện ngay trong những câu trả lời do AI tạo ra mà ChatGPT, Perplexity và Google AI Overviews đang cung cấp cho hàng triệu người mỗi ngày.
Và bởi vì tôi không thể tìm được một công cụ xử lý tốt cả hai thế giới đó, tôi đã tự xây dựng một công cụ — SEOcrawl, một nền tảng SEO intelligence cấp doanh nghiệp tích hợp rankings, kiểm tra kỹ thuật, giám sát backlinks, tình trạng crawl và theo dõi hiển thị thương hiệu trên AI, tất cả trong một nơi. Đó chính là nền tảng mà tôi luôn ước có.
Khám phá thêm nội dung của tác giả này

