Báo cáo Crawl Stats mới trong Google Search Console

Vào cuối tháng 11 năm 2020, Google đã ra mắt lại báo cáo thống kê thu thập dữ liệu được làm mới hoàn toàn, và có vẻ như cả thế giới SEO kỹ thuật đã rúng động. Báo cáo này hiện được gọi là Crawl Stats và nhờ nó, bạn sẽ có thể biết các bot khác nhau của Google ghé thăm trang web của bạn như thế nào, từ đó rút ra những thông tin chi tiết quý giá từ dữ liệu hữu ích này.
Google Crawl Stats là gì?
Đây là một bản đại tu kỹ lưỡng của mục "crawl stats" từng có trong Webmaster Tools cũ. Với nó, chúng ta có thể truy cập nhiều dữ liệu và thống kê khác nhau về lịch sử thu thập dữ liệu của Googlebot trên website. Trong phiên bản mới, nó đã trở thành một công cụ để làm việc, ở một mức độ nào đó, với log và không còn chỉ là một biểu đồ hiển thị.
Bạn có thể truy cập báo cáo này từ tài khoản Search Console, tại Settings > Crawl stats.
Có gì mới trong báo cáo được làm mới
Báo cáo mang đến nhiều tính năng mới:
- Tổng số yêu cầu của bot được nhóm lại theo mã phản hồi, loại tệp được thu thập, mục đích thu thập và loại Googlebot. Một số trong đó sẽ rất hữu ích cho bạn.
- Thông tin chi tiết về trạng thái máy chủ (host status).
- Ví dụ URL để cho thấy các yêu cầu khác nhau diễn ra ở đâu trên trang.
- Bản tóm tắt đầy đủ về các property có nhiều host và hỗ trợ cho domain property.
Các phần của công cụ phân tích log của Google
Chúng tôi mời bạn đi qua hành trình các phần khác nhau của Crawl Stats. Bạn có muốn cùng đi không?
Biểu đồ Crawl Stats
Biểu đồ mới này, đã được điều chỉnh phù hợp với thiết kế hiện tại của Search Console, hiển thị thống kê thu thập dữ liệu theo thời gian. Trong đó bạn có thể xem ba chỉ số:
- Tổng số yêu cầu thu thập trong một khoảng thời gian, hoặc theo ngày nếu bạn di chuột qua biểu đồ.
- Tổng kích thước dữ liệu được tải xuống tính bằng byte.
- Thời gian phản hồi trung bình tính bằng mili giây.

Đến đây thì chưa có gì quá mới, chỉ là một sự thay đổi giao diện. Nhưng hãy xem các phần tiếp theo...
Việc thu thập dữ liệu các host khác nhau trong domain property của bạn
Domain property của bạn trong Search Console có thể bao gồm nhiều host, chẳng hạn các phiên bản có và không có www, hoặc bất kỳ subdomain nào bạn có. Biểu đồ này cho phép bạn xem Googlebot thu thập dữ liệu chúng như thế nào và bạn có thể nhấp vào từng cái để có thông tin được lọc riêng.

Trong phần này chúng ta có 3 chỉ báo mà chỉ cần liếc qua đã nói lên rất nhiều điều:
Các nhóm đặc điểm thu thập mới
Giờ đây chúng ta có thể phân loại các lượt truy cập của Googlebot theo nhiều chiều:
- Theo phản hồi: Cách này chúng ta sẽ biết các trang chuyển hướng và lỗi mà Googlebot đã đi qua trong khoảng thời gian được chỉ định.
- Theo loại tệp: Googlebot có thể dành nhiều thời gian thu thập cho các loại tệp mà chúng ta không quan tâm. Nhờ nhóm này, chúng ta sẽ biết được điều đó.
- Theo mục đích: Ở đây chúng ta có thể phân biệt giữa tỷ lệ thu thập dành cho các trang đã biết và việc khám phá các URL mới.
- Theo loại bot Google: Chúng ta biết Google có nhiều loại bot khác nhau và mỗi loại có chức năng riêng. Trong báo cáo này chúng ta sẽ thấy tần suất từng loại ghé thăm chúng ta.
Bạn có thể đi sâu vào từng nhóm và xem một số ví dụ URL. Tuy nhiên, đó chỉ là ví dụ. Không phải tất cả URL bạn thấy trong báo cáo đều có sẵn cho bạn. Bạn có thể phát hiện các pattern, nhưng không thể tải xuống thông tin đầy đủ và làm việc từ đó.

Kết luận về công cụ
Đây là một cải tiến giúp ích rất nhiều trong việc phát hiện các vấn đề thu thập dữ liệu quan trọng trên một website một cách đơn giản và miễn phí. Chúng tôi không nghĩ nó sẽ thay thế các công cụ phân tích log như Kibana hoặc Screaming Frog Log File Analyzer, vì những gì Google cung cấp cho chúng ta là một mẫu dữ liệu, chứ không phải dữ liệu chính xác. Đó là lý do, đối với các dự án có yêu cầu đặc biệt, nó không thể là một sự thay thế. Tóm lại, chúng ta sẽ giải quyết được nhiều vấn đề, nhưng không thể phân tích đầy đủ việc thu thập dữ liệu mà Google thực hiện trên website. Hãy nhớ đây là một tính năng vừa được ra mắt và hiện tại, chúng ta chưa biết nó sẽ phát triển như thế nào.
Tác giả: David Kaufmann

Tôi đã dành hơn 10 năm qua hoàn toàn đắm chìm trong SEO — và thành thật mà nói, tôi không muốn điều gì khác thay thế.
Sự nghiệp của tôi bước sang một tầm cao mới khi tôi làm việc với vai trò chuyên gia SEO cấp cao tại Chess.com — một trong 100 website được truy cập nhiều nhất trên toàn bộ internet. Vận hành ở quy mô đó, trên hàng triệu trang, hàng chục ngôn ngữ và trong một trong những SERPs cạnh tranh khốc liệt nhất, đã dạy tôi những điều mà không khóa học hay chứng chỉ nào có thể mang lại. Trải nghiệm đó đã thay đổi cách tôi nhìn nhận về SEO thực sự xuất sắc — và trở thành nền tảng cho mọi thứ tôi xây dựng từ đó đến nay.
Từ kinh nghiệm ấy, tôi đã sáng lập SEO Alive — một agency dành cho những thương hiệu thực sự nghiêm túc với tăng trưởng organic. Chúng tôi không ở đây để bán dashboards và báo cáo hàng tháng. Chúng tôi ở đây để xây dựng những chiến lược thực sự tạo ra chuyển biến, kết hợp tinh hoa của SEO truyền thống với thế giới mới đầy thú vị của Generative Engine Optimization (GEO) — đảm bảo thương hiệu của bạn không chỉ xuất hiện trong các liên kết xanh của Google, mà còn hiện diện ngay trong những câu trả lời do AI tạo ra mà ChatGPT, Perplexity và Google AI Overviews đang cung cấp cho hàng triệu người mỗi ngày.
Và bởi vì tôi không thể tìm được một công cụ xử lý tốt cả hai thế giới đó, tôi đã tự xây dựng một công cụ — SEOcrawl, một nền tảng SEO intelligence cấp doanh nghiệp tích hợp rankings, kiểm tra kỹ thuật, giám sát backlinks, tình trạng crawl và theo dõi hiển thị thương hiệu trên AI, tất cả trong một nơi. Đó chính là nền tảng mà tôi luôn ước có.
Khám phá thêm nội dung của tác giả này

