robots.txt: Hướng dẫn cấu hình đầy đủ

robots.txt: Hướng dẫn cấu hình đầy đủ
David Kaufmann
Hướng dẫn SEO
8 min read

Bạn đã chán nghe về robots.txt mà chẳng hiểu mọi người đang nói gì? Đừng lo, hôm nay chúng tôi sẽ giải đáp tất tần tật cho bạn. Trong bài viết này, chúng tôi sẽ cố gắng giải thích robots.txt là gì, cách cấu hình (đặc biệt là trên WordPress) và nó có thể tác động thế nào đến SEO của dự án.

Vào việc thôi nào!

robots.txt là gì và để làm gì?

robots.txt đơn giản là một tệp được đặt ở thư mục gốc của website cho phép bạn ngăn một số bot nhất định (như bot của Google hay Bing) truy cập vào website hoặc một phần website của bạn.

LƯU Ý: bạn cần biết đây là một giao thức và theo nguyên tắc chung, mọi bot "tử tế" đều tuân thủ nó (GoogleBot, BingBot, Semrush, ...) nhưng bất kỳ bot nào có ý đồ xấu đều có thể bỏ qua nó, ví dụ như Screaming Frog khi tích vào tùy chọn này:

bỏ qua robots.txt trong screaming frog
bỏ qua robots.txt trong screaming frog

Vì sao tệp robots.txt lại quan trọng với SEO?

Như đã đề cập ở trên, mọi bot tử tế (như GoogleBot) đều tuân thủ giao thức này, vậy nên điều chúng ta có thể làm là dùng tệp này để dẫn đường cho Google đi qua website của mình.

Hả? Ý là sao? Dẫn đường cho Google bằng robots.txt á?

Đúng vậy, đừng lo, chúng tôi sẽ giải thích bằng một ví dụ để bạn dễ hiểu hơn:

Hãy tưởng tượng trên website của bạn có một khu vực riêng tư mà chỉ người dùng đã đăng ký mới truy cập được, và như chúng ta đều biết, Google không thể truy cập bất kỳ trang nào yêu cầu đăng nhập (cho đến hiện tại...).

Vậy thì, chẳng phải sẽ rất hợp lý nếu Google không phí phạm crawl budget của chúng ta để thu thập dữ liệu những trang chẳng có giá trị gì với nó hay sao?

Chính xác! Một trong những công dụng quan trọng nhất của robots.txt là chặn các đường dẫn ít có giá trị với Google và nhờ đó buộc nó tập trung vào những trang quan trọng của website. Vì lý do đó, robots.txt nên là một trong những trụ cột cần ghi nhớ trong chiến lược SEO của bạn.

Đây chỉ là một ví dụ trong hàng ngàn điều bạn có thể làm với tệp này. Các ví dụ khác bao gồm khai báo sitemap, giảm tần suất thu thập dữ liệu, chặn việc thu thập tài nguyên, ...

Cách tạo tệp robots.txt

Được rồi... bắt tay vào làm thôi!

Việc tạo tệp này thực sự rất đơn giản, bạn chỉ cần mở trình soạn thảo văn bản (Notepad trên Windows hoặc TextEdit trên Mac) hoặc dùng một công cụ online và sau khi soạn xong robots.txt, hãy xuất nó dưới dạng tệp txt.

Sau khi đã có tệp, bạn chỉ cần đặt tên là "robots.txt" và tải lên thư mục gốc của website thông qua bảng điều khiển server hoặc qua FTP.

Để kiểm tra xem tệp đã được tải lên đúng cách hay chưa, bạn chỉ cần thêm "/robots.txt" vào sau tên miền, ví dụ https://seocrawl.com/robots.txt

LƯU Ý: Cẩn thận với cache nhé, tốt hơn là xem ở chế độ ẩn danh ;)

Nếu tôi dùng WordPress thì sao?

Nếu bạn dùng WordPress thì còn đơn giản hơn vì các plugin SEO tốt nhất như Rank Math hoặc Yoast đều có sẵn tính năng tích hợp để chỉnh sửa robots.txt trực tiếp.

Với Rank Math, bạn sẽ tìm thấy nó ở Rank Math > General Settings > Edit robots.txt

Robots TXT trong Wordpress
Robots TXT trong Wordpress

Với Yoast, bạn cần vào SEO > Tools > File Editor

Cách này giúp bạn dễ dàng chỉnh sửa hoặc tạo tệp mà không cần thực hiện bất kỳ bước nào đã giải thích ở trên.

Các lệnh

Dưới đây chúng ta sẽ điểm qua nhiều lệnh có sẵn cùng với các ví dụ tương ứng:

Chặn thu thập dữ liệu toàn bộ website

User-agent: * Disallow: /

LƯU Ý: Nếu bạn đang phát triển website và không muốn bất kỳ bot nào vào, đọc và lập chỉ mục nội dung của mình, quy tắc này hoạt động cực kỳ hiệu quả.

Chặn thu thập dữ liệu một trang

User-agent: * Disallow: /url-cua-trang-toi-khong-muon-crawl

Chặn thu thập dữ liệu một thư mục

User-agent: * Disallow: /folder/

Cho phép truy cập một trang

User-agent: * Allow: /page

Chặn một thư mục và cho phép một trang trong thư mục đó

User-agent: * Disallow: /folder/ Allow: /folder/page

Khai báo sitemap

Sitemap: https://domain.com/sitemap.xml

Ra lệnh cho các bot cụ thể

Phần này chúng ta sẽ đi sâu hơn một chút. Nếu bạn để ý, hầu hết các chỉ thị trước đó đều bắt đầu bằng:

User-agent: *

Dấu "*" đó ám chỉ tất cả các bot. Tức là, mọi chỉ thị sau dòng đó sẽ áp dụng cho tất cả các bot. Nếu chúng ta muốn gửi lệnh riêng cho những bot cụ thể, chúng ta cần thay đổi như sau:

User-agent: Googlebot Nếu chúng ta muốn nhắm đến bot của Google

User-agent: Bingbot Nếu chúng ta muốn nhắm đến bot của Bing

User-agent: DuckDuckBot Nếu chúng ta muốn nhắm đến bot của DuckDuckGo

Việc bạn cần làm chỉ là tìm hiểu xem bot bạn muốn ra lệnh tên là gì và đặt tên cho nó như chúng tôi vừa hướng dẫn.

Kiểm tra và test tệp robots.txt

Giờ thì bạn đã hoàn thành việc "chỉnh sửa" robots để tối ưu và tùy biến hoàn toàn cho website của mình rồi, việc còn lại duy nhất là test nó.

Test ư? Để làm gì?

Test để chắc chắn rằng chúng ta không gõ sai dòng nào và nó thực sự hoạt động đúng để chặn những phần website mà chúng ta muốn chặn.

Để làm việc đó, chúng tôi khuyến nghị dùng công cụ này.

Công cụ kiểm tra robots txt 1.jpg
Công cụ kiểm tra robots txt 1.jpg

Sau khi vào trong, bạn chỉ cần:

  • Nhập URL bạn muốn kiểm tra xem có được phép thu thập dữ liệu hay không

  • Chọn User Agent

  • Nhấn TEST

Ngay sau đó, toàn bộ tệp robots.txt của chúng ta sẽ được tải lên và bên dưới sẽ hiển thị xem việc truy cập có được cho phép hay không.

Kết quả test robots txt.jpg
Kết quả test robots txt.jpg

Trong trường hợp này, như chúng ta thấy, kết quả là tích cực, nhưng nếu chúng ta nhập một URL không được phép, nó cũng sẽ làm nổi bật dòng đang chặn URL đó:

Ví dụ URL bị chặn bởi robots txt.jpg
Ví dụ URL bị chặn bởi robots txt.jpg

Ngoài ra, công cụ này còn cho phép chúng ta chỉnh sửa tệp robots.txt trực tiếp ngay tại đó để thực hiện bất kỳ chỉnh sửa nào cần thiết sao cho kết quả khớp với mục tiêu của mình. Sau khi chỉnh sửa và test xong, chúng ta chỉ cần áp dụng các thay đổi mới đó vào robots của mình.

Mẹo bonus: làm cho robots.txt của bạn thật ấn tượng

Chúng tôi đã chỉ cho bạn cả tá dòng code dành cho bot, nhưng bạn cũng có thể chèn comment bằng cách bắt đầu dòng với ký tự "#". Tức là, bất kỳ thứ gì bắt đầu bằng "#" đều sẽ bị bot bỏ qua. Điều này mở ra cả một thế giới khả năng và những trò đùa nội bộ. Vì lý do đó, chúng tôi khuyến khích bạn xem thử robots.txt của windupschool, pccomponentes hoặc Minube, chắc chắn bạn sẽ gặp một bất ngờ nho nhỏ ?

Minube Robots TXT
Minube Robots TXT

Kết luận

Như bạn đã thấy, tệp robots.txt có rất nhiều thứ để khai thác và cũng đòi hỏi rất nhiều cẩn thận vì một chỉ thị đặt sai có thể chặn việc thu thập dữ liệu toàn bộ website của bạn.

Hy vọng hướng dẫn này hữu ích với bạn và nếu có bất kỳ câu hỏi nào, hẹn gặp lại ở phần bình luận.

Tác giả: David Kaufmann

David Kaufmann

Tôi đã dành hơn 10 năm qua hoàn toàn đắm chìm trong SEO — và thành thật mà nói, tôi không muốn điều gì khác thay thế.

Sự nghiệp của tôi bước sang một tầm cao mới khi tôi làm việc với vai trò chuyên gia SEO cấp cao tại Chess.com — một trong 100 website được truy cập nhiều nhất trên toàn bộ internet. Vận hành ở quy mô đó, trên hàng triệu trang, hàng chục ngôn ngữ và trong một trong những SERPs cạnh tranh khốc liệt nhất, đã dạy tôi những điều mà không khóa học hay chứng chỉ nào có thể mang lại. Trải nghiệm đó đã thay đổi cách tôi nhìn nhận về SEO thực sự xuất sắc — và trở thành nền tảng cho mọi thứ tôi xây dựng từ đó đến nay.

Từ kinh nghiệm ấy, tôi đã sáng lập SEO Alive — một agency dành cho những thương hiệu thực sự nghiêm túc với tăng trưởng organic. Chúng tôi không ở đây để bán dashboards và báo cáo hàng tháng. Chúng tôi ở đây để xây dựng những chiến lược thực sự tạo ra chuyển biến, kết hợp tinh hoa của SEO truyền thống với thế giới mới đầy thú vị của Generative Engine Optimization (GEO) — đảm bảo thương hiệu của bạn không chỉ xuất hiện trong các liên kết xanh của Google, mà còn hiện diện ngay trong những câu trả lời do AI tạo ra mà ChatGPT, Perplexity và Google AI Overviews đang cung cấp cho hàng triệu người mỗi ngày.

Và bởi vì tôi không thể tìm được một công cụ xử lý tốt cả hai thế giới đó, tôi đã tự xây dựng một công cụ — SEOcrawl, một nền tảng SEO intelligence cấp doanh nghiệp tích hợp rankings, kiểm tra kỹ thuật, giám sát backlinks, tình trạng crawl và theo dõi hiển thị thương hiệu trên AI, tất cả trong một nơi. Đó chính là nền tảng mà tôi luôn ước có.

→ Đọc tất cả bài viết của David
Thêm bài viết của David Kaufmann

Khám phá thêm nội dung của tác giả này