Tất cả công cụ miễn phí

Kiểm tra Bot AI trong Robots.txt: xem bạn đang cho phép những trình thu thập AI nào

Dán tên miền của bạn và chúng tôi sẽ đọc robots.txt, sau đó cho biết — theo từng bot — liệu bạn đang cho phép hay chặn GPTBot, ClaudeBot, Google-Extended, PerplexityBot cùng mọi trình thu thập AI lớn khác. Hãy biết bạn có hiển thị với tìm kiếm AI hay không trước cả đối thủ. Không cần đăng ký.

Miễn phí, không cần đăng ký. Chúng tôi đọc robots.txt của bạn và cho biết những trình thu thập AI nào — GPTBot, ClaudeBot, Google-Extended, PerplexityBot và nhiều hơn nữa — bạn đang cho phép hoặc chặn.

Vì sao các bot AI trong robots.txt lại quan trọng với mức độ hiển thị

robots.txt là thứ đầu tiên mà một trình thu thập đọc, và các công ty AI hiện đều vận hành trình thu thập riêng với tên user-agent riêng. Chỉ riêng OpenAI đã dùng GPTBot để huấn luyện, OAI-SearchBot cho ChatGPT Search, và ChatGPT-User cho các lượt truy xuất theo yêu cầu. Anthropic, Google, Perplexity, Common Crawl và những bên khác cũng có bot riêng. Một dòng lệnh Disallow duy nhất quyết định liệu nội dung của bạn có thể được những hệ thống này thu thập và trích dẫn hay không.

Cấu hình sai theo hướng nào cũng phải trả giá: chặn các trình thu thập tìm kiếm và thương hiệu của bạn biến mất khỏi câu trả lời AI; để mở các trình thu thập huấn luyện trong khi bạn muốn từ chối thì nội dung của bạn lại huấn luyện mô hình miễn phí. Một lần kiểm tra nhanh cho biết chính xác bạn đang đứng ở đâu trên mọi bot AI lớn.

Cách đọc kết quả của bạn

Được phép

Trình thu thập có thể truy cập gốc website của bạn. Với các bot tìm kiếm AI như OAI-SearchBot, ClaudeBot và PerplexityBot, đây là điều giữ cho bạn đủ điều kiện được trích dẫn trong câu trả lời AI.

Một phần

Trình thu thập có thể truy cập website của bạn, nhưng robots.txt chặn một số đường dẫn đối với nó. Thường thì không sao — chỉ cần xác nhận bạn không ẩn những trang mình muốn xuất hiện trong tìm kiếm AI.

Bị chặn

Một quy tắc Disallow: / chặn trình thu thập này ngay ở cửa. Có chủ đích nếu bạn muốn từ chối huấn luyện, nhưng là vấn đề nếu đó là trình thu thập tìm kiếm mà bạn muốn vẫn hiển thị.

Những lỗi robots.txt thường gặp — và cách khắc phục

Vô tình chặn tìm kiếm AI.

Một lệnh Disallow bao trùm vô tình chặn OAI-SearchBot hoặc PerplexityBot sẽ âm thầm loại bạn khỏi câu trả lời AI. Hãy cho phép các trình thu thập tìm kiếm; chỉ chặn bot huấn luyện nếu bắt buộc.

Tin tưởng vào User-agent: * cho AI.

Nhiều trình thu thập AI bỏ qua nhóm ký tự đại diện và chỉ tuân theo quy tắc nêu đúng token của chúng. Hãy nhắm tới từng bot AI bằng user-agent cụ thể của nó.

Nhầm lẫn Google-Extended với Googlebot.

Chặn sai token có thể vẫn để huấn luyện AI bật, hoặc vô tình gỡ bạn khỏi chỉ mục Tìm kiếm. Dùng Google-Extended cho AI, Googlebot cho Tìm kiếm.

Coi robots.txt như một tường lửa.

robots.txt chỉ mang tính khuyến nghị — nó không ngăn được các trình thu thập cố tình phớt lờ hoặc thu thập qua bên thứ ba. Hãy dùng cách chặn phía máy chủ với những bot bắt buộc phải chặn triệt để.

Theo dõi thương hiệu của bạn trên khắp các câu trả lời AI

Cho phép trình thu thập AI mới chỉ là bước một. AI Tracker của SEOcrawl cho thấy điều gì xảy ra tiếp theo: nó giám sát tần suất ChatGPT, Claude, Gemini và Perplexity thực sự nhắc đến và trích dẫn thương hiệu của bạn, những prompt nào kích hoạt bạn, và bạn xếp hạng ra sao so với đối thủ — tất cả đặt cạnh dữ liệu Google Search Console của bạn ở một nơi duy nhất.

Câu hỏi thường gặp

Công cụ kiểm tra bot AI là gì?

Công cụ kiểm tra bot AI đọc tệp robots.txt của một website và cho bạn biết nó đang cho phép hay chặn những trình thu thập AI nào. Nó đối chiếu token user-agent của các công ty AI lớn — OpenAI (GPTBot, OAI-SearchBot, ChatGPT-User), Anthropic (ClaudeBot, Claude-SearchBot), Google (Google-Extended), Perplexity (PerplexityBot), Common Crawl (CCBot) và những bên khác — với các quy tắc Allow và Disallow trong robots.txt của bạn.

Làm sao để chặn trình thu thập AI trong robots.txt?

Thêm một nhóm cho mỗi trình thu thập kèm quy tắc Disallow, ví dụ "User-agent: GPTBot" theo sau là "Disallow: /". Để chặn nhiều bot, hãy liệt kê từng user-agent trong nhóm riêng. Hãy nhớ rằng robots.txt chỉ mang tính khuyến nghị: các trình thu thập có hành vi tốt như GPTBot và ClaudeBot sẽ tôn trọng nó, nhưng đây không phải cơ chế cưỡng chế, nên nó không ngăn được những bot cố tình phớt lờ.

Nên chặn hay cho phép các bot AI?

Tùy vào mục tiêu của bạn. Chặn các trình thu thập huấn luyện (GPTBot, CCBot, Google-Extended) sẽ loại nội dung của bạn khỏi việc huấn luyện mô hình. Nhưng chặn các trình thu thập tìm kiếm AI (OAI-SearchBot, ClaudeBot, PerplexityBot) có thể giữ thương hiệu của bạn ngoài câu trả lời của ChatGPT, Claude và Perplexity, khiến bạn mất mức độ hiển thị và lưu lượng giới thiệu. Nhiều website cho phép trình thu thập tìm kiếm trong khi chỉ chặn các bot chuyên huấn luyện.

Chặn Google-Extended có ảnh hưởng thứ hạng Google không?

Không. Google-Extended chỉ kiểm soát việc nội dung của bạn có được dùng để huấn luyện và làm nền tảng cho Gemini và Vertex AI hay không. Nó tách biệt với Googlebot, nên chặn Google-Extended không ảnh hưởng gì đến thứ hạng của bạn trong Google Search. Đây là cách gọn gàng để từ chối huấn luyện AI mà không động đến tìm kiếm tự nhiên.

Sự khác nhau giữa bot AI huấn luyện, tìm kiếm và truy xuất theo yêu cầu là gì?

Bot huấn luyện (GPTBot, CCBot, Google-Extended, Bytespider) thu thập nội dung để huấn luyện mô hình. Bot tìm kiếm (OAI-SearchBot, Claude-SearchBot, PerplexityBot) lập chỉ mục website của bạn để nó có thể được trích dẫn trong câu trả lời tìm kiếm AI. Bot truy xuất theo yêu cầu (ChatGPT-User, Claude-User, Perplexity-User) lấy về một trang theo thời gian thực khi người dùng hỏi trợ lý về trang đó. Chặn mỗi loại có hệ quả rất khác nhau với mức độ hiển thị AI.