robots.txt: คู่มือฉบับสมบูรณ์ในการกำหนดค่า

เบื่อกับการได้ยินเรื่อง robots.txt และไม่รู้ว่าผู้คนพูดถึงอะไร? ไม่ต้องกังวล วันนี้เรานำโซลูชันมาให้คุณ ในโพสต์นี้ เราจะพยายามอธิบาย robots.txt คืออะไร กำหนดค่าอย่างไร (โดยเฉพาะใน WordPress) และ ผลกระทบต่อ SEO ของโครงการอย่างไร
ลงมือกันเลย!
robots.txt คืออะไรและใช้สำหรับอะไร?
robots.txt เป็นเพียง ไฟล์ที่โฮสต์ใน root ของเว็บ ที่ให้คุณ ป้องกันบอตบางตัว (เช่นของ Google หรือ Bing) ไม่ให้เยี่ยมชมเว็บไซต์หรือบางส่วน
ระวัง: สำคัญที่จะรู้ว่านี่คือโปรโตคอล และ โดยทั่วไปบอต "ดี" ทั้งหมดปฏิบัติตาม (GoogleBot, BingBot, Semrush, ...) แต่ บอตใดที่มีเจตนาร้ายสามารถข้ามได้ เช่น Screaming Frog โดยตรวจสอบตัวเลือกนี้:

ทำไมไฟล์ robots.txt จึงสำคัญสำหรับ SEO?
ตามที่กล่าวก่อนหน้า บอตที่ดีทั้งหมด (เช่น GoogleBot) ปฏิบัติตามโปรโตคอลนี้ ดังนั้นสิ่งที่เราสามารถทำได้คือใช้ไฟล์นี้เพื่อ นำทาง Google ผ่านเว็บไซต์ของเรา
อะไร? หมายความว่ายังไง? นำทาง Google ด้วย robots.txt?
ใช่ ไม่ต้องกังวล เราจะอธิบายด้วยตัวอย่างเพื่อให้ชัดเจนยิ่งขึ้น:
ลองนึกภาพว่าบนเว็บไซต์ของคุณมี พื้นที่ส่วนตัวที่เฉพาะผู้ใช้ที่ลงทะเบียนเข้าได้ และอย่างที่เรารู้กันดี Google ไม่สามารถเข้าถึงเว็บไซต์ใดที่ต้องการ login (ยัง...).
ดังนั้น จะไม่สมเหตุสมผลหรือที่ Google ไม่ใช้ crawl budget ของเรารวบรวมข้อมูลหน้าที่ไม่มีค่าสำหรับมัน?
ถูกต้อง! หนึ่งในการใช้ที่สำคัญที่สุดของ robots.txt คือการบล็อกเส้นทางที่มีค่าน้อยสำหรับ Google และในวิธีนี้ ทำให้มันมุ่งเน้นที่หน้าสำคัญของเว็บไซต์ของเรา ด้วยเหตุนี้ robots.txt ควรเป็นหนึ่งในเสาหลักที่ต้องคำนึงถึงใน กลยุทธ์ SEO ของเรา
นี่เป็นเพียงตัวอย่างหนึ่งจากพันสิ่งที่เราสามารถทำได้กับไฟล์นี้ ตัวอย่างอื่นรวมถึงการระบุ sitemap ของเรา ลดช่วงเวลาการรวบรวมข้อมูล บล็อกการรวบรวมข้อมูลของทรัพยากร...
วิธีสร้างไฟล์ robots.txt
เอาล่ะ... ลงมือทำกัน!
การสร้างไฟล์นี้ง่ายมาก คุณเพียงต้องคว้า text editor (Notepad บน Windows หรือ TextEdit บน Mac) หรือใช้ออนไลน์ และ หลังจากร่าง robots.txt ส่งออกเป็นไฟล์ txt
เมื่อเรามีแล้ว เราเพียงต้องตั้งชื่อ "robots.txt" และอัปโหลดไปยัง root ของเว็บผ่านแผงเซิร์ฟเวอร์หรือ FTP
เพื่อตรวจสอบว่าอัปโหลดถูกต้องหรือไม่ คุณเพียงต้องเพิ่ม "/robots.txt" ต่อโดเมน เช่น https://seocrawl.com/robots.txt
ระวัง: ระวัง cache ดีกว่าดูในโหมดไม่เก็บประวัติ ;)
หากผมมี WordPress?
หากคุณมี WordPress ง่ายกว่าเพราะ SEO plugins ที่ดีที่สุดเช่น Rank Math หรือ Yoast มาพร้อม add-on ในตัวเพื่อแก้ไข robots.txt โดยตรง
ในกรณีของ Rank Math คุณจะพบที่ Rank Math > General Settings > Edit robots.txt

ในกรณีของ Yoast เราต้องไปที่ SEO > Tools > File Editor
ด้วยวิธีนี้คุณสามารถแก้ไขหรือสร้างไฟล์ได้อย่างง่ายดายโดยไม่ต้องดำเนินขั้นตอนใดที่อธิบายข้างต้น
คำสั่ง
ด้านล่างเราจะดูคำสั่งหลายอย่างที่เรามีพร้อมตัวอย่างที่สอดคล้อง:
บล็อกการรวบรวมข้อมูลเว็บไซต์ของคุณ
User-agent: * Disallow: /
หมายเหตุ: หากคุณกำลังพัฒนาเว็บไซต์และไม่ต้องการให้บอตใดเข้า อ่าน และจัดทำดัชนีเนื้อหา กฎนี้ทำงานได้ดี
บล็อกการรวบรวมข้อมูลของหน้า
User-agent: * Disallow: /url-of-page-i-dont-want-crawled
บล็อกการรวบรวมข้อมูลของโฟลเดอร์
User-agent: * Disallow: /folder/
อนุญาตการเข้าถึงหน้า
User-agent: * Allow: /page
บล็อกโฟลเดอร์และอนุญาตหน้าในโฟลเดอร์นั้น
User-agent: * Disallow: /folder/ Allow: /folder/page
ระบุ sitemap
Sitemap: https://domain.com/sitemap.xml
ให้คำสั่งกับบอตเฉพาะ
ในกรณีนี้เราจะใช้เวลาเพิ่มเล็กน้อย หากคุณสังเกต คำสั่งก่อนหน้าส่วนใหญ่เริ่มด้วย:
User-agent: *
"*" นั้นหมายถึง บอตทั้งหมด นั่นคือ คำสั่งทั้งหมดหลังบรรทัดนั้นใช้กับบอตทั้งหมด หากสิ่งที่เราต้องการทำคือส่งคำสั่งเฉพาะไปยัง บอตบางตัว เราต้องเปลี่ยนดังนี้:
User-agent: Googlebot หากเราต้องการอ้างอิงบอตของ Google
User-agent: Bingbot หากเราต้องการอ้างอิงบอตของ Bing
User-agent: DuckDuckBot หากเราต้องการอ้างอิงบอตของ DuckDuckGo
สิ่งที่ต้องทำคือค้นหาว่าบอตที่ต้องการส่งคำสั่งชื่ออะไรและตั้งชื่อตามที่เราเพิ่งแสดง
ตรวจสอบและทดสอบไฟล์ robots.txt
ตอนนี้คุณ "ปรับแต่ง" robots ของคุณเสร็จแล้วเพื่อให้ปรับและกำหนดเองสำหรับเว็บไซต์อย่างเต็มที่ สิ่งที่เหลือเพียงทดสอบ
ทดสอบ? เพื่ออะไร?
เอาล่ะ ทดสอบเพื่อให้แน่ใจว่าเราไม่ทำผิดในบรรทัดใดและ มันทำงานเพื่อบล็อกส่วนของเว็บไซต์ที่เราต้องการบล็อก
สำหรับนั้นเราขอแนะนำใช้ เครื่องมือนี้

เมื่อคุณอยู่ข้างใน คุณเพียงต้อง:
-
ป้อน URL ที่คุณต้องการตรวจสอบว่าอนุญาตการรวบรวมข้อมูลหรือไม่
-
เลือก User Agent
-
คลิก TEST
หลังจากนั้น ไฟล์ robots.txt ทั้งหมดของเราจะโหลดและด้านล่างจะบอกเราว่าอนุญาตการเข้าถึงหรือไม่

ในกรณีนี้ ตามที่เราเห็น มันให้ผลลัพธ์เชิงบวก แต่หากเราป้อน URL ที่ไม่อนุญาต มันจะเน้นบรรทัดที่บล็อกด้วย:

นอกจากนี้ เครื่องมือนี้ให้เราแก้ไขไฟล์ robots.txt โดยตรงจากที่นั่นเพื่อทำการแก้ไขใดที่เราต้องการเพื่อให้ผลตรงกับเป้าหมาย เมื่อแก้ไขและทดสอบแล้ว เราเพียงต้องใช้การแก้ไขใหม่กับ robots ของเรา
เคล็ดลับโบนัส: ทำให้ robots.txt ของคุณน่าจดจำ
เราแสดงโค้ดมากมายที่ทำงานสำหรับบอต แต่ คุณยังสามารถใส่ความคิดเห็นโดยเริ่มบรรทัดด้วย "#" นั่นคือ สิ่งใดที่เริ่มด้วย "#" จะถูกบอตเพิกเฉย สิ่งนี้เปิดโลกของความเป็นไปได้และมุกภายใน ด้วยเหตุนี้เราสนับสนุนให้คุณดู robots.txt ของ windupschool, pccomponentes หรือ Minube คุณแน่นอนจะพบความประหลาดใจ ?

บทสรุป
ตามที่คุณเห็น ไฟล์ robots.txt มีให้เสนอมากและต้องการความระมัดระวังเพราะคำสั่งที่วางไม่ดีสามารถบล็อกการรวบรวมข้อมูลของเว็บไซต์
เราหวังว่าคู่มือนี้มีประโยชน์ และสำหรับคำถามใดๆ เราจะพบในความคิดเห็น
โดย: David Kaufmann

ในช่วง 10+ ปีที่ผ่านมา ผมหมกมุ่นกับ SEO อย่างสมบูรณ์ — และพูดตรง ๆ ก็ไม่อยากให้เป็นแบบอื่น
อาชีพของผมก้าวขึ้นไปอีกระดับเมื่อทำงานเป็นผู้เชี่ยวชาญ SEO อาวุโสที่ Chess.com — หนึ่งใน 100 เว็บไซต์ที่มีผู้เข้าชมมากที่สุดในอินเทอร์เน็ต การทำงานในระดับนี้สอนสิ่งที่ไม่มีหลักสูตรหรือประกาศนียบัตรใดสอนได้
จากประสบการณ์นี้ ผมก่อตั้ง SEO Alive — เอเจนซีสำหรับแบรนด์ที่จริงจังกับการเติบโตแบบออร์แกนิก และเพราะหาเครื่องมือที่จัดการทั้งโลกคลาสสิกและยุค AI ได้ดีไม่ได้ ผมจึงสร้าง SEOcrawl ขึ้น หากคุณกำลังมองหาพาร์ตเนอร์ SEO มากประสบการณ์ที่รักสาขานี้ — ยินดีพูดคุยครับ!
ค้นพบเนื้อหาเพิ่มเติมของผู้เขียนคนนี้

