robots.txt: คู่มือฉบับสมบูรณ์ในการกำหนดค่า

robots.txt: คู่มือฉบับสมบูรณ์ในการกำหนดค่า
David Kaufmann
บทเรียน SEO
3 min read

เบื่อกับการได้ยินเรื่อง robots.txt และไม่รู้ว่าผู้คนพูดถึงอะไร? ไม่ต้องกังวล วันนี้เรานำโซลูชันมาให้คุณ ในโพสต์นี้ เราจะพยายามอธิบาย robots.txt คืออะไร กำหนดค่าอย่างไร (โดยเฉพาะใน WordPress) และ ผลกระทบต่อ SEO ของโครงการอย่างไร

ลงมือกันเลย!

robots.txt คืออะไรและใช้สำหรับอะไร?

robots.txt เป็นเพียง ไฟล์ที่โฮสต์ใน root ของเว็บ ที่ให้คุณ ป้องกันบอตบางตัว (เช่นของ Google หรือ Bing) ไม่ให้เยี่ยมชมเว็บไซต์หรือบางส่วน

ระวัง: สำคัญที่จะรู้ว่านี่คือโปรโตคอล และ โดยทั่วไปบอต "ดี" ทั้งหมดปฏิบัติตาม (GoogleBot, BingBot, Semrush, ...) แต่ บอตใดที่มีเจตนาร้ายสามารถข้ามได้ เช่น Screaming Frog โดยตรวจสอบตัวเลือกนี้:

ละเว้น robots.txt ใน screaming frog
ละเว้น robots.txt ใน screaming frog

ทำไมไฟล์ robots.txt จึงสำคัญสำหรับ SEO?

ตามที่กล่าวก่อนหน้า บอตที่ดีทั้งหมด (เช่น GoogleBot) ปฏิบัติตามโปรโตคอลนี้ ดังนั้นสิ่งที่เราสามารถทำได้คือใช้ไฟล์นี้เพื่อ นำทาง Google ผ่านเว็บไซต์ของเรา

อะไร? หมายความว่ายังไง? นำทาง Google ด้วย robots.txt?

ใช่ ไม่ต้องกังวล เราจะอธิบายด้วยตัวอย่างเพื่อให้ชัดเจนยิ่งขึ้น:

ลองนึกภาพว่าบนเว็บไซต์ของคุณมี พื้นที่ส่วนตัวที่เฉพาะผู้ใช้ที่ลงทะเบียนเข้าได้ และอย่างที่เรารู้กันดี Google ไม่สามารถเข้าถึงเว็บไซต์ใดที่ต้องการ login (ยัง...).

ดังนั้น จะไม่สมเหตุสมผลหรือที่ Google ไม่ใช้ crawl budget ของเรารวบรวมข้อมูลหน้าที่ไม่มีค่าสำหรับมัน?

ถูกต้อง! หนึ่งในการใช้ที่สำคัญที่สุดของ robots.txt คือการบล็อกเส้นทางที่มีค่าน้อยสำหรับ Google และในวิธีนี้ ทำให้มันมุ่งเน้นที่หน้าสำคัญของเว็บไซต์ของเรา ด้วยเหตุนี้ robots.txt ควรเป็นหนึ่งในเสาหลักที่ต้องคำนึงถึงใน กลยุทธ์ SEO ของเรา

นี่เป็นเพียงตัวอย่างหนึ่งจากพันสิ่งที่เราสามารถทำได้กับไฟล์นี้ ตัวอย่างอื่นรวมถึงการระบุ sitemap ของเรา ลดช่วงเวลาการรวบรวมข้อมูล บล็อกการรวบรวมข้อมูลของทรัพยากร...

วิธีสร้างไฟล์ robots.txt

เอาล่ะ... ลงมือทำกัน!

การสร้างไฟล์นี้ง่ายมาก คุณเพียงต้องคว้า text editor (Notepad บน Windows หรือ TextEdit บน Mac) หรือใช้ออนไลน์ และ หลังจากร่าง robots.txt ส่งออกเป็นไฟล์ txt

เมื่อเรามีแล้ว เราเพียงต้องตั้งชื่อ "robots.txt" และอัปโหลดไปยัง root ของเว็บผ่านแผงเซิร์ฟเวอร์หรือ FTP

เพื่อตรวจสอบว่าอัปโหลดถูกต้องหรือไม่ คุณเพียงต้องเพิ่ม "/robots.txt" ต่อโดเมน เช่น https://seocrawl.com/robots.txt

ระวัง: ระวัง cache ดีกว่าดูในโหมดไม่เก็บประวัติ ;)

หากผมมี WordPress?

หากคุณมี WordPress ง่ายกว่าเพราะ SEO plugins ที่ดีที่สุดเช่น Rank Math หรือ Yoast มาพร้อม add-on ในตัวเพื่อแก้ไข robots.txt โดยตรง

ในกรณีของ Rank Math คุณจะพบที่ Rank Math > General Settings > Edit robots.txt

Robots TXT ใน Wordpress
Robots TXT ใน Wordpress

ในกรณีของ Yoast เราต้องไปที่ SEO > Tools > File Editor

ด้วยวิธีนี้คุณสามารถแก้ไขหรือสร้างไฟล์ได้อย่างง่ายดายโดยไม่ต้องดำเนินขั้นตอนใดที่อธิบายข้างต้น

คำสั่ง

ด้านล่างเราจะดูคำสั่งหลายอย่างที่เรามีพร้อมตัวอย่างที่สอดคล้อง:

บล็อกการรวบรวมข้อมูลเว็บไซต์ของคุณ

User-agent: * Disallow: /

หมายเหตุ: หากคุณกำลังพัฒนาเว็บไซต์และไม่ต้องการให้บอตใดเข้า อ่าน และจัดทำดัชนีเนื้อหา กฎนี้ทำงานได้ดี

บล็อกการรวบรวมข้อมูลของหน้า

User-agent: * Disallow: /url-of-page-i-dont-want-crawled

บล็อกการรวบรวมข้อมูลของโฟลเดอร์

User-agent: * Disallow: /folder/

อนุญาตการเข้าถึงหน้า

User-agent: * Allow: /page

บล็อกโฟลเดอร์และอนุญาตหน้าในโฟลเดอร์นั้น

User-agent: * Disallow: /folder/ Allow: /folder/page

ระบุ sitemap

Sitemap: https://domain.com/sitemap.xml

ให้คำสั่งกับบอตเฉพาะ

ในกรณีนี้เราจะใช้เวลาเพิ่มเล็กน้อย หากคุณสังเกต คำสั่งก่อนหน้าส่วนใหญ่เริ่มด้วย:

User-agent: *

"*" นั้นหมายถึง บอตทั้งหมด นั่นคือ คำสั่งทั้งหมดหลังบรรทัดนั้นใช้กับบอตทั้งหมด หากสิ่งที่เราต้องการทำคือส่งคำสั่งเฉพาะไปยัง บอตบางตัว เราต้องเปลี่ยนดังนี้:

User-agent: Googlebot หากเราต้องการอ้างอิงบอตของ Google

User-agent: Bingbot หากเราต้องการอ้างอิงบอตของ Bing

User-agent: DuckDuckBot หากเราต้องการอ้างอิงบอตของ DuckDuckGo

สิ่งที่ต้องทำคือค้นหาว่าบอตที่ต้องการส่งคำสั่งชื่ออะไรและตั้งชื่อตามที่เราเพิ่งแสดง

ตรวจสอบและทดสอบไฟล์ robots.txt

ตอนนี้คุณ "ปรับแต่ง" robots ของคุณเสร็จแล้วเพื่อให้ปรับและกำหนดเองสำหรับเว็บไซต์อย่างเต็มที่ สิ่งที่เหลือเพียงทดสอบ

ทดสอบ? เพื่ออะไร?

เอาล่ะ ทดสอบเพื่อให้แน่ใจว่าเราไม่ทำผิดในบรรทัดใดและ มันทำงานเพื่อบล็อกส่วนของเว็บไซต์ที่เราต้องการบล็อก

สำหรับนั้นเราขอแนะนำใช้ เครื่องมือนี้

เครื่องมือเพื่อตรวจสอบ robots txt 1.jpg
เครื่องมือเพื่อตรวจสอบ robots txt 1.jpg

เมื่อคุณอยู่ข้างใน คุณเพียงต้อง:

  • ป้อน URL ที่คุณต้องการตรวจสอบว่าอนุญาตการรวบรวมข้อมูลหรือไม่

  • เลือก User Agent

  • คลิก TEST

หลังจากนั้น ไฟล์ robots.txt ทั้งหมดของเราจะโหลดและด้านล่างจะบอกเราว่าอนุญาตการเข้าถึงหรือไม่

ผลการทดสอบ robots txt.jpg
ผลการทดสอบ robots txt.jpg

ในกรณีนี้ ตามที่เราเห็น มันให้ผลลัพธ์เชิงบวก แต่หากเราป้อน URL ที่ไม่อนุญาต มันจะเน้นบรรทัดที่บล็อกด้วย:

ตัวอย่าง URL ที่บล็อกโดย robots txt.jpg
ตัวอย่าง URL ที่บล็อกโดย robots txt.jpg

นอกจากนี้ เครื่องมือนี้ให้เราแก้ไขไฟล์ robots.txt โดยตรงจากที่นั่นเพื่อทำการแก้ไขใดที่เราต้องการเพื่อให้ผลตรงกับเป้าหมาย เมื่อแก้ไขและทดสอบแล้ว เราเพียงต้องใช้การแก้ไขใหม่กับ robots ของเรา

เคล็ดลับโบนัส: ทำให้ robots.txt ของคุณน่าจดจำ

เราแสดงโค้ดมากมายที่ทำงานสำหรับบอต แต่ คุณยังสามารถใส่ความคิดเห็นโดยเริ่มบรรทัดด้วย "#" นั่นคือ สิ่งใดที่เริ่มด้วย "#" จะถูกบอตเพิกเฉย สิ่งนี้เปิดโลกของความเป็นไปได้และมุกภายใน ด้วยเหตุนี้เราสนับสนุนให้คุณดู robots.txt ของ windupschool, pccomponentes หรือ Minube คุณแน่นอนจะพบความประหลาดใจ ?

Minube Robots TXT
Minube Robots TXT

บทสรุป

ตามที่คุณเห็น ไฟล์ robots.txt มีให้เสนอมากและต้องการความระมัดระวังเพราะคำสั่งที่วางไม่ดีสามารถบล็อกการรวบรวมข้อมูลของเว็บไซต์

เราหวังว่าคู่มือนี้มีประโยชน์ และสำหรับคำถามใดๆ เราจะพบในความคิดเห็น

โดย: David Kaufmann

David Kaufmann

ในช่วง 10+ ปีที่ผ่านมา ผมหมกมุ่นกับ SEO อย่างสมบูรณ์ — และพูดตรง ๆ ก็ไม่อยากให้เป็นแบบอื่น

อาชีพของผมก้าวขึ้นไปอีกระดับเมื่อทำงานเป็นผู้เชี่ยวชาญ SEO อาวุโสที่ Chess.com — หนึ่งใน 100 เว็บไซต์ที่มีผู้เข้าชมมากที่สุดในอินเทอร์เน็ต การทำงานในระดับนี้สอนสิ่งที่ไม่มีหลักสูตรหรือประกาศนียบัตรใดสอนได้

จากประสบการณ์นี้ ผมก่อตั้ง SEO Alive — เอเจนซีสำหรับแบรนด์ที่จริงจังกับการเติบโตแบบออร์แกนิก และเพราะหาเครื่องมือที่จัดการทั้งโลกคลาสสิกและยุค AI ได้ดีไม่ได้ ผมจึงสร้าง SEOcrawl ขึ้น หากคุณกำลังมองหาพาร์ตเนอร์ SEO มากประสบการณ์ที่รักสาขานี้ — ยินดีพูดคุยครับ!

→ อ่านบทความทั้งหมดของ David
บทความเพิ่มเติม: David Kaufmann

ค้นพบเนื้อหาเพิ่มเติมของผู้เขียนคนนี้