Crawl Budget คืออะไรและวิธีเพิ่มประสิทธิภาพ

Crawl Budget คืออะไรและวิธีเพิ่มประสิทธิภาพ
David Kaufmann
บทเรียน SEO
4 min read

เมื่อพูดถึง SEO สิ่งที่นึกถึงเสมอคือ "คำสำคัญ" "เมตาดาตา" หัวข้อ และเนื้อหา แต่ technical SEO เป็นอีกด้านของ SEO ที่สำคัญมากเช่นกันและควรนำมาพิจารณาในกลยุทธ์การจัดอันดับเว็บของเรา

ภายในโลกนี้เราพบแนวคิดของ crawl budget มาวิเคราะห์เชิงลึกกัน

Crawl Budget คืออะไร

Crawl budget คือเวลาที่ Google ใช้เมื่อเข้าไปยังเว็บไซต์ Budget นี้ส่งผลต่อการจัดอันดับและ index ของเว็บไซต์ และนั่นคือเหตุผลที่ต้องให้ความสำคัญกับ crawl budget ของเว็บไซต์ ในการบรรลุ crawl budget ที่ดีที่สุด หลักการสำคัญคือ

  • การเข้าถึงได้

  • ความเร็ว

  • คุณภาพ

  • ความน่าเชื่อถือ

Crawler คืออะไร

Crawler คือ spider หรือ bot ที่ทำหน้าที่ crawl เว็บไซต์และ URL โดยอัตโนมัติ Bot นี้จัดเก็บและจำแนกเนื้อหาที่จะแสดงในผลการค้นหาให้ผู้ใช้ในภายหลัง เรียกว่า Googlebot เนื่องจากเราอยู่ในสเปนและกำลังพูดถึงเครื่องมือค้นหาที่สำคัญที่สุดคือ Google ดังนั้นจึงเป็นสิ่งสำคัญที่ Google จะพบเว็บไซต์และรู้ว่าคุณมีอยู่

Crawl Budget ส่งผลต่อเว็บไซต์อย่างไร

Crawl budget ที่ได้รับการเพิ่มประสิทธิภาพจะช่วยส่งเสริมการจัดอันดับเว็บไซต์ในเครื่องมือค้นหาให้ดีขึ้น นอกเหนือจากช่วยในการ index หน้าสำคัญทั้งหมดอย่างถูกต้อง เราไม่สามารถลืม crawl budget ในกลยุทธ์การจัดอันดับ SEOของเรา เพราะเวลาที่ Google ใช้ในการรู้จักเว็บไซต์เป็นสิ่งสำคัญมาก

ทำงานอย่างไร

Spider ของ Google จะ crawl เว็บไซต์ และหาก crawl budget มีน้อย เป็นไปได้ว่าจะออกจากเว็บไซต์โดยไม่ crawl เนื้อหาใหม่ทั้งหมด Google จัดสรร budget ตาม 2 ปัจจัย

  • Crawl limit: ระบุการ crawl สูงสุดที่เว็บไซต์รองรับและความต้องการคืออะไร

  • Crawl demand: ระบุความถี่ที่ควร crawl เว็บไซต์โดยอ้างอิงความนิยมของเว็บไซต์และความถี่ในการอัปเดต

รู้หรือไม่ว่าเว็บไซต์ของคุณถูก crawl บ่อยแค่ไหน

ขอบคุณ**Google Search Consoleที่ทำให้เราสามารถดูสถิติการ crawl**ในช่วง 3 เดือนที่ผ่านมาได้ เราสามารถเห็นหน้าที่ crawl ต่อวัน กิโลไบต์ที่ดาวน์โหลดต่อวัน และเวลาดาวน์โหลดของหน้าหนึ่งๆในหน่วยมิลลิวินาที ข้อมูลมีค่าเฉลี่ยที่จำแนกเป็นสูง ปกติ และต่ำ ข้อมูลนี้แสดงให้เห็นชัดเจนหากเรานำจำนวนหน้าทั้งหมดของเว็บไซต์และข้อมูลเฉลี่ยของการ crawl ต่อวันมาพิจารณา ด้วยข้อมูลนี้เราสามารถรู้ว่าอยู่ในมาตรฐานหรือไม่ หรือต้องปรับปรุง crawl budget

Crawl Statistics
Crawl Statistics

Crawl budget ที่น้อยกว่าเป็นอันตรายหรือไม่

การมี crawl budget น้อยกว่ามีข้อเสีย

  • เนื้อหาจัดอันดับได้ยากเร็วๆ เพราะ Google ไม่รู้ว่ามีอยู่ จึงไม่ crawl หรือ index

  • พื้นที่ห่างไกลของเว็บไซต์จะเป็นพื้นที่อ่อนไหวหาก crawl budget มีน้อย Bot จะไม่มีเวลาเข้าหน้าหรือส่วนที่อยู่ห่างไกลของเว็บไซต์

  • การเพิ่มประสิทธิภาพ on-page SEO ที่ทำไว้จะไม่ถูก crawl ดังนั้นการปรับปรุงจะไม่ปรากฏ

  • หากเว็บไซต์อื่น index และจัดอันดับเนื้อหาเดียวกันก่อนเว็บไซต์ของเรา Google อาจระบุว่าเราคัดลอกเนื้อหาและลงโทษเรา

  • Crawl budget มากไม่ได้รับประกันสิ่งใดหากเราไม่เพิ่มประสิทธิภาพอย่างถูกต้อง

พฤติกรรมของ spider เป็นอย่างไร

ในการรู้ว่า Google เยี่ยมชมหน้าใดและกำลังลงทุนเวลาในการ crawl ที่ใด และตรงกับความสำคัญด้านการจัดอันดับ SEO ของเราหรือไม่ เราต้องดูข้อมูลที่ log ให้

Log คือคำขอไปยังเซิร์ฟเวอร์ที่จัดเก็บไว้ ซึ่งเราเข้าถึงได้เพื่อรู้ว่า Googlebot เยี่ยมชมและไม่เยี่ยมชมที่ใด การ export และจัดระเบียบเอกสารนี้ทำได้ง่ายด้วย ScreamingFrog Log File Analyser

ScreamingFrog Log File Analyser
ScreamingFrog Log File Analyser

Log analysis with ScreamingFrog Log File Analyser
Log analysis with ScreamingFrog Log File Analyser

วิธีเพิ่มประสิทธิภาพ Crawl Budget

เราต้องชัดเจนเกี่ยวกับ URL ที่สำคัญสำหรับการจัดอันดับเว็บและธุรกิจ เพื่อให้ถูก crawl มากที่สุด ไม่มีประโยชน์ที่จะลงทุน crawl budget ในหน้าที่ไม่สำคัญจริง เช่นหน้าที่มี parameter, pagination ฯลฯ

จะสำคัญที่จะไม่มีปัญหา duplicate content หรือ URL ที่กิน keyword เดียวกัน เนื้อหาคุณภาพต่ำก็เป็นอันตรายเพราะ bot จะใช้เวลาผ่านมัน

ในการเพิ่มประสิทธิภาพ ต้องเน้นในด้านต่อไปนี้

WPO (Web Performance Optimization)

เพิ่มประสิทธิภาพความเร็วในการโหลดหรือ WPO เพื่อไม่ให้ Google ใช้เวลานานเกินไปในการ crawl เว็บไซต์ Google ชอบโค้ดสะอาดและไฟล์น้อยที่สุดเพื่ออำนวยความสะดวกในการโหลดและบรรลุประสบการณ์ผู้ใช้ที่ดีที่สุดเมื่อท่องเว็บ

WPO improvements for the crawl budget
WPO improvements for the crawl budget

อย่าลืม

  • ลดและบีบอัดไฟล์ CSS และ JS

  • ดูน้ำหนักและขนาดของรูปภาพ และระบุขนาด

  • เลือก Nginx เป็นเซิร์ฟเวอร์เพื่อปรับปรุงการจัดอันดับผ่าน cache

ลิงก์และ redirect

Bot จะ crawl เนื้อหาทั้งหมดของเว็บไซต์ และจะติดตามทุกลิงก์ในแต่ละหน้า เพื่อสนับสนุนการ crawl ที่ถูกต้อง คุณต้องคำนึงถึง

  • ควรหลีกเลี่ยง redirect ที่ไม่จำเป็น เพราะ Google จะหลงทาง

  • Redirect chain คือ redirect หลาย URL ที่จะทำให้ Google หลงทางโดยไม่ถึง URL ปลายทาง

Redirect chains or redirect loops
Redirect chains or redirect loops

  • ลิงก์เสีย (หน้าที่เชื่อมโยงกับสถานะ 404 not found) ใน internal linking

Screaming Frog และ Search Console จะเป็นพันธมิตรพิเศษในการตรวจจับ redirect ที่ผิดพลาดและ URL ที่มีข้อผิดพลาดทุกประเภท

Faulty redirects with Search Console
Faulty redirects with Search Console

Internal linking

ต้องดูแลInternal linkingอย่างระมัดระวัง เพื่อไม่ให้ลิงก์มากเกินไปและทำให้ bot หลงทางใน URL ที่ crawl

  • ต้องเสริมพื้นที่สำคัญที่สุดและปล่อยให้พื้นที่สำคัญน้อยกว่ามีลิงก์น้อยกว่า ดังนั้นจะมีหน้าเช่นนโยบายความเป็นส่วนตัวหรือหน้า cookie ที่ไม่สะดวกที่จะลิงก์ในทุกหน้าจากเมนูหลักหรือ footer

โค้ด

  • แนะนำให้รวม HTML ให้มากที่สุดเพื่ออำนวยความสะดวกในการ crawl และ index ให้ bot รู้กันดีว่า Google render และ index หน้าที่มี JavaScript ได้ยาก

XML Sitemap

Sitemapเป็นหนึ่งในไฟล์พื้นฐานสำหรับ Google เพราะรับประกันการ crawl และ index เว็บไซต์อย่างถูกต้อง

  • ยิ่งจัดระเบียบยิ่งดี จัดระเบียบ sitemap ตามแนวตั้งหรือ folder

  • ระบุชื่อที่อธิบายเนื้อหา หลีกเลี่ยงชื่อทั่วไปเกินไปเช่น "sitemap 1"

Recommendations for the XML Sitemap
Recommendations for the XML Sitemap

  • Sitemap สำหรับรูปภาพ วิดีโอ และตามภาษา

  • URL ที่รวมควรเป็น URL ที่สำคัญที่สุดเสมอ ดังนั้นอย่ารวมหน้าที่มี redirect ไม่มี canonical หน้าที่มี filter, pagination ฯลฯ นอกจากนี้อย่ารวมหน้าที่ไม่เกี่ยวข้องมาก เช่น นโยบายความเป็นส่วนตัวหรือ cookie

Robots txt

ร่วมกับ sitemap ไฟล์robots.txtเป็นหนึ่งในไฟล์สำคัญในการ index และ crawl เว็บไซต์ ดังนั้นอย่าลืมเพิ่มประสิทธิภาพให้มากที่สุด

  • อ้างอิง XML sitemap เพื่ออำนวยความสะดวกในการ crawl ให้มากที่สุด

  • อย่าบล็อก folder ที่สำคัญ เพื่อสิ่งนี้ คุณสามารถลอง Search Console robots.txt tester และตรวจสอบว่าคุณบล็อก folder หรือหน้าสำคัญหรือไม่

Search Console robots.txt tester
Search Console robots.txt tester

  • อย่าบล็อกหน้าที่มี redirect หรือ canonical

  • อนุญาตการเข้าถึง JS และ CSS

แท็ก hreflang

  • attribute ที่ครบถ้วนเหล่านี้จะช่วยให้ Google ระบุภาษาและจำนวนภาษาที่เว็บไซต์มี

Metarobots noindex และ X-Robots-Tag

คำสั่งเหล่านี้บอก bot ว่าหน้าหรือ folder ใดไม่ควร index แต่ไม่ป้องกันการเข้าถึง crawl

  • แท็กที่มีคำสั่ง metarobots "noindex" ใช้ crawl budget ดังนั้นจึงสำคัญที่จะไม่ใช้มากเกินไป

  • ส่วนหัว X-Robots รวมในส่วนหัวที่ระดับโค้ดและสามารถระบุคำสั่งหลายอย่างให้ Google รวมถึงไม่ index หน้า

แหล่งที่มาที่ปรึกษา:

  • José Facchin: crawl Budget คืออะไร สำคัญต่อ Google เพียงใด และคุณสามารถปรับปรุงได้อย่างไร

  • SEOCOM Agency: Crawl Budget คืออะไร

  • Big SEO Agency: Crawl Budget คืออะไร กุญแจในการเพิ่มประสิทธิภาพ

  • ContentKing: Crawl budget ใน SEO: คู่มืออ้างอิง

  • Mi posicionamiento web: Crawl Budget คืออะไร

  • Luis Villanueva: Crawl Budget คืออะไร

  • Neil Patel: วิธีใช้ Crawl Budget ของ Google เพื่อปรับปรุง SEO ของเว็บไซต์

  • Search Engine Journal: 7 เคล็ดลับเพิ่มประสิทธิภาพ Crawl Budget สำหรับ SEO

  • Webmasters Google Blog: Crawl Budget สำหรับ Googlebot หมายความว่าอะไร

  • DeepCrawl: Crawl budget คืออะไร

โดย: David Kaufmann

David Kaufmann

ในช่วง 10+ ปีที่ผ่านมา ผมหมกมุ่นกับ SEO อย่างสมบูรณ์ — และพูดตรง ๆ ก็ไม่อยากให้เป็นแบบอื่น

อาชีพของผมก้าวขึ้นไปอีกระดับเมื่อทำงานเป็นผู้เชี่ยวชาญ SEO อาวุโสที่ Chess.com — หนึ่งใน 100 เว็บไซต์ที่มีผู้เข้าชมมากที่สุดในอินเทอร์เน็ต การทำงานในระดับนี้สอนสิ่งที่ไม่มีหลักสูตรหรือประกาศนียบัตรใดสอนได้

จากประสบการณ์นี้ ผมก่อตั้ง SEO Alive — เอเจนซีสำหรับแบรนด์ที่จริงจังกับการเติบโตแบบออร์แกนิก และเพราะหาเครื่องมือที่จัดการทั้งโลกคลาสสิกและยุค AI ได้ดีไม่ได้ ผมจึงสร้าง SEOcrawl ขึ้น หากคุณกำลังมองหาพาร์ตเนอร์ SEO มากประสบการณ์ที่รักสาขานี้ — ยินดีพูดคุยครับ!

→ อ่านบทความทั้งหมดของ David
บทความเพิ่มเติม: David Kaufmann

ค้นพบเนื้อหาเพิ่มเติมของผู้เขียนคนนี้