วิธีตรวจจับและแก้ไข Duplicate Content

หากคุณทำงานในโลก SEO คุณอาจพบสถานการณ์ที่ต้องจัดการกับหนึ่งในปัญหาที่พบบ่อยที่สุดที่ส่งผลต่อการจัดอันดับเครื่องมือค้นหาและอาจนำไปสู่การลงโทษ คือ duplicate content เครื่องมือค้นหาเช่น Google, Bing หรือ Yahoo มีเป้าหมายหลักคือการแสดงข้อมูลที่เกี่ยวข้องที่สุดสำหรับเจตนาการค้นหาของผู้ใช้ ในการทำเช่นนี้ พวกเขาจัดอันดับจากมากไปน้อย ให้รางวัลเนื้อหาต้นฉบับคุณภาพสูงและลงโทษเนื้อหาที่ถูกคัดลอก ซ้ำ ไม่เกี่ยวข้อง หรือถูกบิดเบือนเพื่อจัดอันดับสูงขึ้นบนหน้าผลลัพธ์
ในบทความนี้เราจะอธิบายว่า duplicate content คืออะไร วิธีตรวจจับและแก้ไข ผลกระทบต่อ SEO และเครื่องมือที่เราสามารถใช้ทำงาน คุณจะเข้าร่วมหรือไม่ เริ่มกันเลย
Duplicate content คืออะไร
ดังที่เรากล่าวแล้ว เครื่องมือค้นหาเช่น Google ลงโทษหน้าที่มี duplicate content ซึ่งตีความเป็นสองหน้าที่มี URL ต่างกันแต่เนื้อหาเหมือนกัน ดังนั้น เท่าที่เป็นไปได้ หลีกเลี่ยงการคัดลอกเนื้อหาจากเว็บไซต์อื่นและวางบนเว็บไซต์ของคุณ (คุณจะประหยัดความปวดหัวกับ Google และการดำเนินการทางกฎหมายที่อาจเกิดขึ้นจากเจ้าของเว็บไซต์ที่คุณดึงมาได้มาก)
เคล็ดลับ SEO Alive: ในฐานะหน่วยงานที่เชี่ยวชาญด้านการเพิ่มประสิทธิภาพเครื่องมือค้นหา เราขอแนะนำอย่างยิ่งให้คุณดูแลเนื้อหาบนเว็บไซต์และหลีกเลี่ยงแนวทางที่ไม่ดีนี้ อดทนและพยายามต่อไป เขียนเนื้อหาต้นฉบับ และผลลัพธ์จะมาเร็วกว่าที่คิด ในเรื่องนี้ Google ชัดเจนมากเกี่ยวกับจุดยืน ดังที่เราเห็นในเอกสารอย่างเป็นทางการเกี่ยวกับ duplicate content ดังนั้นเราต้องระมัดระวังมากกับเนื้อหาที่เราเขียน
ใน**การจัดอันดับ SEO** เราสามารถแยก duplicate content เป็นสองประเภท: ภายในและภายนอก
Duplicate content ภายใน
Duplicate content ประเภทนี้มักเกิดขึ้นเนื่องจากการดำเนินการ URL parameter ที่ไม่ดีหรือการจัดการ taxonomy ในหมวดหมู่และแท็กที่ไม่ดี สาเหตุที่เป็นไปได้ที่สามารถสร้าง duplicate content ภายในคือ
- ข้อผิดพลาดในการสร้างหมวดหมู่และแท็ก: ข้อผิดพลาดนี้พบบ่อยในบล็อกที่มีรายการบทความมาก และมีการสร้างหมวดหมู่และแท็กโดยไม่มีลำดับหรือตรรกะ มาดูตัวอย่าง
ลองนึกภาพเรามีบล็อกการตลาดดิจิทัลที่มีหลายหมวดหมู่
https://myblogdigital.com/category-a/topic/
https://myblogdigital.com/category-b/topic/
https://myblogdigital.com/category-c/topic/ ในการหลีกเลี่ยง duplicate content จำเป็นต้องทำเครื่องหมายว่าตัวใดเป็นตัวหลักและให้อีกสองตัว canonical ไปยัง URL หลัก
-
Domain "non-www" เทียบกับ "www" และ "http" เทียบกับ "https": นี่คือข้อผิดพลาดอีกข้อที่เราต้องใส่ใจ เป็นไปได้ว่าหากเราไม่ได้ระบุให้เครื่องมือค้นหารู้ว่า domain ใดคือ canonical พวกเขาสามารถเข้าถึงเวอร์ชันอื่นและสร้าง duplicate content ดังนั้น จาก SEO Alive เราขอแนะนำให้ตั้ง canonical domain และตั้งค่า redirect 301 ไปยังเวอร์ชันที่คุณต้องการให้เป็นที่นิยม
-
URL ที่มี parameter: ข้อผิดพลาดนี้พบบ่อยบนเว็บไซต์ ecommerce ที่ URL ที่มี parameter อนุญาตการ filter เพื่อนำเสนอข้อมูลให้ผู้ใช้ สมมุติว่าเรามีเว็บไซต์ขายนาฬิกาและ URL ต่อไป
https://www.mywatchstore.com/watches/garmin?color=black หน้านี้จะแสดงนาฬิการุ่น "Garmin" สีดำทั้งหมด
ความเป็นไปได้ในการตั้ง filter บนหน้าอาจเป็นความไม่สะดวกร้ายแรงหากไม่จัดการอย่างเหมาะสม เนื่องจากเครื่องมือค้นหาสามารถแสดงการรวมกัน URL หลายแบบ
https://www.mywatchstore.com/watches/garmin?color=black&type=sport
https://www.mywatchstore.com/watches/garmin?type=sport&color=black ดังนั้น จาก SEO Alive เราขอแนะนำให้คุณตั้งเวอร์ชัน canonical ไปยังหน้าที่ไม่ filter เพื่อให้ URL ที่มี parameter ที่เหลือรักษา page authority (URL Ratio)
Duplicate content ภายนอก
Duplicate content ภายนอกหมายถึงเนื้อหาใดๆที่ดึง คัดลอกทั้งหมดหรือบางส่วนจากเว็บไซต์หนึ่งหรือมากกว่าที่เป็นเจ้าของโดย webmaster หรือผู้ดูแลที่ต่างกัน
นี่คือแนวทางที่ถือว่าเป็น spam ในสายตาของเครื่องมือค้นหา ดังนั้นดังที่เรากล่าวในตอนต้นบทความ ควรหลีกเลี่ยงด้วยทุกวิถีทาง
อีกสาเหตุของ duplicate content ภายนอกอาจเป็นเพราะกลยุทธ์ syndication ที่เว็บไซต์ส่งผู้เข้าชมไปยังเว็บไซต์อื่นเพื่อบิดเบือนเครื่องมือค้นหา อัลกอริทึมของ Google วันนี้ฉลาดพอที่จะตรวจจับแนวทางประเภทนี้
เราจะตรวจสอบได้อย่างไรว่าเว็บไซต์มี duplicate content หรือไม่
การรู้วิธีตรวจจับ duplicate content สำคัญอย่างยิ่งในกลยุทธ์เนื้อหาของเว็บไซต์ หากเราไม่ควบคุมปัจจัยนี้ เราเสี่ยงที่หน้าจะหลุดจากผลลัพธ์ด้านบนใน Google ทีละน้อย เนื่องจาก Google ปรับ SERP อย่างต่อเนื่องเพื่อค้นหาเนื้อหาต้นฉบับคุณภาพสูง ดังนั้นเราจะนำเสนอตัวอย่างวิธีตรวจจับเนื้อหาบนเว็บไซต์และให้กลยุทธ์บางอย่างเพื่อหลีกเลี่ยงเนื้อหาประเภทนี้
สมมุติว่าเรามีร้านค้าออนไลน์ (ecommerce) ที่เรามีเวอร์ชันที่พิมพ์ได้ของแต่ละหน้าสินค้า นี่ถือว่าซ้ำเนื่องจากมี "เวอร์ชัน" ของเนื้อหาเดียวกันสองเวอร์ชันภายใต้ URL ต่างกัน
หน้ารายละเอียดสินค้า: https://mywebsite.com/product3560
หน้าเวอร์ชันพิมพ์ได้: https://mywebsite.com/product3560_print ในการหลีกเลี่ยง duplicate content ประเภทนี้เราสามารถใช้กลยุทธ์ต่อไป
กลยุทธ์ #1: การใช้ redirect 301
หากเราปรับโครงสร้างเว็บไซต์ใหม่ เราสามารถตั้งค่า redirect 301 (permanent redirect) ผ่านปลั๊กอิน SEO ที่รวมในที่เก็บต่างๆของระบบจัดการเนื้อหา (CMS) หรือผ่านไฟล์ .htaccess เพื่อเปลี่ยนเส้นทางผู้ใช้ bot ของเครื่องมือค้นหา และเครื่องมืออื่นที่มีฟังก์ชัน crawler อย่างชาญฉลาด
กลยุทธ์ #2: การใช้แท็ก canonical
แท็ก rel="canonical" ใช้บอกเครื่องมือค้นหาว่าหน้าใดเป็นต้นฉบับ (เวอร์ชัน canonical) และหน้าใดเป็นสำเนา ด้วยวิธีนี้ spider ของเครื่องมือค้นหาจะมุ่งเน้น crawl budget ในการ index หน้าที่ทำเครื่องหมายด้วย meta tag นี้
ในการใช้แท็ก canonical เราต้องเลือกหน้าที่ต้องการให้แสดงโดยเครื่องมือค้นหาก่อนและเพิ่มบรรทัดต่อไปไปยังโค้ด HTML ในส่วน </head> (มาดูตัวอย่าง canonical บนหน้าสินค้าบนเว็บไซต์ Zalando)
<link rel="canonical" ahref= "https://www.zalando.es/adidas-originals-stripe-circle-camiseta-estampada-white-ad121000k-a11.html"/> ตัวอย่าง หากบน URL หนึ่งเราแสดงรายละเอียดของสินค้าและบน URL อีกตัวเราแสดงรายละเอียดเดียวกันด้วยสีต่างกัน เราสามารถบอก Google ว่า URL ใดคือ canonical ที่เราต้องการแสดงให้ผู้ใช้
กลยุทธ์ #3: การใช้ไฟล์ robots.txt
ด้วยการแก้ไขไฟล์นี้เราสามารถบอก bot เครื่องมือค้นหาไม่ให้ crawl หน้าหรือส่วนเฉพาะของเว็บไซต์ ลองนึกภาพเรามีหน้าสินค้าต่อไปบนเว็บไซต์
https://www.mywebsite.com/category/product-page.html/
https://www.mywebsite.com/category/product-page1.html/ (เวอร์ชันที่มี duplicate content)
ด้วยคำสั่งต่อไปในไฟล์ robots.txt
- Disallow /product-page.1html/
เราสามารถป้องกันการเกิด duplicate content ได้ นอกจากนี้แน่นอน การตั้ง URL แรกเป็นเวอร์ชัน canonical
ผลกระทบของ duplicate content ต่อการจัดอันดับ SEO
หลังการเปิดตัวอัลกอริทึม Google Panda เวอร์ชันแรกในปี 2011 ที่ลงโทษ domain ที่มีthin content และ duplicate content Matt Cutts เผยแพร่วิดีโอในปี 2013 เกี่ยวกับวิธีที่ Google จัดการ duplicate content และผลกระทบเชิงลบที่อาจมีต่อตำแหน่งการจัดอันดับจากมุมมอง SEO
ข้อสรุปที่เราสามารถดึงจากวิดีโอของ Matt Cutts คือ แม้ว่าตาม Google 25-30% ของเว็บคือ duplicate content เครื่องมือค้นหาไม่ปฏิบัติต่อเป็น spam โดยตรงเว้นแต่เจตนาคือการสร้างหรือคัดลอกเนื้อหาในปริมาณมากอย่างทุจริตหรือบิดเบือนตำแหน่งในหน้าผลการค้นหาโดยตรงด้วย "black hat" tactics
สรุป การสร้างเนื้อหาประเภทนี้สามารถสร้างสัญญาณคุณภาพต่ำให้กับเครื่องมือค้นหาเช่น Google รวมถึงเป็นอุปสรรคในการรวมเมตริกลิงก์ (เช่น ความน่าเชื่อถือ ความเกี่ยวข้อง หรือความไว้วางใจ) ของเนื้อหา จากมุมมองลิงก์ภายนอก (backlink) ที่อาจลิงก์ไปยังเวอร์ชันต่างกันของเนื้อหานั้น
เครื่องมือตรวจจับ duplicate content
เมื่อพูดถึงการตรวจจับ duplicate content มีเครื่องมือนับไม่ถ้วนในตลาดที่สามารถทำให้งานนี้ง่ายขึ้น มาดูกัน
เครื่องมือตรวจจับ duplicate content บนเว็บไซต์ของเรา
- Ahrefs: ด้วย Ahrefs เราสามารถเห็นภายในฟังก์ชัน "site audit" และตราบใดที่เราเพิ่มโครงการสำหรับ SEO audit ว่าเว็บไซต์มี duplicate content หรือไม่ ในการทำเช่นนี้ เราจะไปที่แท็บ "duplicate content" เมื่ออยู่ที่นั่น เราจะแสดงกราฟที่เราสามารถระบุข้อผิดพลาดที่อาจต้องแก้ไข

มุมมองฟังก์ชัน "Duplicate Content" ของ Ahrefs
- Screaming Frog: ด้วย software crawler ที่รู้จักกันดีนี้ ก็เป็นไปได้ที่จะตรวจจับ duplicate content ในการทำเช่นนี้ เราต้องป้อน domain ที่จะ scrape และ export ข้อมูล "internal" เป็นรูปแบบ .csv เมื่ออยู่ใน spreadsheet คุณสามารถดู เรียงลำดับ และ filter หน้าใดที่มี title, meta description, header ฯลฯ ซ้ำ
เคล็ดลับ SEO Alive: ใช้กฎ conditional formatting ใน spreadsheet เพื่อตั้งค่า URL ที่คุณจะแก้ไขตามระดับ duplicate content ที่คุณมีและความสำคัญและความเกี่ยวข้องของแต่ละหน้า
- Safecont: เครื่องมือนี้น่าสนใจอย่างแท้จริงเนื่องจากมุ่งเน้นเฉพาะการวิเคราะห์เนื้อหาและใช้ "machine learning" เพื่อตรวจจับและค้นหาคลัสเตอร์และความคล้ายคลึงของเนื้อหา ค่อนข้างครอบคลุม และการใช้สามารถนำประโยชน์มากให้เราหากเราต้องการตรวจจับ duplicate content บนเว็บไซต์

มุมมองฟังก์ชัน "Similarity" ของ Safecont
เครื่องมือตรวจจับ duplicate content จากเว็บไซต์อื่น
- Copyscape: หากเราต้องการรู้ว่าเนื้อหาซ้ำกับเว็บไซต์อื่นหรือไม่ Copyscape เป็นเครื่องมือค้นหาที่เชี่ยวชาญในการตรวจจับหน้าเว็บที่ลอกเนื้อหา ในเครื่องมือค้นหานี้ คุณเพียงป้อน URL ที่เนื้อหาที่คุณต้องการตรวจสอบโฮสต์ และเครื่องมือคืนหน้าที่แชร์เนื้อหานั้น เรียงจากระดับสูงสุดไปต่ำสุด
- Plagium: เครื่องมืออีกตัวคล้าย Copyscape มาก ความแตกต่างคือเราต้องป้อนข้อความที่จะตรวจสอบแทน URL ควรสังเกตว่ามีเวอร์ชันชำระเงิน ดังนั้นเวอร์ชัน "ฟรี" มีขีดจำกัดสูงสุด 5,000 ตัวอักษรในการตรวจสอบ
บทสรุป
ที่ SEO Alive เราเป็นหน่วยงาน "White Hat SEO" 100% ดังนั้นคำแนะนำของเราในตอนท้ายบทความคือหลีกเลี่ยง duplicate content ตลอดเวลา หากคุณตรวจพบเนื้อหาประเภทนี้บนเว็บไซต์ พึ่งกลยุทธ์และเคล็ดลับทั้งหมดที่เราให้ จำไว้: Google ชอบเนื้อหาต้นฉบับคุณภาพสูง
แล้วคุณ มีประสบการณ์ที่ไม่ดีกับ duplicate content หรือถูกลงโทษเพราะมันหรือไม่ คุณแก้ไขอย่างไร เล่าให้เราฟังในกล่องความคิดเห็นหากต้องการ เรายินดีจะตอบ พบกันใหม่
โดย: David Kaufmann

ในช่วง 10+ ปีที่ผ่านมา ผมหมกมุ่นกับ SEO อย่างสมบูรณ์ — และพูดตรง ๆ ก็ไม่อยากให้เป็นแบบอื่น
อาชีพของผมก้าวขึ้นไปอีกระดับเมื่อทำงานเป็นผู้เชี่ยวชาญ SEO อาวุโสที่ Chess.com — หนึ่งใน 100 เว็บไซต์ที่มีผู้เข้าชมมากที่สุดในอินเทอร์เน็ต การทำงานในระดับนี้สอนสิ่งที่ไม่มีหลักสูตรหรือประกาศนียบัตรใดสอนได้
จากประสบการณ์นี้ ผมก่อตั้ง SEO Alive — เอเจนซีสำหรับแบรนด์ที่จริงจังกับการเติบโตแบบออร์แกนิก และเพราะหาเครื่องมือที่จัดการทั้งโลกคลาสสิกและยุค AI ได้ดีไม่ได้ ผมจึงสร้าง SEOcrawl ขึ้น หากคุณกำลังมองหาพาร์ตเนอร์ SEO มากประสบการณ์ที่รักสาขานี้ — ยินดีพูดคุยครับ!
ค้นพบเนื้อหาเพิ่มเติมของผู้เขียนคนนี้

