Cách phát hiện và khắc phục nội dung trùng lặp?

Nếu bạn làm việc trong lĩnh vực SEO, có lẽ bạn đã từng gặp phải tình huống phải xử lý một trong những vấn đề phổ biến nhất ảnh hưởng đến xếp hạng công cụ tìm kiếm và có thể dẫn đến hình phạt: nội dung trùng lặp. Các công cụ tìm kiếm như Google, Bing hay Yahoo có mục tiêu chính là hiển thị thông tin liên quan nhất cho ý định tìm kiếm của người dùng. Để làm điều này, chúng xếp hạng theo thứ tự giảm dần, ưu ái nội dung gốc, chất lượng cao và phạt nội dung đã được sao chép, trùng lặp, không liên quan hoặc đã bị thao túng để xếp hạng cao hơn trên các trang kết quả.
Trong bài viết này, chúng tôi sẽ giải thích nội dung trùng lặp là gì, làm thế nào để phát hiện và khắc phục nó, tác động của nó đối với SEO và các công cụ chúng ta có thể sử dụng để xử lý nó. Bạn có muốn tham gia không? Bắt đầu thôi!
Nội dung trùng lặp là gì?
Như chúng tôi đã đề cập, các công cụ tìm kiếm như Google phạt các trang có nội dung trùng lặp, được hiểu là hai trang có URL khác nhau nhưng cùng nội dung. Vì vậy, càng nhiều càng tốt, hãy tránh sao chép nội dung từ một trang web khác và dán nó trên trang của bạn (bạn sẽ tránh được nhiều rắc rối với Google và các hành động pháp lý tiềm ẩn từ chủ sở hữu của các trang web mà bạn đã lấy nội dung từ đó!).
Mẹo SEO Alive: Là một agency chuyên về tối ưu hóa công cụ tìm kiếm, chúng tôi rất khuyên bạn nên chăm sóc nội dung trên trang web của mình và tránh thực hành xấu này. Hãy kiên nhẫn và bền bỉ, viết nội dung gốc và kết quả sẽ đến sớm hơn là muộn. Về vấn đề này, Google rất rõ ràng về quan điểm của mình, như chúng ta có thể thấy trong tài liệu chính thức về nội dung trùng lặp, vì vậy chúng ta phải rất cẩn thận với nội dung mình viết.
Trong xếp hạng SEO, chúng ta có thể phân biệt hai loại nội dung trùng lặp: nội dung trùng lặp nội bộ và bên ngoài.
Nội dung trùng lặp nội bộ
Loại nội dung trùng lặp này thường xảy ra do triển khai kém các tham số URL hoặc quản lý kém các taxonomy trong danh mục và thẻ. Các nguyên nhân có thể tạo ra nội dung trùng lặp nội bộ là:
- Lỗi trong việc tạo danh mục và thẻ: Lỗi này phổ biến trong các blog có danh sách lớn các bài viết và các danh mục, thẻ được tạo mà không có thứ tự hoặc logic. Hãy xem một ví dụ:
Hãy tưởng tượng chúng ta có một blog marketing số với nhiều danh mục:
https://myblogdigital.com/category-a/topic/
https://myblogdigital.com/category-b/topic/
https://myblogdigital.com/category-c/topic/ Để tránh nội dung trùng lặp, cần phải đánh dấu cái nào là chính và để hai cái còn lại canonical đến URL chính.
- Domain "Non-www" vs "www" và "http" vs "https": Đây là một lỗi khác chúng ta phải chú ý. Có khả năng nếu chúng ta không chỉ định cho các công cụ tìm kiếm biết domain canonical là gì, chúng có thể truy cập các phiên bản khác và tạo ra nội dung trùng lặp. Vì vậy, từ SEO Alive, chúng tôi khuyên bạn nên thiết lập domain canonical của mình và thiết lập chuyển hướng 301 đến phiên bản mà bạn muốn là phiên bản ưu tiên.
- URL có tham số: Lỗi này phổ biến trên các trang web ecommerce nơi URL với tham số cho phép lọc để cung cấp thông tin cho người dùng. Giả sử chúng ta có một trang bán đồng hồ và URL sau:
https://www.mywatchstore.com/watches/garmin?color=black Trang này sẽ hiển thị tất cả đồng hồ mẫu "Garmin" màu đen.
Khả năng đặt bộ lọc trên các trang có thể là một bất tiện nghiêm trọng nếu không được quản lý đúng cách, vì các công cụ tìm kiếm có thể hiển thị nhiều tổ hợp URL:
https://www.mywatchstore.com/watches/garmin?color=black&type=sport
https://www.mywatchstore.com/watches/garmin?type=sport&color=black Vì vậy, từ SEO Alive, chúng tôi khuyên bạn nên đặt phiên bản canonical về trang không lọc để các URL có tham số khác giữ nguyên độ uy tín trang (URL Ratio).
Nội dung trùng lặp bên ngoài
Nội dung trùng lặp bên ngoài đề cập đến bất kỳ nội dung nào được trích xuất, sao chép toàn bộ hoặc một phần từ một hoặc nhiều trang web thuộc sở hữu của các webmaster hoặc quản trị viên khác nhau.
Đây là một thực hành được coi là spam dưới mắt các công cụ tìm kiếm; vì vậy, như đã đề cập ở đầu bài viết, nên tránh bằng mọi giá.
Một nguyên nhân khác của nội dung trùng lặp bên ngoài có thể là do các chiến lược syndication, trong đó các trang web gửi lưu lượng truy cập đến các trang web khác để thao túng các công cụ tìm kiếm. Thuật toán của Google ngày nay đủ thông minh để phát hiện loại thực hành này.
Làm thế nào để kiểm tra xem trang web của chúng ta có nội dung trùng lặp không?
Biết cách phát hiện nội dung trùng lặp là cực kỳ quan trọng trong chiến lược nội dung của một trang web. Nếu chúng ta không kiểm soát yếu tố này, chúng ta có nguy cơ các trang của mình dần dần tụt khỏi các kết quả hàng đầu trên Google, vì Google liên tục tinh chỉnh SERPs để tìm kiếm nội dung gốc, chất lượng cao. Đó là lý do tại sao chúng tôi sẽ trình bày một ví dụ về cách chúng ta có thể phát hiện nội dung trên trang web của mình và đưa ra một số chiến lược để tránh loại nội dung này.
Giả sử chúng ta có một cửa hàng trực tuyến (ecommerce) nơi chúng ta có phiên bản có thể in được của mỗi trang sản phẩm. Điều này được coi là trùng lặp vì có hai "phiên bản" của cùng một nội dung dưới các URL khác nhau:
Trang chi tiết sản phẩm: https://mywebsite.com/product3560
Trang phiên bản có thể in: https://mywebsite.com/product3560_print Để tránh loại nội dung trùng lặp này, chúng ta có thể áp dụng các chiến lược sau:
Chiến lược #1: Sử dụng chuyển hướng 301
Nếu chúng ta đã tái cấu trúc trang web, chúng ta có thể thiết lập chuyển hướng 301 (chuyển hướng vĩnh viễn) thông qua các plugin SEO có trong các kho lưu trữ khác nhau của các hệ thống quản lý nội dung (CMS), hoặc thông qua tệp .htaccess, để chuyển hướng thông minh người dùng, các bot của công cụ tìm kiếm và các công cụ khác có chức năng crawler.
Chiến lược #2: Sử dụng thẻ canonical
Thẻ rel="canonical" được sử dụng để cho công cụ tìm kiếm biết đâu là trang gốc (phiên bản canonical) và đâu là các trang sao chép. Bằng cách này, spider của công cụ tìm kiếm sẽ tập trung crawl budget lập chỉ mục của mình vào trang được đánh dấu bằng thẻ meta này.
Để sử dụng thẻ canonical, trước tiên chúng ta phải chọn trang nào chúng ta muốn được hiển thị bởi các công cụ tìm kiếm và thêm dòng sau vào mã HTML trong phần </head> (hãy xem ví dụ về canonical trên trang sản phẩm trên trang web Zalando):
<link rel="canonical" ahref= "https://www.zalando.es/adidas-originals-stripe-circle-camiseta-estampada-white-ad121000k-a11.html"/> Ví dụ, nếu trên một URL chúng ta hiển thị chi tiết của một sản phẩm và trên một URL khác chúng ta hiển thị cùng các chi tiết với màu sắc khác nhau, chúng ta có thể cho Google biết URL canonical mà chúng ta muốn hiển thị cho người dùng.
Chiến lược #3: Sử dụng tệp robots.txt
Bằng cách chỉnh sửa tệp này, chúng ta có thể cho các bot công cụ tìm kiếm biết không được crawl một số trang hoặc phần nhất định của trang web. Hãy tưởng tượng chúng ta có các trang sản phẩm sau trên trang web:
https://www.mywebsite.com/category/product-page.html/
https://www.mywebsite.com/category/product-page1.html/ (phiên bản với nội dung trùng lặp)
Với chỉ thị sau trong tệp robots.txt:
- Disallow /product-page.1html/
Chúng ta có thể ngăn chặn nội dung trùng lặp xảy ra, ngoài ra, tất nhiên, đặt URL đầu tiên làm phiên bản canonical.
Tác động của nội dung trùng lặp đối với xếp hạng SEO
Sau khi phát hành phiên bản đầu tiên của thuật toán Google Panda vào năm 2011, vốn phạt các domain có thin content và nội dung trùng lặp, Matt Cutts đã công bố một video vào năm 2013 về cách Google xử lý nội dung trùng lặp và những tác động tiêu cực mà nó có thể có đối với vị trí xếp hạng từ góc nhìn SEO:
Các kết luận chúng ta có thể rút ra từ video của Matt Cutts là, mặc dù theo Google 25-30% web là nội dung trùng lặp, công cụ tìm kiếm không trực tiếp coi đó là spam trừ khi mục đích là gian lận tạo hoặc sao chép nội dung với số lượng lớn hoặc trực tiếp thao túng các vị trí trong các trang kết quả tìm kiếm bằng các chiến thuật "black hat".
Tóm lại, việc tạo loại nội dung này có thể tạo ra tín hiệu chất lượng kém đối với các công cụ tìm kiếm như Google, cũng như đặt ra rào cản để củng cố các chỉ số liên kết (như độ uy tín, mức độ liên quan hoặc độ tin cậy) của nội dung, từ góc nhìn của các liên kết bên ngoài (backlinks) có thể liên kết đến các phiên bản khác nhau của nội dung đó.
Công cụ phát hiện nội dung trùng lặp
Khi nói đến việc phát hiện nội dung trùng lặp, có vô số công cụ trên thị trường có thể giúp công việc này dễ dàng hơn. Hãy xem qua chúng nhé!
Công cụ phát hiện nội dung trùng lặp trên trang web của chúng ta
- Ahrefs: Với Ahrefs, chúng ta có thể thấy, trong tính năng "site audit" và miễn là chúng ta đã thêm một dự án để kiểm tra SEO, liệu trang web của chúng ta có nội dung trùng lặp hay không. Để làm điều này, chúng ta sẽ vào tab "duplicate content". Một khi đã ở đó, chúng ta sẽ thấy một biểu đồ nơi chúng ta có thể xác định các lỗi có thể cần phải sửa:

Cái nhìn về tính năng "Duplicate Content" của Ahrefs
- Screaming Frog: Với crawler phần mềm nổi tiếng này, cũng có thể phát hiện nội dung trùng lặp. Để làm điều này, chúng ta sẽ phải nhập một domain để scrape và xuất dữ liệu "internal" sang định dạng .csv. Khi đã ở trong bảng tính, bạn có thể xem, sắp xếp và lọc các trang nào có tiêu đề, mô tả meta, tiêu đề header, v.v. trùng lặp.
Mẹo SEO Alive: Sử dụng quy tắc định dạng có điều kiện trong bảng tính để đặt URL nào bạn sẽ sửa dựa trên mức độ nội dung trùng lặp bạn có và tầm quan trọng cùng mức độ liên quan của mỗi trang.
- Safecont: Công cụ này thực sự thú vị vì nó tập trung độc quyền vào phân tích nội dung và sử dụng "machine learning" để phát hiện và tìm các cluster và sự tương đồng nội dung. Nó khá toàn diện và sử dụng nó có thể mang lại nhiều lợi ích nếu chúng ta muốn phát hiện nội dung trùng lặp trên trang web của mình.

Cái nhìn về tính năng "Similarity" của Safecont
Công cụ phát hiện nội dung trùng lặp từ một trang web khác
- Copyscape: Nếu chúng ta muốn biết liệu một mảnh nội dung có bị trùng lặp so với một trang web khác hay không, Copyscape là một công cụ tìm kiếm chuyên phát hiện các trang web đạo nội dung. Trong công cụ tìm kiếm này, bạn chỉ cần nhập URL nơi nội dung bạn muốn kiểm tra được lưu trữ và công cụ sẽ trả về các trang chia sẻ nội dung đó, được sắp xếp từ mức độ cao nhất đến thấp nhất.
- Plagium: Đây là một công cụ khác rất tương tự với Copyscape, với điểm khác biệt là chúng ta phải nhập văn bản để kiểm tra thay vì URL. Cần lưu ý rằng nó có phiên bản trả phí, vì vậy phiên bản "miễn phí" có giới hạn lên đến 5.000 ký tự để kiểm tra.
Kết luận
Tại SEO Alive, chúng tôi là một agency 100% "White Hat SEO", vì vậy khuyến nghị của chúng tôi ở cuối bài viết là tránh nội dung trùng lặp mọi lúc. Nếu bạn phát hiện loại nội dung này trên trang web của mình, hãy dựa vào tất cả các chiến lược và mẹo chúng tôi đã cung cấp. Hãy nhớ: Google thích nội dung gốc, chất lượng cao!
Còn bạn, bạn đã từng có trải nghiệm tồi với nội dung trùng lặp hay đã bị phạt vì nó chưa? Bạn đã giải quyết nó như thế nào? Hãy kể cho chúng tôi nếu bạn muốn, trong khung bình luận! Chúng tôi sẽ rất vui khi trả lời. Hẹn gặp lần sau!
Tác giả: David Kaufmann

Tôi đã dành hơn 10 năm qua hoàn toàn đắm chìm trong SEO — và thành thật mà nói, tôi không muốn điều gì khác thay thế.
Sự nghiệp của tôi bước sang một tầm cao mới khi tôi làm việc với vai trò chuyên gia SEO cấp cao tại Chess.com — một trong 100 website được truy cập nhiều nhất trên toàn bộ internet. Vận hành ở quy mô đó, trên hàng triệu trang, hàng chục ngôn ngữ và trong một trong những SERPs cạnh tranh khốc liệt nhất, đã dạy tôi những điều mà không khóa học hay chứng chỉ nào có thể mang lại. Trải nghiệm đó đã thay đổi cách tôi nhìn nhận về SEO thực sự xuất sắc — và trở thành nền tảng cho mọi thứ tôi xây dựng từ đó đến nay.
Từ kinh nghiệm ấy, tôi đã sáng lập SEO Alive — một agency dành cho những thương hiệu thực sự nghiêm túc với tăng trưởng organic. Chúng tôi không ở đây để bán dashboards và báo cáo hàng tháng. Chúng tôi ở đây để xây dựng những chiến lược thực sự tạo ra chuyển biến, kết hợp tinh hoa của SEO truyền thống với thế giới mới đầy thú vị của Generative Engine Optimization (GEO) — đảm bảo thương hiệu của bạn không chỉ xuất hiện trong các liên kết xanh của Google, mà còn hiện diện ngay trong những câu trả lời do AI tạo ra mà ChatGPT, Perplexity và Google AI Overviews đang cung cấp cho hàng triệu người mỗi ngày.
Và bởi vì tôi không thể tìm được một công cụ xử lý tốt cả hai thế giới đó, tôi đã tự xây dựng một công cụ — SEOcrawl, một nền tảng SEO intelligence cấp doanh nghiệp tích hợp rankings, kiểm tra kỹ thuật, giám sát backlinks, tình trạng crawl và theo dõi hiển thị thương hiệu trên AI, tất cả trong một nơi. Đó chính là nền tảng mà tôi luôn ước có.
Khám phá thêm nội dung của tác giả này

