Thẻ Canonical: là gì và cách sử dụng

Khi bạn sở hữu một hoặc nhiều website — dù tập trung vào sản phẩm, dịch vụ hay các loại trang khác nhau — việc nhiều trang trên nền tảng có nội dung tương tự hoặc gần như giống hệt nhau là chuyện bình thường, vì nhiều lý do khác nhau. Điều này đặc biệt phổ biến trong thương mại điện tử, nhưng chúng tôi cũng đã gặp trong công việc tư vấn về tag blog và các loại nội dung khác.
Dễ hình dung rằng bất kỳ website nào cũng có thể gặp vấn đề về nội dung trùng lặp. Google phạt các trang có nội dung trùng lặp, và điều này chắc chắn ảnh hưởng đến thứ hạng của họ trong kết quả tìm kiếm.
Vậy làm sao mà các website có thể có nội dung trùng lặp mà các webmaster của họ không phải lo lắng về việc bị phạt?
Câu trả lời nằm ở thứ được gọi là thuộc tính canonical hoặc liên kết canonical, mà chúng ta sẽ thảo luận chi tiết trong các phần tiếp theo: định nghĩa, mục đích, lợi ích, cách áp dụng, khi nào nên sử dụng, và những nhược điểm tiềm ẩn liên quan đến thuộc tính canonical khi nó được sử dụng để tránh các hình phạt do nội dung trùng lặp.
Liên kết canonical và thuộc tính canonical là gì?
Nói chung, một liên kết canonical là liên kết, thông qua một thẻ hoặc thuộc tính, được mô tả là liên kết "chính" hoặc "gốc" trên một website, cho phép bạn trỏ các URL của các trang có nội dung tương tự tới nó. Nhờ đó, liên kết được bot hoặc thuật toán tìm kiếm của Google nhìn nhận là phiên bản được ưu tiên hoặc có quyền ưu tiên.
Bằng cách này, nội dung có thể bị xem là trùng lặp có thể được xử lý đúng cách và tương đối dễ dàng. Nếu nó không được mô tả là canonical, điều này có thể ảnh hưởng đến thứ hạng của nền tảng và dẫn đến các hình phạt. Điều này có thể xảy ra ngay cả khi nội dung trùng lặp không được đặt một cách có chủ ý, mà xuất hiện một cách tự nhiên thông qua việc bán sản phẩm, cung cấp dịch vụ, các phần liên quan, v.v.
Từ góc độ kỹ thuật, một URL canonical là một liên kết được viết bằng mã HTML có chứa thẻ canonical, mang lại cho nó thuộc tính canonical. Điều này khiến nó được bot của Google xem là địa chỉ chính hoặc nguồn, như đã đề cập ở trên, ngăn các liên kết tương tự bị coi là lặp lại hoặc trùng lặp.
Dưới đây là một ví dụ cho thấy cách chúng ta khai báo một URL là canonical hoặc chính:
<link rel="canonical" href="/vi/">
Nguồn gốc của các liên kết canonical và lợi ích SEO của chúng
Việc sử dụng các liên kết canonical bắt đầu vào năm 2009, khi ba công ty tìm kiếm internet chính — Google, Bing và Yahoo — cùng giới thiệu thuộc tính canonical.
Một cách logic, liên kết canonical có tiềm năng lớn từ góc độ SEO, vì nó giúp chúng ta tránh các hình phạt đã đề cập và báo hiệu cho Google biết các URL quan trọng nhất của chúng ta.
Vì lý do đó, khi nói đến SEO của một trang web và việc áp dụng các chiến lược liên quan, việc đưa các liên kết canonical vào luôn là một phần của kế hoạch, đặc biệt là đối với một trang web lớn với một số lượng đáng kể các URL có thể giống hệt nhau.
Cách làm cho một URL trở thành canonical
Khi bạn có một website, hoặc đang trong quá trình tối ưu hóa nó, và bạn nhận thấy rằng có một số lượng lớn các URL tương tự, bạn nên bắt đầu một quá trình canonicalization. Việc này bao gồm chọn URL nào là tốt nhất và đặt thuộc tính canonical cho nó.
Đôi khi việc chọn URL tốt nhất rất đơn giản, vì nó có nội dung và cấu trúc kỹ thuật tối ưu nhất. Tuy nhiên, trong các trường hợp khác, việc lựa chọn có thể phức tạp hơn, đặc biệt khi các trang rất giống nhau và khó phân biệt.
Dù sao đi nữa, đây là một khuyến nghị đơn giản: luôn tốt hơn khi chọn một URL canonical khi bạn có các phần hoặc trang tương tự. Nếu không, có thể có những hậu quả tiêu cực đối với xếp hạng của bạn và các hình phạt có thể ảnh hưởng vĩnh viễn đến lưu lượng truy cập.
Để làm cho một URL trở thành canonical, bước đầu tiên là so sánh các URL có thể tương tự. Điều này phổ biến trên các trang thương mại điện tử, nơi người dùng tiếp cận các sản phẩm và danh sách dịch vụ theo nhiều cách khác nhau, có thể dẫn đến các URL như sau:
Vì cả hai URL đều có giá trị đối với trang web hoặc dẫn đến cùng một sản phẩm hoặc trang, điều bạn cần làm là chọn URL nào trong hai URL phù hợp hơn, như sau:
-
Chọn URL phù hợp nhất, dựa trên lượt truy cập, lưu lượng và độ uy tín.
-
Khi đã chọn được liên kết, hãy thêm thuộc tính canonical từ trang không canonical trỏ đến trang canonical. Nó sẽ trông như thế này:
<link rel="canonical" href="https://example.com/wordpress/seo-plugin/">
Điều chúng ta đạt được với việc này là cho Google biết URL nào là URL được canonical hóa (URL mà chúng ta xem là bản sao của bản gốc) và URL nào là URL canonical, tức là bản gốc. Liên kết này được đặt trên URL "bản sao" và trỏ đến URL gốc.
Nói cách khác, nó tuân theo sơ đồ này:

Khi nào nên sử dụng URL canonical
Khi bạn có các website có nhiều trang hoặc phần như sản phẩm, dịch vụ và các thông tin và bài đăng khác, rất có khả năng một số trang và URL đó sẽ rất giống nhau, điều này làm cho việc sử dụng URL canonical rất được khuyến nghị.
Tuy nhiên, trong những trường hợp đó bạn cũng có thể sử dụng chuyển hướng 301 thực sự thay vì các thẻ canonical. Điều này đặc biệt hữu ích khi các chuyển hướng sẽ vĩnh viễn và có một cuộc di chuyển trang web. Tuy nhiên, trong các trường hợp có vấn đề kỹ thuật hoặc hình phạt, đặt các thẻ canonical luôn là tùy chọn được khuyến nghị tiếp theo.
Thậm chí có thể sử dụng các thẻ canonical trên các URL từ các trang web khác nhau, chẳng hạn như nội dung được tái xuất bản mà không sửa đổi trên các nền tảng khác, với sự cho phép thích hợp, luôn trỏ đến bản gốc để tránh các hình phạt.
Lưu ý quan trọng về rel=canonical
Chỉ vì chúng ta đã giữ điều này cho đến cuối không có nghĩa là nó kém quan trọng. Chúng ta phải rõ ràng rằng thuộc tính canonical là một GỢI Ý cho Google, không phải là một chỉ thị. Điều này có nghĩa là Google có thể bỏ qua nó nếu các tín hiệu chúng ta gửi trên phần còn lại của trang web mâu thuẫn với cách chúng ta đã định nghĩa nó.
Nói cách khác, nếu chúng ta đặt một canonical từ URL A đến URL B nhưng nội bộ tất cả các liên kết đều trỏ đến A, và các liên kết bên ngoài cũng trỏ đến A, Google có thể bỏ qua canonical đó và xử lý A là URL tốt. B khi đó sẽ là bản sao của A và có thể bị phạt.
Để tìm ra URL nào Google xem là bản gốc và URL nào là canonical, chúng ta phải vào Search Console, thêm URL vào trình kiểm tra và xem lại thông tin được cung cấp bởi Google Search Console.
Và ở đó chúng ta nhận được dữ liệu sau:

Các lỗi thường gặp với URL canonical
Có nhiều vấn đề và lỗi thường gặp liên quan đến URL canonical, trở nên phổ biến và đặc biệt xuất hiện khi công cụ này được sử dụng sai cách, ví dụ:
-
Bạn không nên canonical hóa một kho lưu trữ phân trang đến Trang 1. Tương tự, thẻ canonical của một trang nên trỏ đến chính trang đó, ví dụ: từ Trang 2 đến Trang 2, nếu không các công cụ tìm kiếm có thể gặp khó khăn trong việc lập chỉ mục các kho lưu trữ trang sâu hơn.
-
Bạn phải làm cho các URL canonical độc quyền và duy nhất, ngay cả khi điều đó có nghĩa là chuyển đổi giao thức từ HTTP sang HTTPS.
-
Bạn phải dựa thẻ canonical trên URL được yêu cầu, không sử dụng các biến và theo cách trực tiếp.
-
Khi một trang có nhiều URL canonical liên quan, có thể phản tác dụng và không thể đoán trước. Đừng quên rằng Google phải hiểu trang web của chúng ta một cách nhanh chóng và rõ ràng, vì vậy hãy làm cho nó dễ dàng.
-
Một lỗi quan trọng khác có thể xuất phát từ việc sử dụng thuộc tính canonical trong body thay vì trong /head hoặc header. Google khuyến nghị trong các thông báo chính thức của mình rằng nên sử dụng thuộc tính trong head càng sớm càng tốt, để tránh các vấn đề khi phân tích tất cả nội dung, vì nó có thể không được phát hiện.
-
Sử dụng noindex và rel=canonical cùng nhau. John Mueller đã đặc biệt đề cập đến điều này trong một trong nhiều buổi hangout của mình, giải thích rằng cả hai tín hiệu đều mâu thuẫn và sẽ làm Google bối rối, Google sẽ ưu tiên thuộc tính canonical hơn noindex. Vì vậy, chúng ta KHÔNG BAO GIỜ nên sử dụng chúng cùng nhau.
-
Trỏ các thuộc tính canonical đến các trang 404 hoặc 30x. Hãy nghĩ về điều đó một chút: nếu chúng ta thêm thuộc tính vào URL A, trỏ đến B, mà trả về lỗi hoặc thực hiện chuyển hướng, chúng ta không phải đang gửi tín hiệu sai cho Google sao? Chúng ta đang nói với Google rằng URL "gốc" là một trang lỗi hoặc một chuyển hướng… điều đó không có ý nghĩa.
Cách sử dụng nâng cao của thuộc tính canonical
Thuộc tính canonical có thể có các chức năng và cách sử dụng nâng cao khác, chẳng hạn như:
- Liên kết canonical trong header HTTP: loại header này có thể rất hữu ích khi nói đến canonical hóa các tài liệu PDF, vì chúng không phải là HTML, vì vậy chúng ta phải chọn tùy chọn này nếu muốn canonical hóa chúng. Nó sẽ trông như thế này:
Link: <http://www.example.com/downloads/seoguide.pdf>; rel="canonical"
-
Sử dụng canonical trên các trang không quá tương tự: thực tế có thể sử dụng các thẻ canonical trên các trang không thực sự giống nhau, thậm chí khá khác nhau. Mặc dù điều này có thể giúp tổng thể uy tín của trang web, nhưng không được khuyến nghị, vì Google có thể phát hiện việc lạm dụng canonical, phạt trang web và sau đó bỏ qua các URL canonical thực sự của nó.
-
Sử dụng thuộc tính canonical cùng với Hreflang: bạn có thể sử dụng các chiến lược liên quan đến Hreflang đồng thời với thẻ canonical, với kết quả tốt nếu được áp dụng đúng cách. Tuy nhiên, bạn phải rõ ràng rằng khi sử dụng Hreflang, việc triển khai ngôn ngữ của các canonical phải hoàn hảo, luôn trỏ đến chính chúng để tránh các vấn đề không thể đoán trước hoặc xung đột có thể gây hại nhiều hơn lợi cho cả hai chiến lược.
Bạn vẫn còn câu hỏi nào về thẻ SEO hấp dẫn này không? Chúng tôi rất vui được giúp bạn!
Tác giả: David Kaufmann

Tôi đã dành hơn 10 năm qua hoàn toàn đắm chìm trong SEO — và thành thật mà nói, tôi không muốn điều gì khác thay thế.
Sự nghiệp của tôi bước sang một tầm cao mới khi tôi làm việc với vai trò chuyên gia SEO cấp cao tại Chess.com — một trong 100 website được truy cập nhiều nhất trên toàn bộ internet. Vận hành ở quy mô đó, trên hàng triệu trang, hàng chục ngôn ngữ và trong một trong những SERPs cạnh tranh khốc liệt nhất, đã dạy tôi những điều mà không khóa học hay chứng chỉ nào có thể mang lại. Trải nghiệm đó đã thay đổi cách tôi nhìn nhận về SEO thực sự xuất sắc — và trở thành nền tảng cho mọi thứ tôi xây dựng từ đó đến nay.
Từ kinh nghiệm ấy, tôi đã sáng lập SEO Alive — một agency dành cho những thương hiệu thực sự nghiêm túc với tăng trưởng organic. Chúng tôi không ở đây để bán dashboards và báo cáo hàng tháng. Chúng tôi ở đây để xây dựng những chiến lược thực sự tạo ra chuyển biến, kết hợp tinh hoa của SEO truyền thống với thế giới mới đầy thú vị của Generative Engine Optimization (GEO) — đảm bảo thương hiệu của bạn không chỉ xuất hiện trong các liên kết xanh của Google, mà còn hiện diện ngay trong những câu trả lời do AI tạo ra mà ChatGPT, Perplexity và Google AI Overviews đang cung cấp cho hàng triệu người mỗi ngày.
Và bởi vì tôi không thể tìm được một công cụ xử lý tốt cả hai thế giới đó, tôi đã tự xây dựng một công cụ — SEOcrawl, một nền tảng SEO intelligence cấp doanh nghiệp tích hợp rankings, kiểm tra kỹ thuật, giám sát backlinks, tình trạng crawl và theo dõi hiển thị thương hiệu trên AI, tất cả trong một nơi. Đó chính là nền tảng mà tôi luôn ước có.
Khám phá thêm nội dung của tác giả này

