Trang mồ côi: Chúng là gì và cách tìm chúng

Để một website hoạt động và có thể hiển thị các trang nó chứa để người dùng có thể xem chúng, nó phải có một cấu trúc liên kết phù hợp giúp, trước hết, người dùng tiếp cận các trang đó chỉ với một cú nhấp chuột, và cũng đảm bảo chúng được thu thập bởi các bot và spider của Google để chúng xuất hiện trong kết quả tìm kiếm. Khi một trang không được tích hợp vào cấu trúc liên kết, nó được gọi là "trang mồ côi".
Nhưng, trang mồ côi chính xác là gì? Chúng ta sẽ giải quyết thuật ngữ này một cách chi tiết, cùng với những hậu quả nó có thể gây ra từ góc độ SEO, tại sao nó xảy ra, cách tìm các loại trang này và cách giải quyết các vấn đề chúng có thể gây ra. Hãy bắt đầu nào!
Trang mồ côi là gì?
Cụ thể, một trang mồ côi là một trang trên một website mà, mặc dù có thể được Google hoặc một công cụ tìm kiếm khác lập chỉ mục hoặc không, không kết nối hoặc liên kết với cấu trúc trang của nền tảng, trở nên hoàn toàn bị cô lập.
Bằng cách này, trang đó giống như đang "trôi nổi" trên trang web mà không thể tiếp cận được bởi người dùng có thể truy cập nó, hoặc bởi các bot của Google để được hiển thị trong kết quả tìm kiếm, ngay cả khi nó được lập chỉ mục. Ngay cả khi một trang được đại diện trong sitemap XML với URL tương ứng, không có gì đảm bảo rằng các trang mồ côi không tồn tại, vì vì bất kỳ lý do gì hoặc lỗi của con người, nó không thể được tiếp cận bởi người dùng hoặc bởi các crawler của công cụ tìm kiếm.

Ví dụ, có hai cách các trang trên một website được khám phá:
-
thông qua crawler tìm thấy tất cả các trang bằng cách theo dõi các liên kết giữa chúng, và
-
thông qua danh sách các URL trong sitemap XML.
Khi một trang mồ côi bị cô lập tồn tại, nó như thể nó vô hình, ngay cả khi nó nằm trong sitemap, vì vì nó không có liên kết trỏ đến nó, nó không được tìm thấy.
Điều này mang lại một loạt các vấn đề liên quan đến:
-
lưu lượng truy cập
-
mất tiềm năng
-
các vấn đề SEO
-
khả năng hiển thị
-
thẩm quyền, và
-
các hình phạt có thể
...trong số những vấn đề khác mà chúng ta sẽ thảo luận chi tiết sau. Hiện tại, điều rõ ràng là các trang mồ côi tiềm năng, dù một trang web lớn hay nhỏ, phải được sửa chữa, điều này khả thi và là một thực hành bảo trì phổ biến.
Tại sao xảy ra tình trạng một website có các trang mồ côi?
Có một số lý do tại sao một website có các trang mồ côi, ngay cả khi chủ sở hữu hoặc nhà phát triển không nhận thức được hoặc biết về nó tại một thời điểm nào đó. Thường xuyên, các loại trang này, không mong muốn trên một nền tảng web, là do các thay đổi được thực hiện một cách kém, thường được gây ra bởi lỗi của con người.
Dưới đây, chúng tôi cho bạn xem các kịch bản chính trong đó các trang mồ côi được tạo ra hoặc gây ra trên một website:
-
Đôi khi, liên kết nội bộ của các trang của một website bị thay đổi, khiến một số URL bị xóa vì chúng không còn cần thiết, đã cũ hoặc do tối ưu hóa trang web. Nhiều khi, ngay cả khi các liên kết bị xóa, các trang vẫn còn trên trang web trôi nổi mà không bị xóa hoàn toàn.
-
Các trang thử nghiệm A/B mà người dùng cuối không tiếp xúc, mà sau khi được sử dụng trong việc phát triển trang web, vẫn ở đó mà không bị xóa.
-
Khi một landing page được tạo tạm thời để thu hút người dùng trở thành khách hàng của một trang, chẳng hạn như trong các giai đoạn khuyến mãi, Giáng sinh hoặc khác, và sau khi thời gian đó qua, trang bị xóa, nhưng URL được lập chỉ mục vẫn còn.
-
Khi một danh mục bị xóa khỏi menu trang, nhưng không được chuyển hướng đúng cách đến một danh mục khác được tạo thay thế, để lại trang còn lại không có liên kết trên nền tảng.
-
Trong một cuộc di chuyển trang, nhiều trang mồ côi thường được tạo ra thay đổi định dạng, URL và tham số, nhưng không bị xóa và trở nên ngắt kết nối và bị cô lập khỏi trang web.
-
Khi một mẫu được sử dụng để xây dựng một website, và các trang mẫu mặc định bị bỏ lại sau đó bị quên đi và không bị xóa.
Mặt khác, có hai nguyên nhân phổ biến của các trang mồ côi phải được giải quyết và xử lý ngay lập tức; đây cơ bản là các trang trùng lặp nên chuyển hướng tự động một cách nhất quán đến một URL duy nhất. Cụ thể, chúng ta đang nói về việc sử dụng nhất quán HTTPS và HTTP trên các trang canonical và non-canonical, cũng như việc sử dụng dấu gạch chéo cuối cùng.
Nếu không, có khả năng một số phiên bản của trang không được liên kết và do đó, trở thành trang mồ côi. Trong trường hợp này, việc chúng là trang mồ côi không phải là vấn đề chính mà là việc chúng là trang trùng lặp và sẽ gây ra các vấn đề về hình phạt hoặc mất lập chỉ mục, trong số những vấn đề khác, mà trong Google được dịch là nội dung sao chép hoặc kém chất lượng. Chúng tôi sẽ giải quyết vấn đề này sau trong phần về việc giải quyết các trang mồ côi.
Các trang mồ côi có lợi hay có hại cho SEO?
Các trang mồ côi đại diện cho một vấn đề từ góc độ SEO, cũng như đối với khả năng hiển thị, thẩm quyền, mất nội dung và lưu lượng, tùy thuộc vào số lượng chúng tồn tại trên một nền tảng. Tức là, một nền tảng có một, hai hoặc một vài trang mồ côi có thể không gây ra vấn đề nào, nhưng khi chúng chiếm một tỷ lệ lớn của trang web, đó là nơi các vấn đề bắt đầu.
Tối ưu hóa một trang web để nó không có bất kỳ trang mồ côi nào là quan trọng đối với SEO và trong các khía cạnh khác, và không bao giờ có thể nói rằng chúng có lợi cho trang web; thay vào đó, chúng gây hại cho nó khi có quá nhiều.
Đầu tiên, các công cụ tìm kiếm không thể tìm thấy các trang mồ côi thông qua các liên kết, vì vậy các trang mồ côi thường không được lập chỉ mục và không bao giờ xuất hiện trong kết quả tìm kiếm, ảnh hưởng đến lưu lượng, khả năng hiển thị và tiềm năng của chúng, nhưng chúng tôi sẽ giải quyết vấn đề đó chi tiết hơn sau trong phần riêng của nó.
Các vấn đề chung gây ra bởi các trang mồ côi
Dưới đây là một số vấn đề chung gây ra bởi các trang mồ côi, đặc biệt khi chúng bao gồm một phần đáng kể của cấu trúc liên kết và URL của trang web:
-
Trải nghiệm người dùng: các trang mồ côi, không có vẻ gì như có thể, ảnh hưởng rất lớn đến trải nghiệm người dùng của một trang web, vì người dùng không thể tự nhiên truy cập một trang thông qua menu hoặc một liên kết quan tâm đưa họ đến những gì họ đang tìm kiếm, ngay cả khi trang tồn tại và có nội dung chất lượng.
-
Thẩm quyền: nếu các trang quan trọng trở thành trang mồ côi và mất liên kết với các URL khác trên trang web, tất cả thẩm quyền mà chúng có thể có bị lãng phí, và điều đó trực tiếp ảnh hưởng đến xếp hạng trong kết quả tìm kiếm Google, vì nó là một yếu tố SEO quan trọng trong cách công cụ tìm kiếm sắp xếp kết quả cho một từ khóa cụ thể.
-
Ngữ cảnh: liên kết nội bộ của một trang web cung cấp ngữ cảnh cho các crawler của Google để biết cách lập chỉ mục trang và đối với những tìm kiếm nào nó quan trọng và liên quan. Các trang mồ côi khiến trang web và chính các trang mất ngữ cảnh và ý nghĩa ngữ nghĩa, trong trường hợp chúng được lập chỉ mục.
Tuy nhiên, khi các trang mồ côi có mặt với số lượng lớn, tác động của chúng đáng chú ý hơn nhiều khi nói đến xếp hạng, lưu lượng và thu thập, vì vậy đây là những vấn đề phải được giải quyết riêng biệt và rộng rãi hơn.
Vấn đề về trang có khả năng hiển thị và lưu lượng truy cập thấp
Các trang mồ côi có ảnh hưởng tiêu cực đáng kể khi nói trực tiếp đến xếp hạng hoặc định vị của trang web và trang cụ thể bị ảnh hưởng, cũng như lưu lượng truy cập của nó. Và đó là vì, như đã đề cập trước đó, một trang mồ côi bị cô lập và trở nên vô hình, cả với người dùng không thể tự nhiên tìm thấy nó trên trang web thông qua một nút hoặc một cú nhấp chuột, và cũng với các crawler của Google hoặc của các công cụ tìm kiếm khác.
Điều này rõ ràng ảnh hưởng đến lưu lượng truy cập của trang web và trang, cũng như khả năng hiển thị của nó, bằng cách không nhận được nhiều người dùng và cũng do vị trí kém hoặc không tồn tại mà các trang mồ côi có trong kết quả tìm kiếm. Hậu quả là, người ta phải đối mặt với việc mất hoàn toàn tiềm năng cho trang web và trang, đặc biệt nếu nó bao gồm nội dung chất lượng về sản phẩm, dịch vụ và các chủ đề khác. Tác động đến lưu lượng truy cập và khả năng hiển thị cũng dẫn đến mất thẩm quyền và mức độ liên quan cho một trang web liên quan đến ngách hoặc ngành của nó so với các đối thủ cạnh tranh.
Vấn đề mất thu thập
Google với tư cách là một công cụ tìm kiếm lập chỉ mục các trang của một trang web theo những gì được biết đến là crawl budget hoặc Crawl Budget, có thể được mô tả là thời gian các crawler hoặc spider của công cụ tìm kiếm sẽ dành để tìm các trang để lập chỉ mục. Càng nhiều trang một trang web có, càng nhiều thời gian nó sẽ yêu cầu, tức là, càng nhiều crawl budget.
Đây là nơi việc tối ưu hóa cấu trúc, kiến trúc và các yếu tố khác của website phát huy tác dụng, chẳng hạn như các trang mồ côi. Nếu một trang web có các trang mồ côi không liên quan, nó sẽ tiêu thụ crawl budget như nhau, bị lãng phí và có thể khiến các trang có sức khỏe và nội dung tốt không được lập chỉ mục, ảnh hưởng đến kết quả tìm kiếm và lưu lượng. Nói tóm lại, các trang mồ côi đại diện cho một sự lãng phí tài nguyên mà Google không sẵn sàng chi tiêu.
Sự khác biệt giữa các trang mồ côi và các trang Dead End
Khi nói đến SEO, thuật ngữ trang mồ côi** có thể bị nhầm lẫn với thuật ngữ trang ngõ cụt hoặc "Dead End"**, vì chúng đại diện cho các vấn đề tương tự, nhưng chúng không giống nhau. Chúng tôi đã định nghĩa trước đây Trang mồ côi là gì, hãy chuyển sang ngõ cụt:
Một trang ngõ cụt là một trang không được liên kết với bất kỳ trang nào khác từ liên kết nội bộ của trang web, cũng như không liên kết với bất kỳ nền tảng web bên ngoài nào khác, tức là, một khi bạn truy cập nó, bạn không thể làm gì ngoại trừ đóng nó và rời đi.
Khi các crawler của một công cụ tìm kiếm như Google rơi vào một trang ngõ cụt, chúng không có nơi nào để đi, và từ đó xuất hiện tên của nó, vẽ một sự tương đồng với một con phố ngõ cụt.
Cách tìm các trang mồ côi trên trang web của bạn?
Để bắt đầu giải quyết các vấn đề liên quan đến các trang mồ côi hoặc Orphan Pages, điều đầu tiên chúng ta phải làm là tìm chúng, vì rõ ràng chúng không được hiển thị ngay từ cái nhìn đầu tiên với tư cách là người dùng của trang web hoặc là nhà phát triển. May mắn thay, các công cụ khác nhau như phần mềm SEO có thể được sử dụng để phân tích toàn bộ cấu trúc website của chúng ta một cách chi tiết, có được thông qua server log bức tranh hoàn chỉnh của tất cả chúng.
Nếu bạn cần một Phần mềm SEO mạnh mẽ giúp bạn không chỉ định vị các trang mồ côi mà còn thúc đẩy và cải thiện chiến lược SEO của bạn, đừng ngần ngại xem chương trình được phát triển nội bộ của SEO Alive!
Nhận biết các trang mồ côi với Screaming Frog
Như chúng tôi đã đề cập, có một số chương trình trên thị trường giúp bạn xác định các trang mồ côi này; chúng tôi sẽ tập trung vào việc giải thích một cách đơn giản cách thực hiện với một trong những chương trình nổi tiếng nhất, Screaming Frog.
Screaming Frog có hai chương trình khác nhau, chương trình được biết đến nhiều nhất với mọi người, thu thập toàn bộ website theo các liên kết nội bộ mà nó tìm thấy, và log analyser, phân tích server access log, tức là các bản ghi còn lại khi Googlebot (hoặc một user agent khác) vào để truy cập bất kỳ trang nào của chúng ta.
Với cái đầu tiên, chúng ta sẽ trích xuất một tệp liệt kê tổng số URL mà crawler tìm thấy khi điều hướng; nó sẽ là một tệp Excel mà chúng ta có thể tìm thấy trong phần báo cáo dưới "all inlinks":

Vâng, một khi chúng ta có tệp này, chúng ta lấy log từ server của chúng ta, thường sẽ là một tệp nén của các bản ghi nói trên, và chúng ta tải nó vào log analyser của Screaming Frog, để ở đây chúng ta sẽ có một bảng nơi tất cả các URL mà Googlebot đã truy cập trong khoảng thời gian chúng ta tải sẽ xuất hiện, dù chúng được liên kết hay không.
Bước cuối cùng sẽ là tải tệp Excel từ bước trước vào phần được kích hoạt của log analyser cho mục đích đó, và một tab mới sẽ được kích hoạt khi chúng ta làm như vậy với các tùy chọn sau:

-
Matched with URL data: Đây sẽ là tập hợp các URL được liên kết nội bộ và đã được Google truy cập.
-
Not in log file: Những URL được liên kết nhưng vì lý do nào đó không nhận được sự kiện (lượt truy cập) từ Google.
-
Not in URL data: Đây là nhóm chúng ta quan tâm trong trường hợp này; đây là các URL mà Google đang truy cập, để lại một bản ghi trong log, nhưng mà crawler không thể tìm thấy khi mô phỏng, vì chúng không được liên kết nội bộ, tức là, chúng là Trang mồ côi mà chúng ta đang tìm kiếm.
Từ nhóm thứ ba này, chúng ta sẽ trích xuất danh sách các trang mà chúng ta sẽ phân loại là mồ côi, với những trang trả về mã trạng thái 200 về cơ bản là đối tượng của tối ưu hóa của chúng ta.
Cách giải quyết vấn đề trang mồ côi?
Nói chung và thủ công, có bốn điều có thể được thực hiện nếu bạn có URL không được tích hợp vào liên kết nội bộ, nơi một số quyết định phải được đưa ra:
-
Đầu tiên, nếu sau khi di chuyển có các trang mồ côi, như có khả năng sẽ có, và chúng được xem xét và nhiều trong số chúng có ít nội dung liên quan, không có hoặc trùng lặp, điều tốt nhất nên làm là xóa chúng và, khi thích hợp, thêm chuyển hướng 301 đến các trang tương tự hoặc nổi bật trên trang web có thẩm quyền hơn.
-
Thứ hai, nếu vì lý do nào đó bạn muốn giữ một trang mồ côi do nội dung tốt, thẩm quyền và lưu lượng, bước tiếp theo là liên kết nó từ một URL trang web có nội dung liên quan, và dễ dàng tiếp cận bởi người dùng và bởi Google. Tất nhiên, cần lưu ý rằng URL của trang phải được bao gồm trong sitemap.
-
Thứ ba, nếu nhiều trang mồ côi xuất hiện nhưng bản chất của chúng là tạm thời và nội dung của chúng đã hết hạn vì nó bao gồm các khuyến mãi và nội dung liên quan đến một thời gian cụ thể, hãy làm tương tự như trong bước trước và liên kết trang với một trang nội bộ khác có liên quan và có thể truy cập được. Tuy nhiên, trong trường hợp này, chúng ta làm cho URL đó không được lập chỉ mục bằng cách bao gồm thẻ meta "noindex" để nó không được tính đến bởi các crawler.
-
Cuối cùng, trong trường hợp các trang mồ côi có nội dung trùng lặp hoặc gần như trùng lặp, đáng để xem xét xóa trang đó và bao gồm nội dung trong một trang khác để không mất nó và tiếp tục tận dụng tiềm năng chung của nó.
Kết luận
Các trang mồ côi là một yếu tố tự nhiên sẽ xuất hiện trên một website vì nhiều lý do khác nhau, và khi chúng không quá nhiều hoặc số lượng của chúng không tăng theo cấp số nhân, chúng không đại diện cho bất kỳ vấn đề nào.
Mặt khác, khi một tỷ lệ lớn của một website và liên kết nội bộ của nó được tạo thành từ các trang loại này, nó có thể tạo ra nhiều vấn đề liên quan đến việc thu thập, xếp hạng và lưu lượng liên quan đến SEO, cũng như thẩm quyền, trải nghiệm người dùng và các vấn đề khác cần được giải quyết.
Tin tốt là các trang mồ côi có thể được giải quyết theo nhiều cách khác nhau, nhưng luôn trong một quá trình phân tích, điều bạn phải tự hỏi là liệu mỗi trang mồ côi cụ thể có liên quan đến xếp hạng, đến nội dung và có thể được liên kết với một trang khác hay không, và khi không phải vậy, đơn giản là xóa chúng.
Và bạn, độc giả thân mến... bạn đã biết về sự tồn tại của các trang mồ côi chưa? Bạn đã gặp phải yếu tố này trong bất kỳ dự án nào của bạn hoặc của khách hàng của bạn chưa? Để lại cho chúng tôi một bình luận và chúng tôi sẽ liên hệ lại với bạn về điều đó. Cảm ơn rất nhiều và hẹn gặp lại bạn lần sau!
Tác giả: David Kaufmann

Tôi đã dành hơn 10 năm qua hoàn toàn đắm chìm trong SEO — và thành thật mà nói, tôi không muốn điều gì khác thay thế.
Sự nghiệp của tôi bước sang một tầm cao mới khi tôi làm việc với vai trò chuyên gia SEO cấp cao tại Chess.com — một trong 100 website được truy cập nhiều nhất trên toàn bộ internet. Vận hành ở quy mô đó, trên hàng triệu trang, hàng chục ngôn ngữ và trong một trong những SERPs cạnh tranh khốc liệt nhất, đã dạy tôi những điều mà không khóa học hay chứng chỉ nào có thể mang lại. Trải nghiệm đó đã thay đổi cách tôi nhìn nhận về SEO thực sự xuất sắc — và trở thành nền tảng cho mọi thứ tôi xây dựng từ đó đến nay.
Từ kinh nghiệm ấy, tôi đã sáng lập SEO Alive — một agency dành cho những thương hiệu thực sự nghiêm túc với tăng trưởng organic. Chúng tôi không ở đây để bán dashboards và báo cáo hàng tháng. Chúng tôi ở đây để xây dựng những chiến lược thực sự tạo ra chuyển biến, kết hợp tinh hoa của SEO truyền thống với thế giới mới đầy thú vị của Generative Engine Optimization (GEO) — đảm bảo thương hiệu của bạn không chỉ xuất hiện trong các liên kết xanh của Google, mà còn hiện diện ngay trong những câu trả lời do AI tạo ra mà ChatGPT, Perplexity và Google AI Overviews đang cung cấp cho hàng triệu người mỗi ngày.
Và bởi vì tôi không thể tìm được một công cụ xử lý tốt cả hai thế giới đó, tôi đã tự xây dựng một công cụ — SEOcrawl, một nền tảng SEO intelligence cấp doanh nghiệp tích hợp rankings, kiểm tra kỹ thuật, giám sát backlinks, tình trạng crawl và theo dõi hiển thị thương hiệu trên AI, tất cả trong một nơi. Đó chính là nền tảng mà tôi luôn ước có.
Khám phá thêm nội dung của tác giả này

