Como detectar e corrigir conteúdo duplicado?

Como detectar e corrigir conteúdo duplicado?
David Kaufmann
Tutoriais SEO
10 min read

Se você trabalha no mundo do SEO, provavelmente já se viu na situação de ter que lidar com um dos problemas mais comuns que afetam o ranking nos mecanismos de busca e podem levar a penalizações: conteúdo duplicado. Mecanismos de busca como Google, Bing ou Yahoo têm como objetivo principal exibir as informações mais relevantes para a intenção de busca dos usuários. Para isso, eles ranqueiam em ordem decrescente, recompensando conteúdo original e de alta qualidade e penalizando conteúdo que foi copiado, duplicado, é irrelevante ou foi manipulado para ranquear mais alto nas páginas de resultados.

Neste artigo vamos explicar o que é conteúdo duplicado, como podemos detectá-lo e corrigi-lo, seu impacto no SEO e as ferramentas que podemos usar para trabalhar nele. Você vem com a gente? Vamos começar! ?

O que é conteúdo duplicado?

Como já mencionamos, mecanismos de busca como o Google penalizam páginas que têm conteúdo duplicado, o que é interpretado como duas páginas com URLs diferentes mas o mesmo conteúdo. Portanto, na medida do possível, evite copiar conteúdo de outro site e colá-lo no seu (você vai se poupar de muitas dores de cabeça com o Google e potenciais ações legais dos donos dos sites de onde você puxou!?).

Dica SEO Alive**:** Como agência especializada em otimização para mecanismos de busca, recomendamos fortemente que você cuide do conteúdo do seu site e evite essa má prática. Seja paciente e persistente, escreva conteúdo original, e os resultados virão mais cedo do que tarde. Nesse sentido, o Google é muito claro sobre sua posição, como podemos ver na sua documentação oficial sobre conteúdo duplicado, então devemos ser muito cuidadosos com o conteúdo que escrevemos.

No posicionamento SEO, podemos distinguir dois tipos de conteúdo duplicado: conteúdo duplicado interno e externo.

Conteúdo duplicado interno

Esse tipo de conteúdo duplicado geralmente ocorre devido à má implementação de parâmetros de URL ou à má gestão de taxonomias em categorias e tags. As possíveis causas que podem gerar conteúdo duplicado interno são:

  • Erros na criação de categorias e tags: Esse erro é comum em blogs onde há uma grande lista de artigos e categorias e tags são criadas sem qualquer ordem ou lógica. Vejamos um exemplo:

Imagine que temos um blog de marketing digital com várias categorias:

https://meublogdigital.com/categoria-a/topico/

https://meublogdigital.com/categoria-b/topico/

https://meublogdigital.com/categoria-c/topico/ Para evitar conteúdo duplicado, é necessário marcar qual delas é a principal e fazer com que as outras duas canonicalizem para a URL principal.

  • Domínios "Non-www" vs "www" e "http" vs "https": Este é outro erro ao qual devemos prestar atenção. É possível que, se não tivermos especificado para os mecanismos de busca qual é o domínio canônico, eles possam acessar as outras versões e gerar conteúdo duplicado. Portanto, da SEO Alive, recomendamos estabelecer qual será seu domínio canônico e configurar redirecionamentos 301 para a versão que você quer que seja a preferida.
  • URLs parametrizadas: Este erro é comum em sites de ecommerce onde URLs com parâmetros permitem filtrar para oferecer informações aos usuários. Suponha que tenhamos um site de venda de relógios e a seguinte URL:

https://www.minhalojaderelogios.com/relogios/garmin?cor=preto Esta página mostraria todos os relógios modelo "Garmin" em preto.

A possibilidade de definir filtros nas páginas pode ser um inconveniente sério se não for gerenciada corretamente, já que os mecanismos de busca podem exibir várias combinações de URL:

https://www.minhalojaderelogios.com/relogios/garmin?cor=preto&tipo=esporte

https://www.minhalojaderelogios.com/relogios/garmin?tipo=esporte&cor=preto Portanto, da SEO Alive recomendamos que você defina a versão canônica para a página sem filtro para que o restante das URLs parametrizadas preserve sua autoridade de página (URL Ratio).

Conteúdo duplicado externo

Conteúdo duplicado externo se refere a qualquer conteúdo que é extraído, total ou parcialmente copiado de um ou mais sites pertencentes a diferentes webmasters ou administradores.

Esta é uma prática considerada como spam aos olhos dos mecanismos de busca; portanto, como mencionamos no início do artigo, deve ser evitada a todo custo.

Outra causa de conteúdo duplicado externo pode ser devido a estratégias de sindicação, em que sites enviam tráfego para outros sites a fim de manipular os mecanismos de busca. O algoritmo do Google é inteligente o suficiente hoje para detectar esse tipo de prática.

Como podemos verificar se nosso site tem conteúdo duplicado?

Saber detectar conteúdo duplicado é de importância crucial na estratégia de conteúdo de um site. Se não controlarmos esse fator, corremos o risco de nossas páginas escorregarem gradualmente dos primeiros resultados no Google, já que o Google refina continuamente as SERPs em busca de conteúdo original e de alta qualidade. É por isso que vamos apresentar um exemplo de como poderíamos detectar conteúdo no nosso site e dar algumas estratégias para evitar esse tipo de conteúdo.

Suponha que temos uma loja online (ecommerce) onde temos uma versão para impressão de cada uma das páginas de produto. Isso é considerado duplicado já que existem duas "versões" do mesmo conteúdo sob URLs diferentes:

Página de detalhe do produto: https://meusite.com/produto3560

Página da versão para impressão: https://meusite.com/produto3560_print Para evitar esse tipo de conteúdo duplicado podemos aplicar as seguintes estratégias:

Estratégia #1: Uso de redirecionamentos 301

Se reestruturamos nosso site, podemos configurar redirecionamentos 301 (redirecionamentos permanentes) por meio de plugins SEO incluídos nos diferentes repositórios dos sistemas de gerenciamento de conteúdo (CMS), ou por meio do arquivo .htaccess, para redirecionar de forma inteligente usuários, bots de mecanismos de busca e outras ferramentas com função de crawler.

Estratégia #2: Uso da tag canonical

A tag rel="canonical" é usada para dizer aos mecanismos de busca qual é a página original (versão canônica) e quais páginas são uma cópia. Dessa forma, o spider do mecanismo de busca focará seu crawl budget de indexação na página marcada com essa meta tag.

Para usar a tag canonical, primeiro temos que escolher qual página queremos que seja a mostrada pelos mecanismos de busca e adicionar a seguinte linha ao código HTML na seção </head> (vejamos um exemplo de canonical em uma página de produto no site da Zalando):

<link rel="canonical" ahref= "https://www.zalando.es/adidas-originals-stripe-circle-camiseta-estampada-white-ad121000k-a11.html"/> Por exemplo, se em uma URL mostramos os detalhes de um produto e em outra URL mostramos os mesmos detalhes com cores diferentes, podemos dizer ao Google qual é a URL canônica que queremos mostrar aos usuários.

Estratégia #3: Uso do arquivo robots.txt

Editando este arquivo podemos dizer aos bots dos mecanismos de busca para não rastrearem certas páginas ou seções do nosso site. Imagine que temos as seguintes páginas de produto no nosso site:

https://www.meusite.com/categoria/pagina-produto.html/

https://www.meusite.com/categoria/pagina-produto1.html/ (versão com conteúdo duplicado)

Com a seguinte diretiva no arquivo robots.txt:

  • Disallow /pagina-produto.1html/

Podemos evitar que conteúdo duplicado ocorra, além, é claro, de definir a primeira URL como a versão canônica.

Impacto do conteúdo duplicado no posicionamento SEO

Após o lançamento da primeira versão do algoritmo Google Panda lá em 2011, que penalizava domínios com thin content e conteúdo duplicado, Matt Cutts publicou um vídeo em 2013 sobre como o Google lida com conteúdo duplicado e que efeitos negativos ele pode ter nas posições de ranking de uma perspectiva SEO:



As conclusões que podemos tirar do vídeo de Matt Cutts são que, embora segundo o Google 25-30% da web seja conteúdo duplicado, o mecanismo de busca não o trata diretamente como spam a menos que a intenção seja criar ou copiar conteúdo de forma fraudulenta em grandes quantidades ou manipular diretamente posições nas páginas de resultados de busca com táticas "black hat".

Em resumo, criar esse tipo de conteúdo pode gerar sinais de baixa qualidade para mecanismos de busca como o Google, bem como representar uma barreira para consolidar métricas de links (como autoridade, relevância ou confiança) do conteúdo, do ponto de vista dos links externos (backlinks) que possam linkar para diferentes versões desse conteúdo.

Ferramentas para detectar conteúdo duplicado

Quando se trata de detectar conteúdo duplicado, há inúmeras ferramentas no mercado que podem facilitar essa tarefa. Vamos dar uma olhada nelas! ?

Ferramentas para detectar conteúdo duplicado no nosso site

  • Ahrefs: Com o Ahrefs podemos ver, dentro da funcionalidade "site audit" e desde que tenhamos adicionado um projeto para auditoria SEO, se nosso site tem conteúdo duplicado ou não. Para isso, vamos para a aba "duplicate content". Uma vez ali, será mostrado um gráfico onde podemos identificar os possíveis erros que precisamos corrigir:

Funcionalidade de conteúdo duplicado no Ahrefs
Funcionalidade de conteúdo duplicado no Ahrefs

Visão da funcionalidade "Duplicate Content" do Ahrefs

  • Screaming Frog: Com este conhecido crawler de software, também é possível detectar conteúdo duplicado. Para isso, teremos que inserir um domínio para fazer scraping e exportar os dados "internal" para o formato .csv. Uma vez na planilha, você pode visualizar, ordenar e filtrar quais páginas têm titles duplicados, meta descriptions, headers, etc.

Dica SEO Alive: Use regras de formatação condicional na sua planilha para definir quais URLs você vai corrigir com base no nível de conteúdo duplicado que você tem e na importância e relevância de cada página.

  • Safecont: Esta ferramenta é realmente interessante já que é focada exclusivamente na análise de conteúdo e usa "machine learning" para detectar e encontrar clusters e similaridades de conteúdo. É bastante abrangente, e seu uso pode nos trazer muitos benefícios se quisermos detectar conteúdo duplicado no nosso site.

Ferramenta de conteúdo Safecont
Ferramenta de conteúdo Safecont

Visão da funcionalidade "Similarity" do Safecont

Ferramentas para detectar conteúdo duplicado de outro site

  • Copyscape: Se quisermos saber se um conteúdo está duplicado em relação a outro site, o Copyscape é um mecanismo de busca especializado em detectar páginas web que plagiam conteúdo. Neste mecanismo de busca, você só precisa inserir a URL onde está hospedado o conteúdo que quer verificar, e a ferramenta retorna as páginas que compartilham esse conteúdo, ordenadas do maior para o menor grau.
  • Plagium: Esta é outra ferramenta muito parecida com o Copyscape, com a diferença de que temos que inserir o texto a verificar em vez da URL. Vale notar que ela tem uma versão paga, então a versão "gratuita" tem um limite de até 5.000 caracteres para verificar.

Conclusões

Na SEO Alive somos uma agência 100% "White Hat SEO", então nossa recomendação ao final do artigo é evitar conteúdo duplicado em todos os momentos. Se você detectar esse tipo de conteúdo no seu site, conte com todas as estratégias e dicas que fornecemos. ? Lembre-se: o Google gosta de conteúdo original e de alta qualidade!

E você, já teve uma experiência ruim com conteúdo duplicado ou sofreu alguma penalização por causa disso? Como você resolveu? Conte-nos, se quiser, na caixa de comentários! Ficaremos felizes em responder. Até a próxima!

Autor: David Kaufmann

David Kaufmann

Passei os últimos 10 e tantos anos completamente obcecado por SEO — e, sinceramente, não quereria que fosse de outra forma.

A minha carreira atingiu um novo patamar quando trabalhei como Senior SEO Specialist na Chess.com — um dos 100 sites mais visitados de toda a internet. Operar nessa escala, em milhões de páginas, dezenas de idiomas e numa das SERPs mais competitivas que existem, ensinou-me coisas que nenhum curso ou certificação jamais poderia. Essa experiência mudou a minha perspetiva sobre o que é realmente um grande trabalho de SEO — e tornou-se a base de tudo o que construí desde então.

Foi a partir dessa experiência que fundei a SEO Alive — uma agência para marcas que levam a sério o crescimento orgânico. Não estamos aqui para vender dashboards e relatórios mensais. Estamos aqui para construir estratégias que realmente fazem a diferença, combinando o melhor do SEO clássico com o novo e empolgante mundo da Generative Engine Optimization (GEO) — garantindo que a tua marca apareça não só nos links azuis do Google, mas também dentro das respostas geradas por AI que o ChatGPT, o Perplexity e o Google AI Overviews entregam a milhões de pessoas todos os dias.

E como não consegui encontrar uma ferramenta que lidasse corretamente com esses dois mundos, construí uma eu mesmo — a SEOcrawl, uma plataforma enterprise de SEO intelligence que reúne rankings, auditorias técnicas, monitoramento de backlinks, saúde do crawl e tracking de visibilidade de marca em AI, tudo num só lugar. É a plataforma que sempre desejei que existisse.

→ Ler todos os artigos de David
Mais artigos de David Kaufmann

Descubra mais conteúdos deste autor