중복 콘텐츠를 어떻게 찾고 해결할까요?

2020년 9월 24일

SEO 업계에서 일하는 사람이라면 검색엔진 랭킹에 영향을 미치는 가장 흔한 문제 중 하나이자 페널티로 이어질 수 있는 중복 콘텐츠를 다뤄야 하는 상황을 겪어 봤을 것입니다. 구글, Bing, Yahoo 같은 검색엔진의 주요 목표는 사용자의 검색 의도에 가장 관련성 있는 정보를 표시하는 것입니다. 이를 위해 그들은 결과를 내림차순으로 랭킹해 원본의 고품질 콘텐츠에 보상을 주고, 베끼거나 중복되거나 관련성이 없거나 결과 페이지에서 더 높이 랭킹되기 위해 조작된 콘텐츠에 페널티를 줍니다.

이 글에서는 중복 콘텐츠가 무엇인지, 어떻게 감지하고 해결할 수 있는지, SEO에 미치는 영향, 그리고 작업에 사용할 수 있는 도구에 대해 설명하겠습니다. 함께 가시겠어요? 시작해 봅시다!

핵심 요약

중복 콘텐츠는 URL은 다르지만 내용이 동일한 두 페이지를 말하며, Google 같은 검색 엔진이 이를 페널티 대상으로 삼을 수 있습니다.
내부 중복 콘텐츠는 부실한 카테고리 및 태그 분류 체계, non-www 대 www, http 대 https 버전, 매개변수가 붙은 URL에서 발생합니다.
외부 중복 콘텐츠는 서로 다른 관리자가 소유한 웹사이트 간에 복사된 텍스트로, 검색 엔진은 이를 스팸으로 취급합니다.
해결책으로는 301 리다이렉트, 원본 페이지를 표시하는 rel=canonical 태그, 크롤링을 차단하는 robots.txt 지시문이 있습니다.
Matt Cutts에 따르면 웹의 약 25~30%가 중복이지만, Google은 의도가 사기적이거나 조작적일 때에만 이를 스팸으로 취급합니다.

중복 콘텐츠란 무엇인가요?

이미 언급했듯이, 구글 같은 검색엔진은 중복 콘텐츠가 있는 페이지에 페널티를 부과하며, 이는 다른 URL을 가지면서 동일한 콘텐츠를 보유한 두 페이지로 해석됩니다. 따라서 가능한 한 다른 웹사이트의 콘텐츠를 베껴 자신의 사이트에 붙여넣는 행위는 피하세요(구글과의 골치 아픈 일과 가져온 사이트 소유자의 잠재적 법적 조치도 많이 줄여 줍니다!).

SEOcrawl 팁: 검색엔진 최적화에 특화된 에이전시로서, 웹사이트 콘텐츠에 신경을 쓰고 이런 나쁜 관행을 피하시기를 강력히 권합니다. 인내심과 끈기를 가지고 원본 콘텐츠를 작성하면 결과는 빠르면 빠를수록 빨리 옵니다. 이와 관련해 구글은 중복 콘텐츠에 관한 공식 문서에서 볼 수 있듯 자신의 입장이 매우 명확하므로, 우리가 작성하는 콘텐츠에 매우 신중해야 합니다.

**SEO 랭킹**에서 중복 콘텐츠는 두 가지 유형으로 구분할 수 있습니다. 내부 중복 콘텐츠와 외부 중복 콘텐츠입니다.

내부 중복 콘텐츠

이런 유형의 중복 콘텐츠는 일반적으로 URL 매개변수의 잘못된 구현이나 카테고리·태그의 분류(taxonomy) 관리 부실로 발생합니다. 내부 중복 콘텐츠를 만들 수 있는 가능한 원인은 다음과 같습니다.

카테고리와 태그 생성 오류: 이 오류는 글이 많은 블로그에서 카테고리와 태그가 어떤 순서나 논리 없이 만들어질 때 흔합니다. 예시를 보겠습니다.

디지털 마케팅 블로그에 여러 카테고리가 있다고 상상해 봅시다.

https://myblogdigital.com/category-a/topic/

https://myblogdigital.com/category-b/topic/

https://myblogdigital.com/category-c/topic/ 중복 콘텐츠를 피하려면 어느 것이 메인인지 표시하고, 다른 두 개가 메인 URL로 canonical되도록 해야 합니다.

"Non-www" vs "www"와 "http" vs "https" 도메인: 이는 우리가 주의를 기울여야 할 또 다른 오류입니다. 검색엔진에 어느 것이 canonical 도메인인지 명시하지 않았다면, 다른 버전에 접근하여 중복 콘텐츠를 만들 수 있습니다. 따라서 SEOcrawl은 어느 것이 canonical 도메인이 될지 정하고, 선호되는 버전이 될 곳으로 301 리디렉션을 설정할 것을 권합니다.
매개변수가 있는 URL: 이 오류는 URL 매개변수가 사용자에게 정보를 제공하기 위해 필터링을 허용하는 ecommerce 웹사이트에서 흔합니다. 시계 판매 사이트가 다음과 같은 URL을 가지고 있다고 가정해 봅시다.

https://www.mywatchstore.com/watches/garmin?color=black 이 페이지는 모든 "Garmin" 모델의 검은색 시계를 표시합니다.

페이지에 필터를 설정할 가능성은 제대로 관리되지 않으면 심각한 문제가 될 수 있습니다. 검색엔진이 여러 URL 조합을 표시할 수 있기 때문입니다.

https://www.mywatchstore.com/watches/garmin?color=black&type=sport

https://www.mywatchstore.com/watches/garmin?type=sport&color=black 따라서 SEOcrawl은 필터링되지 않은 페이지에 canonical 버전을 설정해, 매개변수가 있는 나머지 URL이 페이지 권위(URL Ratio)를 보존하도록 권합니다.

외부 중복 콘텐츠

외부 중복 콘텐츠는 다른 웹마스터나 관리자가 소유한 하나 이상의 웹사이트에서 추출되거나 전체 또는 부분적으로 복사된 콘텐츠를 가리킵니다.

이는 검색엔진의 시각에서 스팸으로 간주되는 관행이므로, 글의 시작에서 언급한 것처럼 어떤 대가를 치르더라도 피해야 합니다.

외부 중복 콘텐츠의 또 다른 원인은 신디케이션(syndication) 전략일 수 있는데, 이 경우 웹사이트들이 검색엔진을 조작하기 위해 다른 사이트에 트래픽을 보냅니다. 구글의 알고리즘은 오늘날 이런 종류의 관행을 감지할 만큼 충분히 똑똑합니다.

우리 웹사이트에 중복 콘텐츠가 있는지 어떻게 확인할 수 있나요?

중복 콘텐츠를 어떻게 감지할 줄 아는 것은 웹사이트의 콘텐츠 전략에서 결정적으로 중요합니다. 이 요소를 통제하지 못하면 페이지가 점차 구글 최상위 결과에서 미끄러져 내려갈 위험이 있습니다. 구글은 원본의 고품질 콘텐츠를 찾기 위해 SERP를 끊임없이 정제하기 때문입니다. 그래서 우리 웹사이트의 콘텐츠를 어떻게 감지할 수 있는지 예시를 제시하고, 이런 종류의 콘텐츠를 피하기 위한 몇 가지 전략을 제공하려 합니다.

각 제품 페이지의 인쇄용 버전이 있는 온라인 스토어(ecommerce)가 있다고 가정해 봅시다. 동일한 콘텐츠의 두 "버전"이 다른 URL 아래 존재하므로 이는 중복으로 간주됩니다.

제품 상세 페이지: https://mywebsite.com/product3560

인쇄용 버전 페이지: https://mywebsite.com/product3560_print 이런 종류의 중복 콘텐츠를 피하기 위해 다음 전략을 적용할 수 있습니다.

전략 #1: 301 리디렉션 사용

웹사이트를 재구조화했다면, 콘텐츠 관리 시스템(CMS)의 다양한 저장소에 포함된 SEO 플러그인을 통해 또는 .htaccess 파일을 통해 301 리디렉션(영구 리디렉션)을 설정해, 사용자, 검색엔진 봇, 그리고 크롤러 기능이 있는 다른 도구들을 똑똑하게 리디렉션할 수 있습니다.

전략 #2: canonical 태그 사용

rel="canonical" 태그는 어느 페이지가 원본 페이지(canonical 버전)이고 어느 페이지가 사본인지 검색엔진에 알리는 데 사용됩니다. 이런 식으로 검색엔진의 스파이더는 이 메타 태그가 표시된 페이지에 색인 크롤 예산을 집중하게 됩니다.

canonical 태그를 사용하려면 먼저 검색엔진이 보여주기를 원하는 페이지를 선택하고, 다음 줄을 HTML 코드의 </head> 섹션에 추가해야 합니다(Zalando 웹사이트의 제품 페이지에서 canonical 예시를 보겠습니다).

<link rel="canonical" ahref= "https://www.zalando.es/adidas-originals-stripe-circle-camiseta-estampada-white-ad121000k-a11.html"/> 예를 들어 한 URL에서 제품의 상세 정보를 보여주고 다른 URL에서 같은 상세 정보를 다른 색상으로 보여준다면, 사용자에게 보여주고 싶은 canonical URL이 어느 것인지 구글에 알려줄 수 있습니다.

전략 #3: robots.txt 파일 사용

이 파일을 편집하여 검색엔진 봇에게 우리 웹사이트의 특정 페이지나 섹션을 크롤하지 말라고 알려줄 수 있습니다. 우리 웹사이트에 다음 제품 페이지가 있다고 상상해 봅시다.

https://www.mywebsite.com/category/product-page.html/

https://www.mywebsite.com/category/product-page1.html/ (중복 콘텐츠가 있는 버전)

robots.txt 파일에 다음 디렉티브를 추가합니다.

Disallow /product-page.1html/

이를 통해 중복 콘텐츠 발생을 막을 수 있고, 물론 첫 번째 URL을 canonical 버전으로 설정해야 합니다.

SEO 랭킹에서 중복 콘텐츠의 영향

구글 Panda 알고리즘 첫 버전이 2011년에 출시되면서 thin content와 중복 콘텐츠가 있는 도메인에 페널티를 주었습니다. 이후 Matt Cutts가 2013년에 구글이 중복 콘텐츠를 어떻게 다루는지, 그리고 SEO 관점에서 랭킹 위치에 미치는 부정적 영향에 대해 영상을 발표했습니다.

Matt Cutts의 영상에서 끌어낼 수 있는 결론은, 구글에 따르면 웹의 25-30%가 중복 콘텐츠이지만, 검색엔진은 이를 직접 스팸으로 다루지 않으며, 단 부정한 의도로 대량의 콘텐츠를 만들거나 베끼거나 "블랙햇" 전술로 검색결과 페이지의 위치를 직접 조작하려는 의도가 있을 때는 그렇게 다룬다는 것입니다.

요약하면, 이런 종류의 콘텐츠를 만드는 것은 구글 같은 검색엔진에 품질이 낮다는 신호를 만들 수 있고, 외부 링크(백링크) 관점에서 그 콘텐츠의 다양한 버전에 링크할 수 있으므로 콘텐츠의 링크 지표(권위, 관련성, 신뢰)를 굳히는 데 장벽이 될 수 있습니다.

중복 콘텐츠를 감지하기 위한 도구

중복 콘텐츠를 감지할 때, 이 작업을 더 쉽게 만들어 줄 수 있는 수많은 도구가 시장에 있습니다. 한번 살펴보시죠!

우리 웹사이트의 중복 콘텐츠를 감지하기 위한 도구

Ahrefs: Ahrefs를 사용하면 "site audit" 기능 안에서, 그리고 SEO 감사를 위한 프로젝트를 추가했다는 전제 하에, 우리 웹사이트에 중복 콘텐츠가 있는지 볼 수 있습니다. 이를 위해 "duplicate content" 탭으로 이동합니다. 거기에서는 수정해야 할 가능한 오류를 식별할 수 있는 그래프가 표시됩니다.

Ahrefs의 "Duplicate Content" 기능 화면

Screaming Frog: 잘 알려진 이 소프트웨어 크롤러로도 중복 콘텐츠를 감지할 수 있습니다. 이를 위해 스크래핑할 도메인을 입력하고 "internal" 데이터를 .csv 형식으로 내보내야 합니다. 스프레드시트에서는 어떤 페이지가 중복된 타이틀, 메타 디스크립션, 헤더 등을 가지고 있는지 보기, 정렬, 필터링할 수 있습니다.

SEOcrawl 팁: 스프레드시트에서 조건부 서식 규칙을 사용해, 가지고 있는 중복 콘텐츠 수준과 각 페이지의 중요도와 관련성에 기반해 어떤 URL을 수정할지 설정하세요.

Safecont: 이 도구는 콘텐츠 분석에 전적으로 초점을 맞추고 있으며, "machine learning"을 사용해 클러스터와 콘텐츠 유사성을 감지하고 찾아낸다는 점에서 정말 흥미롭습니다. 꽤 포괄적이며, 우리 웹사이트의 중복 콘텐츠를 감지하고자 한다면 그 사용이 많은 이점을 가져올 수 있습니다.

Safecont의 "Similarity" 기능 화면

다른 웹사이트의 중복 콘텐츠를 감지하기 위한 도구

Copyscape: 한 콘텐츠가 다른 웹사이트에 대해 중복되었는지 알고 싶다면, Copyscape는 콘텐츠를 표절한 웹페이지를 감지하는 데 특화된 검색엔진입니다. 이 검색엔진에서는 확인하고 싶은 콘텐츠가 호스팅된 URL만 입력하면, 도구가 그 콘텐츠를 공유하는 페이지를 가장 높은 정도부터 가장 낮은 순으로 정렬해 반환합니다.
Plagium: Copyscape와 매우 유사한 또 다른 도구로, URL 대신 확인할 텍스트를 입력해야 한다는 차이점이 있습니다. 유료 버전이 있다는 점을 짚어둘 필요가 있습니다. "무료" 버전은 확인할 수 있는 텍스트가 최대 5,000자로 제한됩니다.

결론

SEOcrawl은 100% "White Hat SEO" 에이전시이므로, 글의 마지막에 드리는 권고는 항상 중복 콘텐츠를 피하라는 것입니다. 웹사이트에서 이런 종류의 콘텐츠를 감지한다면, 우리가 제공한 모든 전략과 팁에 의지하세요. 기억하세요. 구글은 원본의 고품질 콘텐츠를 좋아합니다!

그리고 여러분은 중복 콘텐츠로 나쁜 경험을 하셨거나 그로 인해 페널티를 받으신 적이 있나요? 어떻게 해결하셨나요? 원하시면 댓글에 알려주세요! 기꺼이 답변드리겠습니다. 다음에 만나요!

저자: David Kaufmann

지난 10년 넘게 SEO에 완전히 빠져 살아왔습니다 — 솔직히 다른 길을 가고 싶지도 않았어요.

제 커리어가 한 단계 도약한 것은 인터넷 전체에서 방문자가 가장 많은 100개 사이트 중 하나인 Chess.com에서 시니어 SEO 스페셜리스트로 일했을 때입니다. 수백만 페이지, 수십 개 언어, 그리고 가장 경쟁이 치열한 SERP 중 하나에서 일한 경험은 어떤 강의나 자격증도 가르쳐주지 못하는 것들을 알려주었습니다. 이 경험은 진정으로 훌륭한 SEO가 어떤 모습이어야 하는지에 대한 제 관점을 완전히 바꾸어 놓았고, 이후 제가 만든 모든 것의 기초가 되었습니다.

이 경험을 바탕으로 SEO Alive를 창업했습니다 — 오가닉 성장에 진심인 브랜드를 위한 에이전시입니다. 우리는 대시보드와 월간 리포트를 파는 것이 목표가 아닙니다. 실제로 결과를 움직이는 전략을 만들어, 클래식 SEO의 최고와 흥미진진한 새로운 Generative Engine Optimization(GEO) 세계를 결합합니다 — 여러분의 브랜드가 Google의 파란 링크뿐 아니라 ChatGPT, Perplexity, Google AI Overviews가 매일 수백만 명에게 전달하는 AI 생성 답변 안에도 노출되도록 합니다.

그리고 이 두 세계를 제대로 다루는 도구를 찾을 수 없어서 직접 만들었습니다 — SEOcrawl입니다. 랭킹, 기술 감사, 백링크 모니터링, 크롤 건전성, AI 브랜드 가시성 추적을 한 곳에서 통합하는 엔터프라이즈 SEO 인텔리전스 플랫폼이죠. 항상 존재하기를 바랐던 바로 그 플랫폼입니다.

→ David님의 모든 글 읽기

더 많은 글: David Kaufmann

이 저자의 더 많은 콘텐츠를 만나보세요

Google Discover: 무엇이며, 어떻게 작동하고, 어떻게 노출될까

Google Discover는 검색 없이도 콘텐츠를 노출하는 개인화된 피드입니다. 그것이 무엇인지, 피드가 어떻게 작동하는지, 어떻게 맞춤 설정하고, 어떻게 노출되는지 살펴봅니다.

David2026년 7월 17일SEO 튜토리얼

Google Search Console에서 regex 사용하는 방법

regex 필터는 Google Search Console에서 진짜 답을 가장 빠르게 뽑아내는 방법입니다. 브랜드 대 비브랜드, 모든 질문 쿼리, 특정 폴더를 내보내기 없이 분리할 수 있습니다.

David2026년 7월 16일SEO 튜토리얼

검색어	클릭수	Δ
seocrawl ai	1,842	+12%
ai seo tool	1,205	+8%
geo optimization	904	+34%
google search console alternative	612	−4%
best seo dashboard	488	+19%