重複コンテンツを検出して修正する方法は?

SEOの世界で働いているなら、検索エンジンの順位に影響を与え、ペナルティを引き起こす可能性のある最も一般的な問題の1つである重複コンテンツに対処せざるを得ない状況に遭遇したことがあるでしょう。Google、Bing、Yahooなどの検索エンジンは、ユーザーの検索意図に最も関連性の高い情報を表示することを主目的としています。そのために、検索エンジンは降順でランク付けし、オリジナルで高品質なコンテンツを評価し、コピーされたもの、重複したもの、関連性のないもの、または上位表示のために操作されたコンテンツにペナルティを与えます。
本記事では、重複コンテンツとは何か、それを検出して修正する方法、SEOへの影響、そしてそれに対処するために使用できるツールについて説明します。一緒に見ていきますか?では始めましょう!
重複コンテンツとは?
すでに述べたように、Googleなどの検索エンジンは重複コンテンツのあるページにペナルティを与えます。重複コンテンツとは異なるURLで同じコンテンツを持つ2つのページとして解釈されます。したがって、可能な限り、別のWebサイトからコンテンツをコピーして自分のサイトに貼り付けることは避けてください(Googleとの多くの頭痛と、コンテンツを引っ張ってきたWebサイト所有者からの法的措置の可能性を回避できます!)。
SEO Aliveのヒント:検索エンジン最適化を専門とする代理店として、Webサイトのコンテンツに気を配り、この悪い慣行を避けることを強くお勧めします。忍耐強く粘り強く、オリジナルのコンテンツを書いてください。結果は早晩現れます。
この点について、Googleは重複コンテンツに関する公式ドキュメントで見られるように立場が非常に明確であるため、書くコンテンツには十分注意する必要があります。
**SEOランキング**では、内部重複コンテンツと外部重複コンテンツの2種類を区別できます。
内部重複コンテンツ
このタイプの重複コンテンツは、一般的にURLパラメーターの実装が不十分であったり、カテゴリーやタグの分類管理が不十分であったりすることで発生します。内部重複コンテンツを生成し得る原因には以下があります:
- カテゴリーやタグの作成エラー:このエラーは、記事の大規模なリストがあるブログでよく見られ、順序やロジックなしにカテゴリーやタグが作成されます。例を見てみましょう:
複数のカテゴリーを持つデジタルマーケティングブログがあるとします:
https://myblogdigital.com/category-a/topic/
重複コンテンツを避けるためには、どれがメインかを示し、他の2つをメインURLに正規化させる必要があります。
- 「Non-www」対「www」、および「http」対「https」のドメイン: これは注意すべきもう1つのエラーです。検索エンジンに正規ドメインを指定していない場合、他のバージョンにアクセスして重複コンテンツを生成する可能性があります。したがって、SEO Aliveからは、正規ドメインを確立し、優先したいバージョンへの301リダイレクトを設定することをお勧めします。
- パラメーター付きURL: このエラーはeコマースWebサイトでよく見られ、パラメーター付きURLによってフィルタリングしてユーザーに情報を提供できるようになっています。時計の販売サイトと次のURLがあるとします:
このページではすべての黒い「Garmin」モデルの時計が表示されます。
ページにフィルターを設定する可能性は、適切に管理されないと深刻な問題になり得ます。なぜなら検索エンジンは複数のURL組み合わせを表示する可能性があるからです:
https://www.mywatchstore.com/watches/garmin?color=black&type=sport
https://www.mywatchstore.com/watches/garmin?type=sport&color=black
したがって、SEO Aliveからは、フィルタリングされていないページに正規バージョンを設定し、残りのパラメーター付きURLがページオーソリティ(URL Ratio)を保持できるようにすることをお勧めします。
外部重複コンテンツ
外部重複コンテンツとは、異なるウェブマスターまたは管理者が所有する1つまたは複数のWebサイトから完全または部分的に抽出・コピーされたコンテンツを指します。
これは検索エンジンの目にはスパムと見なされる慣行であり、したがって、記事の冒頭で述べたように、絶対に避けるべきです。
外部重複コンテンツの別の原因として、シンジケーション戦略によるものもあります。これはWebサイトが検索エンジンを操作する目的で他のサイトにトラフィックを送るものです。今日のGoogleのアルゴリズムは、このタイプの慣行を検出するのに十分賢くなっています。
自分のWebサイトに重複コンテンツがあるかどうか確認するには?
重複コンテンツを検出する方法を知ることは、Webサイトのコンテンツ戦略において極めて重要です。この要因をコントロールしないと、Googleがオリジナルで高品質なコンテンツを求めて常にSERPを洗練しているため、ページがGoogleの上位結果から徐々に滑り落ちるリスクがあります。そのため、Webサイト上のコンテンツをどのように検出できるかの例を提示し、このタイプのコンテンツを回避するための戦略をいくつか紹介します。
オンラインストア(eコマース)があり、各製品ページに印刷可能なバージョンがあるとします。これは異なるURLの下に同じコンテンツの2つの「バージョン」があるため、重複と見なされます:
製品詳細ページ:https://mywebsite.com/product3560
印刷可能バージョンページ:https://mywebsite.com/product3560_print
このタイプの重複コンテンツを避けるために、以下の戦略を適用できます:
戦略 #1:301リダイレクトの使用
Webサイトを再構築した場合は、コンテンツ管理システム(CMS)の様々なリポジトリに含まれているSEOプラグインや、.htaccessファイルを通じて301リダイレクト(恒久的なリダイレクト)を設定し、ユーザー、検索エンジンボット、およびクローラー機能を持つその他のツールをインテリジェントにリダイレクトできます。
戦略 #2:カノニカルタグの使用
rel="canonical"タグは、検索エンジンに対してどのページがオリジナル(正規バージョン)であり、どのページがコピーであるかを伝えるために使用されます。これにより、検索エンジンのクローラーはこのメタタグでマークされたページにインデックスのクロール予算を集中させます。
カノニカルタグを使用するには、まず検索エンジンに表示してほしいページを選び、HTMLコードの</head>セクションに次の行を追加する必要があります(Zalando Webサイトの製品ページのカノニカルの例を見てみましょう):
<link rel="canonical" ahref= "https://www.zalando.es/adidas-originals-stripe-circle-camiseta-estampada-white-ad121000k-a11.html"/>
例えば、あるURLで製品の詳細を表示し、別のURLで異なる色の同じ詳細を表示する場合、Googleにユーザーに表示したい正規URLを伝えることができます。
戦略 #3:robots.txtファイルの使用
このファイルを編集することで、検索エンジンボットにWebサイトの特定のページやセクションをクロールしないように指示できます。Webサイトに以下の製品ページがあるとします:
https://www.mywebsite.com/category/product-page.html/
https://www.mywebsite.com/category/product-page1.html/ (重複コンテンツのバージョン)
robots.txtファイル内の以下のディレクティブを使用:
- Disallow /product-page.1html/
これにより、もちろん最初のURLを正規バージョンとして設定することに加えて、重複コンテンツの発生を防ぐことができます。
重複コンテンツがSEOランキングに与える影響
Googleパンダアルゴリズムの最初のバージョンが2011年にリリースされ、シンコンテンツと重複コンテンツを持つドメインにペナルティを与えた後、Matt Cuttsは2013年にGoogleが重複コンテンツをどのように扱うか、SEOの観点から順位にどのような悪影響を及ぼし得るかについてのビデオを公開しました:
Matt Cuttsのビデオから引き出せる結論は、Googleによれば25-30%のWebが重複コンテンツであるにもかかわらず、検索エンジンは大量に不正にコンテンツを作成またはコピーしたり、「ブラックハット」戦術で検索結果ページの順位を直接操作したりする意図がない限り、それを直接スパムとして扱わないということです。
要するに、このタイプのコンテンツを作成すると、Googleなどの検索エンジンに低品質のシグナルを生成する可能性があり、また外部リンク(バックリンク)の観点から、そのコンテンツの異なるバージョンにリンクする可能性があるリンク指標(オーソリティ、関連性、信頼性など)の統合に対する障壁となる可能性があります。
重複コンテンツを検出するツール
重複コンテンツを検出する際には、この作業を簡単にしてくれる数多くのツールが市場にあります。見ていきましょう!
自分のWebサイトの重複コンテンツを検出するツール
- Ahrefs: Ahrefsでは、SEO監査用にプロジェクトを追加している場合に限り、「site audit」機能内でWebサイトに重複コンテンツがあるかどうかを確認できます。これを行うには、「duplicate content」タブに移動します。そこで、修正が必要な可能性のあるエラーを特定できるグラフが表示されます:

Ahrefsの「Duplicate Content」機能のビュー
- Screaming Frog: このよく知られたソフトウェアクローラーでも、重複コンテンツを検出することが可能です。これを行うには、スクレイピングするドメインを入力し、「internal」データを.csv形式にエクスポートする必要があります。スプレッドシートでは、どのページがタイトル、メタディスクリプション、見出しなどが重複しているかを表示、並べ替え、フィルタリングできます。
SEO Aliveのヒント: スプレッドシートで条件付き書式ルールを使用して、重複コンテンツのレベルと各ページの重要性および関連性に基づいて、どのURLを修正するかを設定します。
- Safecont: このツールは非常に興味深いもので、コンテンツ分析にのみ焦点を当てており、「機械学習」を使用してクラスターやコンテンツの類似性を検出・発見します。かなり包括的で、Webサイト上の重複コンテンツを検出したい場合、その使用は多くの利益をもたらす可能性があります。

Safecontの「Similarity」機能のビュー
他のWebサイトからの重複コンテンツを検出するツール
- Copyscape: あるコンテンツが他のWebサイトに対して重複しているかどうかを知りたい場合、Copyscapeはコンテンツを盗用するWebページを検出することに特化した検索エンジンです。この検索エンジンでは、確認したいコンテンツがホストされているURLを入力するだけで、ツールはそのコンテンツを共有するページを最も高い度合いから低い度合いに並べて返します。
- Plagium: これはCopyscapeに非常に似た別のツールですが、URLの代わりに確認するテキストを入力する必要があるという違いがあります。有料版があるため、「無料」版では確認できる文字数が最大5,000文字に制限されていることに注意してください。
結論
SEO Aliveは100%「ホワイトハットSEO」代理店であるため、記事の最後に私たちの推奨事項として、常に重複コンテンツを避けることをお勧めします。Webサイトでこのタイプのコンテンツを検出した場合は、提供したすべての戦略とヒントに頼ってください。覚えておいてください:Googleはオリジナルで高品質なコンテンツが好きです!
皆さんは重複コンテンツで悪い経験をしましたか、あるいはそれが原因でペナルティを受けたことはありますか?どのように解決しましたか?よろしければコメント欄で教えてください!喜んでお返事します。それではまた次回!
著者: David Kaufmann

私はこの10年以上、SEOに完全に夢中になって過ごしてきました。正直なところ、他の生き方は考えられません。
私のキャリアが新たな次元に到達したのは、Chess.com でシニアSEOスペシャリストとして働いたときでした。Chess.com はインターネット全体で最も訪問数の多い上位100サイトの1つです。数百万ページ、数十言語、そして最も競争の激しい SERPs の1つという規模で仕事をした経験は、どんなコースや資格でも得られないことを教えてくれました。あの経験は、本当に優れたSEOとは何かという私の視点を一変させ、それ以降に私が築いてきたすべての土台となりました。
その経験から、私は SEO Alive を創業しました。オーガニック成長に本気で取り組むブランドのためのエージェンシーです。私たちは dashboards や月次レポートを売るためにここにいるのではありません。本当に成果を動かす戦略を構築するためにここにいます。クラシカルなSEOの最良の部分と、Generative Engine Optimization (GEO) というエキサイティングな新しい世界を組み合わせ、あなたのブランドが Google の青いリンクだけでなく、ChatGPT、Perplexity、Google AI Overviews が毎日何百万人もの人々に届けている AI 生成の回答の中にも確実に表示されるようにします。
そして、この両方の世界をきちんと扱えるツールが見つからなかったので、自分で作りました。それが SEOcrawl です。rankings、テクニカル監査、backlinks モニタリング、crawl ヘルス、そして AI ブランド可視性トラッキングを1つの場所に統合した、エンタープライズ向けのSEOインテリジェンスプラットフォームです。まさに、ずっと存在してほしいと願っていたプラットフォームです。
この著者の他のコンテンツをご覧ください

