איך לזהות ולתקן Duplicate Content?

איך לזהות ולתקן Duplicate Content?
David Kaufmann
מדריכי SEO
8 min read

אם אתה עובד בעולם ה-SEO, בטח מצאת את עצמך במצב שבו צריך להתמודד עם אחת הבעיות הנפוצות ביותר שמשפיעה על דירוגי מנועי חיפוש ויכולה להוביל לעונשים: duplicate content. מנועי חיפוש כמו Google, Bing, או Yahoo מטרתם העיקרית היא להציג את המידע הרלוונטי ביותר עבור כוונת החיפוש של המשתמשים. כדי לעשות זאת, הם מדרגים בסדר יורד, מתגמלים תוכן מקורי באיכות גבוהה ומענישים תוכן שהועתק, שוכפל, אינו רלוונטי, או תומרן כדי לדרג גבוה יותר בעמודי התוצאות.

במאמר הזה אנחנו הולכים להסביר מהו duplicate content, איך אנחנו יכולים לזהות ולתקן אותו, ההשפעה שלו על SEO, והכלים שאנחנו יכולים להשתמש בהם כדי לעבוד עליו. תצטרף אלינו? בואו נתחיל! ?

מהו duplicate content?

כפי שכבר ציינו, מנועי חיפוש כמו Google מענישים דפים שיש להם duplicate content, שמתפרש כשני דפים עם URLs שונים אבל אותו תוכן. לכן, ככל שניתן, הימנע מהעתקת תוכן מאתר אחר והדבקתו באתר שלך (תחסוך לעצמך הרבה כאבי ראש עם Google ופעולה משפטית פוטנציאלית מהבעלים של האתרים שמהם משכת אותו!?).

טיפ של SEO Alive**:** כסוכנות שמתמחה באופטימיזציה למנועי חיפוש, אנחנו ממליצים לך בחום לדאוג לתוכן באתר שלך ולהימנע מהפרקטיקה הרעה הזו. תהיה סבלני ועקבי, כתוב תוכן מקורי, והתוצאות יגיעו במהרה. בעניין הזה, Google מאוד ברורה לגבי עמדתה, כפי שאנחנו יכולים לראות בתיעוד הרשמי שלה על duplicate content, אז אנחנו חייבים להיות מאוד זהירים עם התוכן שאנחנו כותבים.

ב-דירוג SEO, אנחנו יכולים להבדיל בין שני סוגי duplicate content: duplicate content פנימי וחיצוני.

Duplicate content פנימי

סוג זה של duplicate content מתרחש בדרך כלל בשל יישום לקוי של פרמטרי URL או ניהול לקוי של טקסונומיות בקטגוריות ותגים. הסיבות האפשריות שיכולות ליצור duplicate content פנימי הן:

  • שגיאות ביצירת קטגוריות ותגים: שגיאה זו נפוצה בבלוגים שבהם יש רשימה גדולה של מאמרים והקטגוריות והתגים נוצרים ללא סדר או היגיון. בואו נראה דוגמה:

דמיין שיש לנו blog שיווק דיגיטלי עם מספר קטגוריות:

https://myblogdigital.com/category-a/topic/

https://myblogdigital.com/category-b/topic/

https://myblogdigital.com/category-c/topic/ כדי להימנע מ-duplicate content, יש צורך לסמן איזה מהם הראשי ולגרום לשני האחרים לעשות canonicalize ל-URL הראשי.

  • דומיינים "Non-www" מול "www" ו-"http" מול "https": זוהי שגיאה נוספת שאנחנו חייבים לשים לב אליה. ייתכן שאם לא ציינו למנועי החיפוש מהו הדומיין הקנוני, הם יכולים לגשת לגרסאות האחרות וליצור duplicate content. לכן, מ-SEO Alive, אנחנו ממליצים לקבוע מה יהיה הדומיין הקנוני שלך ולהגדיר 301 הפניות מחדש לגרסה שאתה רוצה שתהיה המועדפת.
  • URLs מפרמטרים: שגיאה זו נפוצה באתרי ecommerce שבהם URLs עם פרמטרים מאפשרים סינון כדי להציע מידע למשתמשים. נניח שיש לנו אתר מכירות שעונים ואת ה-URL הבא:

https://www.mywatchstore.com/watches/garmin?color=black דף זה יציג את כל שעוני דגם "Garmin" בשחור.

האפשרות לקבוע פילטרים על דפים יכולה להיות מטרד רציני אם לא מנוהלת כראוי, מכיוון שמנועי חיפוש יכולים להציג מספר שילובי URL:

https://www.mywatchstore.com/watches/garmin?color=black&type=sport

https://www.mywatchstore.com/watches/garmin?type=sport&color=black לכן, מ-SEO Alive אנחנו ממליצים שתגדיר את הגרסה הקנונית לדף הלא מסונן כך שהשאר של ה-URLs המפרמטרים ישמרו על סמכות הדף שלהם (URL Ratio).

Duplicate content חיצוני

duplicate content חיצוני מתייחס לכל תוכן שמועתק במלואו או חלקית מאתר אחד או יותר בבעלות webmasters או מנהלים שונים.

זוהי פרקטיקה שנחשבת כספאם בעיני מנועי החיפוש; לכן, כפי שהזכרנו בתחילת המאמר, יש להימנע ממנה בכל מחיר.

סיבה נוספת ל-duplicate content חיצוני יכולה להיות בשל אסטרטגיות סינדיקציה, שבהן אתרים שולחים תנועה לאתרים אחרים על מנת לתמרן מנועי חיפוש. האלגוריתם של Google חכם מספיק היום כדי לזהות סוג זה של פרקטיקה.

איך אנחנו יכולים לבדוק אם באתר שלנו יש duplicate content?

לדעת איך לזהות duplicate content הוא בעל חשיבות קריטית באסטרטגיית התוכן של אתר. אם לא נשלוט בגורם הזה, אנחנו לוקחים את הסיכון שהדפים שלנו יחליקו בהדרגה מהתוצאות העליונות ב-Google, מכיוון ש-Google מעדנת ברציפות את ה-SERPs בחיפוש אחר תוכן מקורי באיכות גבוהה. לכן אנחנו הולכים להציג דוגמה לאיך נוכל לזהות תוכן באתר שלנו ולתת כמה אסטרטגיות להימנע מסוג זה של תוכן.

נניח שיש לנו חנות אינטרנט (ecommerce) שבה יש לנו גרסה ניתנת להדפסה של כל אחד מדפי המוצרים. זה נחשב כפול מאחר שיש שתי "גרסאות" של אותו תוכן תחת URLs שונים:

דף פירוט מוצר: https://mywebsite.com/product3560

דף גרסה ניתנת להדפסה: https://mywebsite.com/product3560_print כדי להימנע מסוג זה של duplicate content אנחנו יכולים ליישם את האסטרטגיות הבאות:

אסטרטגיה #1: שימוש ב-301 הפניות מחדש

אם ביצענו רסטרוקטורציה לאתר שלנו, אנחנו יכולים להגדיר 301 הפניות מחדש (הפניות קבועות) דרך תוספי SEO שכלולים ברפוזיטוריים השונים של מערכות ניהול תוכן (CMS), או דרך קובץ .htaccess, כדי להפנות בחוכמה משתמשים, bots של מנועי חיפוש, וכלים אחרים עם פונקציונליות crawler.

אסטרטגיה #2: שימוש בתיוג קנוני

תג ה-rel="canonical" משמש כדי לומר למנועי חיפוש איזהו הדף המקורי (הגרסה הקנונית) ואילו דפים הם עותק. בדרך זו, ה-spider של מנוע החיפוש יתמקד בתקציב סריקת האינדקס שלו על הדף שמסומן עם תג meta זה.

כדי להשתמש בתיוג קנוני, אנחנו צריכים קודם לבחור איזה דף אנחנו רוצים שיהיה זה שמוצג ע"י מנועי החיפוש ולהוסיף את השורה הבאה לקוד ה-HTML בקטע ה-</head> (בואו נראה דוגמה של canonical בדף מוצר באתר Zalando):

<link rel="canonical" ahref= "https://www.zalando.es/adidas-originals-stripe-circle-camiseta-estampada-white-ad121000k-a11.html"/> לדוגמה, אם ב-URL אחד אנחנו מציגים את הפרטים של מוצר וב-URL אחר אנחנו מציגים את אותם פרטים עם צבעים שונים, אנחנו יכולים לומר ל-Google מהו ה-URL הקנוני שאנחנו רוצים להציג למשתמשים.

אסטרטגיה #3: שימוש בקובץ robots.txt

על ידי עריכת הקובץ הזה אנחנו יכולים לומר ל-bots של מנועי החיפוש לא לסרוק דפים או חלקים מסוימים באתר שלנו. דמיין שיש לנו את דפי המוצרים הבאים באתר שלנו:

https://www.mywebsite.com/category/product-page.html/

https://www.mywebsite.com/category/product-page1.html/ (גרסה עם duplicate content)

עם ההנחיה הבאה בקובץ robots.txt:

  • Disallow /product-page.1html/

אנחנו יכולים למנוע מ-duplicate content להתרחש, בנוסף, כמובן, להגדרת ה-URL הראשון כגרסה הקנונית.

ההשפעה של duplicate content על דירוג SEO

לאחר שחרור הגרסה הראשונה של אלגוריתם Google Panda ב-2011, שהעניש דומיינים עם thin content ו-duplicate content, Matt Cutts פרסם סרטון ב-2013 על איך Google מטפלת ב-duplicate content ומה ההשפעות השליליות שיכולות להיות לו על מיקומי דירוג מנקודת מבט של SEO:



המסקנות שאנחנו יכולים להסיק מהסרטון של Matt Cutts הן ש, למרות שלפי Google 25-30% מהאינטרנט הוא duplicate content, מנוע החיפוש לא מתייחס אליו ישירות כספאם אלא אם הכוונה היא ליצור או להעתיק תוכן בכמויות גדולות במרמה או לתמרן ישירות מיקומים בעמודי תוצאות חיפוש עם טקטיקות "black hat".

בקצרה, יצירת סוג זה של תוכן יכולה ליצור סיגנלים של איכות לקויה למנועי חיפוש כמו Google, וכן להוות מחסום לגיבוש מדדי קישור (כמו סמכות, רלוונטיות, או אמון) של התוכן, מנקודת מבט של קישורים נכנסים (backlinks) שעשויים לקשר לגרסאות שונות של התוכן הזה.

כלים לזיהוי duplicate content

כשמדובר בזיהוי duplicate content, יש אינספור כלים בשוק שיכולים להקל על המשימה הזו. בואו נסתכל עליהם! ?

כלים לזיהוי duplicate content באתר שלנו

  • Ahrefs: עם Ahrefs אנחנו יכולים לראות, בתוך הפונקציונליות "site audit" וכל עוד הוספנו פרויקט לאודיט SEO, האם באתר שלנו יש duplicate content או לא. כדי לעשות זאת, נלך ללשונית "duplicate content". ברגע שנהיה שם, יוצג לנו גרף שבו נוכל לזהות את השגיאות האפשריות שאנחנו צריכים לתקן:

פונקציונליות Duplicate content ב-Ahrefs
פונקציונליות Duplicate content ב-Ahrefs

תצוגה של פונקציונליות "Duplicate Content" של Ahrefs

  • Screaming Frog: עם תוכנת crawler ידועה זו, גם ניתן לזהות duplicate content. כדי לעשות זאת, נצטרך להזין דומיין ל-scraping ולייצא את נתוני "internal" לפורמט .csv. ברגע שבגיליון אלקטרוני, אתה יכול לצפות, למיין ולסנן אילו דפים יש להם titles, meta descriptions, headers וכו' כפולים.

טיפ של SEO Alive: השתמש בכללי עיצוב מותנה בגיליון האלקטרוני שלך כדי להגדיר אילו URLs תתקן בהתבסס על רמת ה-duplicate content שיש לך והחשיבות והרלוונטיות של כל דף.

  • Safecont: הכלי הזה ממש מעניין מאחר שהוא ממוקד אך ורק בניתוח תוכן ומשתמש ב-"machine learning" לזיהוי ומציאת קלאסטרים ודמיון תוכן. הוא די מקיף, והשימוש בו יכול להביא לנו יתרונות רבים אם אנחנו רוצים לזהות duplicate content באתר שלנו.

כלי תוכן Safecont
כלי תוכן Safecont

תצוגה של פונקציונליות "Similarity" של Safecont

כלים לזיהוי duplicate content מאתר אחר

  • Copyscape: אם אנחנו רוצים לדעת אם פיסת תוכן משוכפלת ביחס לאתר אחר, Copyscape הוא מנוע חיפוש שמתמחה בזיהוי דפי web שמעתיקים תוכן. במנוע החיפוש הזה, אתה רק צריך להזין את ה-URL שבו מתארח התוכן שאתה רוצה לבדוק, והכלי מחזיר את הדפים שחולקים את התוכן הזה, ממוין מהדרגה הגבוהה ביותר לנמוכה ביותר.
  • Plagium: זהו כלי נוסף מאוד דומה ל-Copyscape, ההבדל הוא שאנחנו צריכים להזין את הטקסט לבדיקה במקום ה-URL. יש לציין שיש לו גרסה בתשלום, אז לגרסה ה-"חינמית" יש מגבלה של עד 5,000 תווים לבדיקה.

מסקנות

ב-SEO Alive אנחנו סוכנות "White Hat SEO" 100%, אז ההמלצה שלנו בסוף המאמר היא להימנע מ-duplicate content בכל עת. אם אתה מזהה סוג זה של תוכן באתר שלך, סמוך על כל האסטרטגיות והטיפים שסיפקנו. ? זכור: Google אוהבת תוכן מקורי באיכות גבוהה!

ואתה, היה לך ניסיון רע עם duplicate content או סבלת מעונש כלשהו בגללו? איך פתרת את זה? ספר לנו על זה אם תרצה, בתיבת התגובות! נשמח לענות. עד הפעם הבאה!

מאת: David Kaufmann

David Kaufmann

במהלך 10+ השנים האחרונות הייתי מרותק לחלוטין ל-SEO — ולמען האמת, לא הייתי רוצה את זה אחרת.

הקריירה שלי עלתה לרמה חדשה כשעבדתי כמומחה SEO בכיר ב-Chess.com — אחד מ-100 האתרים המבוקרים ביותר באינטרנט. עבודה בקנה מידה כזה לימדה אותי מה ששום קורס או תעודה לא יכלו ללמד.

מהניסיון הזה הקמתי את SEO Alive — סוכנות למותגים שרציניים לגבי צמיחה אורגנית. ומכיוון שלא מצאתי כלי שמטפל גם בעולם הקלאסי וגם בעידן ה-AI כראוי, בניתי את SEOcrawl. אם אתה מחפש שותף SEO מנוסה שאוהב את התחום — אשמח לשמוע ממך!

→ קרא את כל המאמרים של David
מאמרים נוספים: David Kaufmann

גלה תוכן נוסף של מחבר זה