Crawling Sürecinin Aşamaları ve Unsurları

Crawling, örümcekler, botlar — bunlar herhangi bir SEO uzmanının günlük olarak ele almaya alıştığı terimlerdir ve herhangi bir sıralama stratejisinde temel bir ağırlık taşırlar, çünkü bu aşama başarısız olursa, geri kalanı da öyle olacaktır.
Bir web crawling sürecinin nelerden oluştuğuna ayrıntılı olarak bakalım.
Bir web sitesini crawl etmek ne anlama gelir?
Devam etmeden önce, bir web sitesini crawl etme sürecini tanımlayalım ve Google'ın arama sonuçlarında görünme girişiminde sahip olduğu önemi gösterelim.
Bir web sitesini crawl etmek, örümceklerin veya tarayıcıların bir web sitesinin farklı sayfalarında dolaşması, erişilebilen tüm bilgileri toplaması, depolaması, işlemesi ve daha sonra sınıflandırması süreci olarak anlaşılır.
Az önce ortaya koyduğumuz tanım içindeki birkaç temel terimi vurgulamakta fayda var:
-
Yolculuk: Gerçek bir örümcek düşünün. Bu sevimli böcek, mümkün olduğunca çok bilgi çıkarmak için mümkün olduğunca çok sayfa üzerinden geçmek zorundadır. Bir sayfadan diğerine geçmek için bunu, onları birbirine bağlayan dahili bağlantılar aracılığıyla yapar. Bu örümceklerin tamamı olmasa bile en azından bizim için en alakalı sayfaları "keşfedebilmesini" sağlayan doğru dahili bağlantıların önemi buradan gelir.
-
Erişilebilirlik: Bilgi bu örümceklere erişilebilir olmalıdır. Yani, bir şekilde erişimlerini kasıtlı olarak veya yanlışlıkla sınırlıyorsak, örümceklerin tüm içeriği işlemesini ve dolayısıyla anlayıp sonunda sınıflandırmasını engelliyoruz demektir.
Sayfa içeriğinin bu engellenmesi veya sınırlandırılması birkaç farklı şekilde gerçekleşebilir, bunları bu yazının ilerleyen bölümlerinde açıklamaya çalışacağız.
Tarayıcılar
Crawler veya bot olarak da bilinen örümceklerden bahsettik. Bunları, web sitemizdeki belgeleri analiz eden programlar olarak tanımlayabiliriz, yani arayan, sınıflandıran ve düzenleyen "kütüphaneciler" gibidirler. Bu nedenle ana işlevleri veritabanları oluşturmaktır. Topladıkları bilgi türüne göre çeşitli türleri vardır. En yaygın olanlardan bazılarından bahsedelim.
Googlebot: İçeriğimizi crawl etmekle ve organik sonuçlar (SERP'ler) içinde kategorize etmekle görevli örümcek. SEO uzmanları için en önemli olanıdır.
Bu tür içinde bazı alt türleri ayırt edebiliriz:
-
Googlebot (akıllı telefonlar): Mobil sürüm
-
Googlebot (masaüstü sürümü): Masaüstü sürümü
-
Googlebot Images: Görselleri crawl etmekten sorumlu
-
Googlebot News: Haberler için
-
Googlebot Video: Şimdi sıra videolarda
Loglarımızda tanımlanan bir bot örneği:
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Bunlar tek değil — Adsbot, Adsense vb. başka türleri de var. SEO sektörü için ilgili olanlardan zaten bahsettiğimiz için, onları diğerlerinden ayırt etmek bu makalenin odak noktası değil, ancak aşağıdaki resmi Google bağlantısında ek bilgi bulabilirsiniz.
Google'ın crawl ve indeksleme sürecinin aşamaları
Artık crawling'in ne olduğunu, bu işlevden kimin sorumlu olduğunu bildiğimize ve süreci tartıştığımıza göre, daha spesifik ayrıntılarla bakalım.
İlk aşama: crawling ve sınıflandırma
Sayfalarımızın Google sonuçlarında görünme süreci, gördüğümüz gibi örümcekler (crawler'lar) tarafından yapılan bir ilk crawling aşamasından geçer, böylece içeriğimizi okur, yorumlar, indeksler ve sınıflandırırlar.
Ayrıntılı olarak analiz etmek istediğimiz bu yeni kelimedir, sınıflandır. Google içeriğimizi mükemmel bir şekilde anlamalıdır, basit ve hızlı bir şekilde, çünkü daha sonra göreceğimiz gibi, Google web sitemize belirli bir miktarda zaman harcar ve o zamanda içeriğimizi "anlamalı" ve kullanıcıların farklı arama amaçlarıyla ilişkilendirmelidir.
Bu yüzden modern SEO'da "Search Intent" kelimesi sıkça duyulur, çünkü Google bunu bu sınıflandırmada dikkate alacak ve sayfalarımızın SERP sıralamalarında işgal ettiği konumu tanımlayacaktır.
Bu nedenle crawling süreci temiz, basit, hızlı, engelsiz vb. olmalıdır, böylece her şey net olur ve doğru şekilde sınıflandırılırız.
İkinci aşama: İndeksleme
İndeksleme aşamasını unutamayız, sınıflandırmadan önce gelir ve aynı zamanda temel bir rol oynar, çünkü Google'ın içeriğimizi veritabanına eklediği adımdır, yani onu indeksler.

Google'ın botlarını engelleme
Daha önce bu örümceklerin içeriğimize erişimini sınırlayabileceğimiz yollar olduğunu söyledik. Bunun için SEO'da robots.txt olarak bilinen hayati önemi olan bir öğe vardır.
robots.txt dosyası, sunucumuza yüklediğimiz, sitemizdeki URL'leri crawl etmelerine izin vermek veya engellemek için farklı örümceklere kesin talimatlar verdiğimiz bir metin dosyasıdır. Bu engelleme şu şekilde uygulanabilir:
-
tüm alan adına
-
belirli bir yola
-
belirli bir URL'ye
-
veya belirli bir desene uyan URL kümesine.
Bu dosyanın örnek bir yapılandırmasını görelim:
User-agent: *
Disallow: /wp-admin/
Allow: wp-admin/admin-ajax.php
Sitemap: /sitemap.xml
Gördüğümüz gibi, kullanıcı aracısını belirttiğimiz ilk satırı vardır (engellemek veya izin vermek istediğimiz crawler'ın adı, daha önce gördüğümüzden), ardından girişi yasaklamak için "disallow" veya izin vermek için "allow" emirleri.
Gördüğümüz spesifik durumda, * ile belirterek "tüm crawler'lar" diyoruz, istisnasız. /wp-admin/ yoluna girmelerini yasaklıyoruz, ancak bu yol içinde /admin-ajax.php'ye girmelerine izin vermek istiyoruz.
Bu dosyanın yanlış yapılandırılması, içeriğimizin önemli kısımlarını engellemiş olmamıza neden olabilir. Geliştirilirken tüm web sitesini engelli tutmak ve ardından üretime geçtikten sonra bu engellemeyi kaldırmayı unutmak yaygın bir hatadır, bu da onu Google'a erişilemez hale getirir.
Google'ın örümceklerinin içeriğimizi crawl ederken karşılaşabileceği bir başka sorun, web sitemizdeki dahili bağlantıları takip edememek ve dolayısıyla diğer URL'lere erişememektir. Bu, bağlantılarda "href" yerine javascript öğeleri kullandığımızda olur. Bu uygulama çok yaygındır, çünkü JS kullanmanın kullanıcı düzeyinde birçok avantajı vardır, ancak doğru kullanılmazsa ve dahili bağlantılara eklenirse, Google bunları takip edemeyebilir.
SEO dünyasında bu "link obfuscation" olarak bilinir. Bugün itibarıyla, Google'ın JS ile yapılmış sayfaları doğru bir şekilde crawl edip render edebileceği açık bir tartışmadır.
Sunucu yanıt kodları
Bu süreci iyi anlamaya devam etmek için, SEO uzmanlarının günlük olarak uğraşmak zorunda olduğu bir kavramı, sunucu yanıt kodlarını göz ardı edemeyiz.
Daha önce Google'ın bizi bulduğu döngüyü gördük, ama bu nasıl oluyor? Bir kullanıcı Google'da bir arama (sorgu) gerçekleştirir. Arama motoru veritabanına gider ve yapılan sınıflandırmaya göre o arama için en alakalı sonuçları (SERP'ler) gösterir.
Kullanıcı farklı sonuçları (gösterimler) gördükten sonra, kendi yargısına göre ihtiyaç duydukları şeye en iyi uyan birine tıklar. O anda, web sitesinin barındırıldığı sunucuya Google'ın isteği devreye girer, böylece içeriği "sunar".
Bu olduğunda, sunucu yanıtı ilgili kod aracılığıyla üretilir. SEO uzmanları olarak dikkate almamız gereken en alakalı olanları adlandıralım:
-
200: Bu yanıt kodu, Google'a sayfanın var olduğunu, içeriğinin olduğunu ve gösterilmesinde sorun olmadığını söyleyen kodtur. SEO uzmanlarının en çok arzu ettiği kod budur, kod 200 olan sayfanın içeriği optimal olduğu sürece.
-
30x: 30x durum kodları ailesi yönlendirmelere karşılık gelir. En dikkat çekici olanlar 301 (kalıcı), 302 ve 307'dir (geçici). Temel olarak Google'a "hey, istediğin URL A artık bu değil, bu başka URL B" derler. Daha fazlası vardır, ancak geliştirdiğimiz kavramın odak noktası değiller. SEO uzmanları olarak, tüm yetkiyi aktaran 301'lerin tercih edildiğini bilmek önemlidir.
Önerilen okuma: 301 yönlendirmeleri eğitimi
-
40X: Hata kodları. SEO uzmanlarının en az arzu ettiği kodlar. En yaygın olanı ünlü 404'tür. Bu kod göründüğünde, Google'a bir URL isteğine yanıt olarak artık var olmadığını ve dolayısıyla bir hata olduğunu söylüyoruz.
-
410: SEO değeri için 40x ailesinden bunu ayırmak istedik. Bu kodu kullandığımızda, bir URL için Google'ın sunucu isteğine yanıt olarak, ona "tamamen gitti" diyoruz. İlginç çünkü 404'ün aksine, Google bunun bir daha asla orada olmayacağını anlar ve crawl etmeyi bırakır, oysa 404 ile düzeltmek isteyebileceğimizi düşünerek tekrar crawl edecektir.
-
50x: Bu tür bir yanıt sunucu hatalarına bağlıdır. Makinemiz herhangi bir nedenden dolayı başarısız olduğunda ve Google bizden bazı URL'lerin içeriğini istemeye çalıştığında, sunucu başarısız olursa 505 durum kodu döndürür.
Crawl Budget
Yazının bu noktasında, hala SEO dünyasında birkaç yıl önce popüler olan, crawl budget olarak bilinen bir terimi ele almamız gerekiyor.
Crawl budget, Google'ın örümceklerinin bir web sitesini ve tüm URL'lerini crawl etmek için harcadığı zamanı ifade eder. Daha önce söylediğimiz gibi, sınırlı bir zamandır. Bu zamanda sitemizin en alakalı sayfalarını görmesini kolaylaştırmak için web sitemizin optimize edilmesinin önemi buradan gelir.
Crawler'ların web sitemizi gezerken harcadığı bu zaman sabit bir değer değildir, artacak veya azalacaktır, içeriği güncelleme sıklığımız, alan adımızın yetkisi (popülerlik) vb. yönlere bağlı olarak.
Web sitemizin kalitesi ne kadar yüksekse, yetki ne kadar fazlaysa ve ne kadar taze içerik varsa, Google bizi o kadar alakalı görecek ve bizi crawl etmek için o kadar fazla bütçe ayıracaktır.
Screaming Frog gibi crawling programları ile web sitemizin ideal olarak simüle edilmiş crawl'larını gerçekleştiriyoruz, yani örümceklerin tüm URL'lerimizden geçmek için tüm zamana sahip olduğunu varsayarak.
Ancak Googlebot'tan bahsederken bu böyle çalışmaz — daha doğrusu, Google web sitemizi her ziyaret ettiğinde, bazı URL'leri diğerlerinden daha fazla ziyaret edecektir. Aslında, hiç ziyaret etmediği bazıları olabilir. Bunu sunucu logları olarak bilinenle analiz edeceğiz (Google'ın hangi URL'leri crawl ettiğine, ne sıklıkla yaptığına ve belirli bir dönemde kaç kez yaptığına dair kayıtlar).
Buraya kadar, crawling'in ne olduğunu anlamak ve Google'ın crawl sisteminin parçası olan farklı unsurlar hakkındaki tüm analiz.
Sorunuz veya öneriniz var mı? Her zaman olduğu gibi... sizden duymak isteriz!
Yazar: David Kaufmann

Son 10 yılı aşkın süredir tamamen SEO'ya kafayı takmış durumdayım — ve açıkçası, başka türlü olmasını da istemezdim.
Kariyerim, internetin tamamında en çok ziyaret edilen ilk 100 site arasında yer alan Chess.com'da Senior SEO Specialist olarak çalıştığım dönemde yeni bir seviyeye ulaştı. Milyonlarca sayfa, onlarca dil ve var olan en rekabetçi SERPs içinde, o ölçekte çalışmak, bana hiçbir kursun ya da sertifikanın öğretemeyeceği şeyler öğretti. Bu deneyim, gerçekten iyi bir SEO'nun nasıl göründüğüne dair bakış açımı kökten değiştirdi — ve o günden sonra kurduğum her şeyin temeli oldu.
Bu deneyimden yola çıkarak SEO Alive'ı kurdum — organik büyüme konusunda ciddi olan markalar için bir ajans. Biz dashboards ve aylık raporlar satmak için burada değiliz. Gerçekten fark yaratan stratejiler kurmak için buradayız; klasik SEO'nun en iyi yanlarını Generative Engine Optimization (GEO) denen heyecan verici yeni dünyayla birleştirerek — markanızın yalnızca Google'ın mavi linklerinde değil, aynı zamanda ChatGPT, Perplexity ve Google AI Overviews'un her gün milyonlarca insana sunduğu AI tarafından üretilen cevapların içinde de görünmesini sağlayarak.
Ve bu iki dünyayı düzgün şekilde ele alan bir araç bulamadığım için, kendim bir tane geliştirdim — SEOcrawl, rankings, teknik denetimler, backlinks izleme, crawl sağlığı ve AI marka görünürlüğü takibini tek bir yerde bir araya getiren kurumsal bir SEO intelligence platformu. Hep var olmasını dilediğim platform.
Bu yazarın diğer içeriklerini keşfedin

