Fase dan Elemen dari Proses Crawling

Crawling, spider, bot — ini adalah istilah yang sudah biasa ditangani oleh setiap praktisi SEO setiap hari, dan istilah-istilah ini membawa bobot penting dalam strategi pengoptimalan apa pun, karena jika fase ini gagal, sisanya juga akan gagal.
Mari kita lihat secara detail apa yang dimaksud dengan proses crawling website.
Apa artinya melakukan crawling pada sebuah website?
Sebelum melanjutkan, mari kita definisikan proses crawling sebuah website, yang menunjukkan pentingnya hal ini dalam upaya apa pun untuk muncul di hasil pencarian Google.
Crawling website dipahami sebagai proses di mana spider atau crawler menjelajahi berbagai halaman website, mengumpulkan semua informasi yang dapat diakses, untuk menyimpannya, memprosesnya, dan kemudian mengklasifikasikannya.
Perlu disoroti beberapa istilah fundamental dalam definisi yang baru saja kami uraikan:
-
Penjelajahan: Bayangkan seekor spider sungguhan. Serangga ramah ini harus melewati sebanyak mungkin halaman untuk mengekstrak sebanyak mungkin informasi. Untuk berpindah dari satu halaman ke halaman lain, ia melakukannya melalui tautan internal yang menghubungkannya. Maka pentingnya memiliki internal linking yang benar yang memungkinkan spider ini untuk "menemukan" — jika tidak seluruhnya — setidaknya halaman yang paling relevan untuk kita.
-
Aksesibilitas: Informasi harus dapat diakses oleh spider ini. Artinya, jika dengan cara tertentu kita membatasi akses mereka secara sengaja atau tidak sengaja, kita akan mencegah spider untuk dapat memproses semua konten, dan oleh karena itu memahami dan akhirnya mengklasifikasikannya.
Pemblokiran atau pembatasan konten halaman ini dapat terjadi dalam beberapa cara berbeda, yang akan kami coba jelaskan lebih lanjut dalam postingan ini.
Para crawler
Kami telah berbicara tentang spider, juga dikenal sebagai crawler atau bot. Kita dapat mendefinisikannya sebagai program yang menganalisis dokumen di website kita, yaitu, mereka seperti "pustakawan" yang mencari, mengklasifikasikan, dan mengorganisir. Fungsi utama mereka adalah untuk membangun basis data. Ada beberapa jenis, tergantung pada jenis informasi yang mereka kumpulkan. Mari kita sebutkan beberapa yang paling umum.
Googlebot: Spider yang bertugas melakukan crawling konten kita dan mengkategorikannya dalam hasil organik (SERP). Bagi praktisi SEO, ini adalah yang paling penting.
Dalam jenis ini kita dapat membedakan beberapa subtipe:
-
Googlebot (smartphone): Versi mobile
-
Googlebot (versi desktop): Versi desktop
-
Googlebot Images: Bertugas melakukan crawling gambar
-
Googlebot News: Untuk berita
-
Googlebot Video: Sekarang giliran video
Contoh bot yang teridentifikasi di log kami:
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mereka bukan satu-satunya — ada yang lain seperti Adsbot, Adsense, dll. Setelah menyebutkan yang relevan untuk sektor SEO, membedakannya dari yang lain bukanlah fokus dari artikel ini, tetapi Anda dapat menemukan informasi tambahan di tautan resmi Google berikut.
Fase proses crawling dan pengindeksan Google
Sekarang setelah kita tahu apa itu crawling, siapa yang bertugas dalam fungsi tersebut, dan kita telah membahas prosesnya, mari kita lihat lebih detail secara spesifik.
Fase pertama: crawling dan klasifikasi
Proses di mana halaman kita muncul di hasil Google melalui fase pertama crawling, seperti yang telah kita lihat, dilakukan oleh spider (crawler), sehingga mereka membaca, menafsirkan, mengindeks, dan mengklasifikasikan konten kita.
Ini adalah kata baru yang ingin kami analisis secara detail, mengklasifikasikan. Google harus memahami konten kita dengan sempurna, sederhana dan cepat, karena seperti yang akan kita lihat nanti, Google menghabiskan waktu spesifik di website kita, dan dalam waktu itu ia harus "memahami" konten kita dan mengaitkannya dengan berbagai search intent pengguna.
Itulah mengapa dalam SEO modern kata "Search Intent" sering didengar, karena Google akan memperhitungkannya dalam klasifikasi tersebut dan akan menentukan posisi yang ditempati halaman kita di peringkat SERP.
Itulah mengapa proses crawling harus bersih, sederhana, cepat, tanpa hambatan, dll., sehingga semuanya jelas dan kita diklasifikasikan dengan benar.
Fase dua: Pengindeksan
Kita tidak boleh melupakan fase pengindeksan, yang mendahului klasifikasi dan juga memainkan peran fundamental, karena akan menjadi langkah di mana Google menambahkan konten kita ke basis datanya, yaitu, mengindeksnya.

Memblokir robot Google
Kami menyebutkan sebelumnya bahwa ada cara di mana kita bisa membatasi akses spider ini ke konten kita. Untuk ini, ada elemen yang sangat penting dalam SEO yang dikenal sebagai robots.txt.
File robots.txt adalah file teks yang kita unggah ke server kita, di mana kita memberikan instruksi yang tepat kepada berbagai spider untuk mengizinkan atau memblokir mereka melakukan crawling URL di situs kita. Pemblokiran ini dapat diterapkan:
-
pada seluruh domain
-
pada path tertentu
-
pada URL tertentu
-
atau pada serangkaian URL yang cocok dengan pola tertentu.
Mari kita lihat contoh konfigurasi file ini:
User-agent: *
Disallow: /wp-admin/
Allow: wp-admin/admin-ajax.php
Sitemap: /sitemap.xml
Seperti yang dapat kita lihat, ia memiliki baris pertama di mana kita menetapkan user-agent (nama crawler yang ingin kita blokir atau izinkan, dari yang telah kita lihat sebelumnya), diikuti oleh perintah "disallow" untuk melarang masuk atau "allow" untuk mengizinkannya.
Dalam kasus spesifik yang kita lihat, dengan menunjukkan dengan * kita mengatakan "semua crawler", tanpa terkecuali. Kita melarang mereka memasuki path /wp-admin/, tetapi di dalam path itu kita ingin mengizinkan mereka memasuki /admin-ajax.php.
Konfigurasi yang salah dari file ini dapat menyebabkan kita memblokir bagian penting dari konten kita. Kesalahan umum adalah memiliki seluruh website diblokir saat sedang dikembangkan, dan kemudian lupa menghapus pemblokiran tersebut setelah dipindahkan ke produksi, sehingga membuatnya tidak dapat diakses oleh Google.
Masalah lain yang mungkin dihadapi spider Google saat melakukan crawling konten kita adalah tidak dapat mengikuti tautan internal yang kita miliki di website kita, dan oleh karena itu tidak mengakses sisa URL. Hal ini terjadi ketika kita menggunakan elemen javascript alih-alih "href" pada tautan tersebut. Praktik ini sangat umum, karena menggunakan JS memiliki banyak keuntungan pada tingkat pengguna, tetapi jika tidak digunakan dengan benar, dan ditambahkan ke tautan internal, Google mungkin tidak dapat mengikutinya.
Di dunia SEO ini dikenal sebagai "link obfuscation". Per hari ini, masih menjadi perdebatan terbuka apakah Google mampu melakukan crawling dan rendering halaman yang dibuat dengan JS dengan benar.
Kode respons server
Untuk terus memahami proses ini dengan baik, kita tidak dapat mengabaikan konsep yang harus ditangani praktisi SEO setiap hari, kode respons server.
Sebelumnya, kita melihat siklus di mana Google menemukan kita, tetapi bagaimana ini terjadi? Seorang pengguna melakukan pencarian (query) di Google. Mesin pencari pergi ke basis datanya dan menampilkan hasil yang paling relevan (SERP), sesuai dengan klasifikasi yang dibuat, untuk pencarian tersebut.
Setelah pengguna melihat berbagai hasil (impressions), mereka mengeklik salah satunya, yang menurut penilaian mereka paling sesuai dengan apa yang mereka butuhkan. Pada saat itu, permintaan Google ke server tempat website di-hosting mulai berperan, sehingga server "menyajikan" konten.
Ketika ini terjadi, respons server diproduksi melalui kode yang sesuai. Mari kita sebutkan yang paling relevan yang, sebagai praktisi SEO, harus kita perhatikan:
-
200: Kode respons ini adalah yang memberi tahu Google bahwa halaman ada, bahwa ia memiliki konten dan tidak ada masalah untuk menampilkannya. Ini adalah yang paling diinginkan oleh praktisi SEO, selama konten dari halaman dengan kode 200 tersebut optimal.
-
30x: Keluarga kode status 30x sesuai dengan pengalihan. Yang paling menonjol adalah 301 (permanen), 302 dan 307 (sementara). Pada dasarnya mereka memberi tahu Google "hei, URL A yang Anda minta ini bukan lagi yang ini, tetapi URL B yang lain". Ada lebih banyak, tetapi mereka bukan fokus dari konsep yang kami kembangkan. Penting untuk diketahui bahwa, sebagai praktisi SEO, yang lebih disukai adalah 301, yang mentransfer semua otoritas.
Bacaan yang direkomendasikan: Tutorial tentang pengalihan 301
-
40X: Kode error. Yang paling tidak diinginkan oleh praktisi SEO. Yang paling umum adalah 404 yang terkenal. Ketika kode ini muncul, kita memberi tahu Google sebagai respons terhadap permintaannya untuk URL bahwa URL tersebut tidak ada lagi dan oleh karena itu merupakan error.
-
410: Kami ingin memilih yang ini dari keluarga 40x karena nilai SEO-nya. Ketika kita menggunakan kode ini, sebagai respons terhadap permintaan dari server Google untuk sebuah URL, kita memberi tahu bahwa URL tersebut "hilang untuk selamanya". Ini menarik karena, tidak seperti 404, Google memahami bahwa URL tersebut tidak akan pernah ada lagi dan akan berhenti mencoba melakukan crawling, sedangkan dengan 404, Google akan melakukan crawling lagi dengan berpikir bahwa kita mungkin ingin memperbaikinya.
-
50x: Jenis respons ini terkait dengan error server. Ketika mesin kami gagal karena suatu alasan, dan Google mencoba meminta konten dari beberapa URL kepada kami, jika server gagal, ia mengembalikan kode status 505.
Crawl Budget
Pada titik ini dari postingan, kita masih perlu membahas istilah yang menjadi populer beberapa tahun yang lalu di dunia SEO, dikenal sebagai crawl budget.
Crawl budget mengacu pada waktu yang dihabiskan spider Google untuk melakukan crawling website dan semua URL-nya. Itu, seperti yang kita katakan sebelumnya, adalah waktu yang terbatas. Maka pentingnya memiliki website yang dioptimalkan, untuk memudahkannya melihat halaman paling relevan dari situs kita dalam waktu itu.
Waktu ini yang dihabiskan crawler untuk menjelajahi website kita bukan nilai tetap, akan tumbuh atau berkurang tergantung pada aspek seperti frekuensi pembaruan konten, otoritas domain kita (popularitas), dll.
Semakin tinggi kualitas website kita, semakin besar otoritas dan semakin banyak konten segar, semakin relevan Google akan menganggap kita dan akan mengalokasikan lebih banyak budget untuk melakukan crawling kita.
Dengan program crawling seperti Screaming Frog, kita melakukan crawling simulasi yang ideal dari website kita, yaitu, seolah-olah spider memiliki semua waktu di dunia untuk menjelajahi setiap URL kita.
Tetapi ini bukan cara kerjanya ketika kita berbicara tentang Googlebot — sebaliknya, setiap kali Google mengunjungi website kita, ia akan mengunjungi beberapa URL lebih banyak daripada yang lain. Bahkan, mungkin ada beberapa yang bahkan tidak dikunjungi. Kami akan menganalisis ini dengan apa yang dikenal sebagai server log, (catatan URL mana yang telah di-crawl Google, seberapa sering ia melakukannya dan berapa kali dalam periode tertentu).
Sampai di sini, semua analisis mengenai pemahaman apa itu crawling dan berbagai elemen yang menjadi bagian dari sistem crawling Google.
Pertanyaan atau saran apa pun? Seperti biasa... kami ingin sekali mendengar dari Anda!
Penulis: David Kaufmann

Saya telah menghabiskan lebih dari 10 tahun terakhir benar-benar terobsesi dengan SEO — dan jujur saja, saya tidak mau menukarnya dengan apa pun.
Karier saya mencapai level baru ketika saya bekerja sebagai senior SEO specialist untuk Chess.com — salah satu dari 100 website paling banyak dikunjungi di seluruh internet. Bekerja di skala seperti itu, di jutaan halaman, puluhan bahasa, dan di salah satu SERPs paling kompetitif yang ada, mengajari saya hal-hal yang tidak akan pernah bisa diberikan oleh kursus atau sertifikasi mana pun. Pengalaman itu mengubah cara pandang saya tentang seperti apa SEO yang benar-benar hebat — dan menjadi fondasi bagi semua yang saya bangun setelahnya.
Dari pengalaman itu, saya mendirikan SEO Alive — sebuah agency untuk brand yang serius menggarap pertumbuhan organik. Kami tidak di sini untuk menjual dashboards dan laporan bulanan. Kami di sini untuk membangun strategi yang benar-benar menggerakkan hasil, menggabungkan yang terbaik dari SEO klasik dengan dunia baru yang menarik dari Generative Engine Optimization (GEO) — memastikan brand Anda tidak hanya muncul di tautan biru Google, tetapi juga di dalam jawaban yang dihasilkan AI yang dikirimkan ChatGPT, Perplexity, dan Google AI Overviews kepada jutaan orang setiap harinya.
Dan karena saya tidak bisa menemukan tool yang menangani kedua dunia itu dengan benar, saya membangunnya sendiri — SEOcrawl, sebuah platform enterprise SEO intelligence yang menyatukan rankings, audit teknis, pemantauan backlinks, kesehatan crawl, dan pelacakan visibilitas brand di AI dalam satu tempat. Inilah platform yang selalu saya harap pernah ada.
Temukan lebih banyak konten dari penulis ini

