크롤 예산이란 무엇이며 어떻게 최적화하는가

크롤 예산이란 무엇이며 어떻게 최적화하는가
David Kaufmann
SEO 튜토리얼
15 min read

SEO를 이야기할 때 보통 "키워드", "메타데이터", 헤딩, 콘텐츠 같은 것들이 가장 먼저 떠오릅니다. 하지만 테크니컬 SEO 역시 SEO의 또 다른 한 축이며, 우리의 웹 포지셔닝 전략에서 반드시 고려해야 할 매우 중요한 영역입니다.

이 영역에는 크롤 예산(crawl budget)이라는 개념이 있습니다. 깊이 있게 분석해 보겠습니다!

크롤 예산이란 무엇인가요?

크롤 예산은 구글이 웹사이트를 방문할 때 할애하는 시간입니다. 이 예산은 사이트의 랭킹과 색인에 영향을 미치며, 그렇기 때문에 우리 웹사이트의 크롤 예산에 주목하는 것이 핵심입니다. 최적의 크롤 예산을 달성하기 위한 핵심 원칙은 다음과 같습니다.

  • 접근성

  • 속도

  • 품질

  • 권위

크롤러란 무엇인가요?

크롤러는 웹사이트와 그 URL을 자동으로 크롤하는 스파이더 또는 봇입니다. 이 봇은 콘텐츠를 저장하고 분류해 나중에 사용자에게 검색결과로 보여줍니다. 우리는 스페인에 있고 가장 중요한 검색엔진이 구글이라는 점을 이야기하고 있으므로, 그것을 Googlebot이라고 부릅니다. 그러므로 구글이 여러분의 웹사이트를 찾고 그 존재를 아는 것이 매우 중요합니다.

크롤 예산은 내 웹사이트에 어떤 영향을 주나요?

최적화된 크롤 예산은 웹사이트의 검색엔진 포지셔닝을 더 잘 끌어올려 줍니다. 또한 모든 중요한 페이지가 올바르게 색인되도록 도와줍니다. 구글이 우리 웹사이트를 알아가는 데 투자하는 시간은 매우 중요하므로, SEO 포지셔닝 전략에서 크롤 예산을 잊어서는 안 됩니다.

어떻게 작동하나요?

구글의 스파이더는 여러분의 웹사이트를 크롤하며, 만약 크롤 예산이 작다면 새로운 콘텐츠를 모두 크롤하지 못한 채 사이트를 떠날 수 있습니다. 구글은 다음 두 가지 요소를 기준으로 예산을 할당합니다.

  • 크롤 한도(Crawl limit): 웹사이트가 감당할 수 있는 최대 크롤량과 환경설정을 의미합니다.

  • 크롤 수요(Crawl demand): 사이트의 인기도와 업데이트 빈도를 기준으로 사이트가 얼마나 자주 크롤되어야 하는지를 의미합니다.

여러분의 사이트가 얼마나 자주 크롤되는지 알고 계신가요?

Google Search Console 덕분에 최근 3개월 동안의 크롤 통계를 확인할 수 있습니다. 일일 크롤 페이지 수, 일일 다운로드된 킬로바이트, 페이지 다운로드 시간(밀리초 단위)을 볼 수 있죠. 데이터는 평균값을 기준으로 높음, 보통, 낮음으로 분류됩니다. 우리 웹사이트의 총 페이지 수와 일일 평균 크롤 데이터를 함께 고려하면 매우 시사하는 바가 큽니다. 이를 통해 우리가 표준 범위에 있는지, 아니면 크롤 예산을 개선해야 하는지 알 수 있습니다.

크롤 통계
크롤 통계

크롤 예산이 작으면 해로운가요?

크롤 예산이 작은 데에는 단점이 있습니다.

  • 콘텐츠가 빠르게 랭킹되기 어렵습니다. 구글이 그 존재를 모르므로 크롤하거나 색인하지 않기 때문입니다.

  • 웹사이트의 외곽 영역은 크롤 예산이 작으면 취약 지점이 됩니다. 봇이 사이트의 깊숙한 페이지나 섹션까지 갈 시간이 없기 때문입니다.

  • 적용된 온페이지 SEO 최적화가 크롤되지 않으므로 개선 효과가 가시화되지 않습니다.

  • 다른 웹사이트가 우리 사이트보다 먼저 같은 콘텐츠를 색인하고 랭킹되면, 구글은 우리가 콘텐츠를 베꼈다고 판단해 페널티를 줄 수 있습니다.

  • 크롤 예산이 많아도 제대로 최적화하지 않으면 어떤 것도 보장되지 않습니다.

스파이더의 행동은 어떤가요?

구글이 어떤 페이지를 방문하고 어디에 시간을 투자해 크롤하는지, 그리고 그것이 우리의 SEO 포지셔닝 우선순위와 일치하는지 알기 위해서는 로그가 제공하는 정보를 살펴봐야 합니다.

로그는 서버에 저장되는 요청들로, Googlebot이 무엇을 방문하고 무엇을 방문하지 않는지 알 수 있게 해 줍니다. 이 문서를 추출하고 정리하는 작업은 ScreamingFrog Log File Analyser를 사용하면 더 쉬워집니다.

ScreamingFrog Log File Analyser
ScreamingFrog Log File Analyser

ScreamingFrog Log File Analyser로 로그 분석
ScreamingFrog Log File Analyser로 로그 분석

크롤 예산을 어떻게 최적화하나요?

웹 포지셔닝과 비즈니스 측면에서 핵심 URL이 무엇인지 명확히 하고, 그 URL들이 가장 많이 크롤되도록 만들어야 합니다. 매개변수가 있는 페이지나 페이지네이션처럼 실제로 중요하지 않은 페이지에 크롤 예산을 쓰는 것은 무의미합니다.

중복 콘텐츠 문제나 같은 키워드를 두고 카니발라이제이션이 일어나는 URL이 없도록 하는 것이 결정적입니다. 저품질 콘텐츠 또한 봇이 그것을 훑어보는 데 시간을 쓰기 때문에 해롭습니다.

최적화를 위해서는 다음 영역에 집중해야 합니다.

WPO(Web Performance Optimization)

로딩 속도, 즉 WPO를 최적화해 구글이 웹사이트를 크롤하는 데 너무 오래 걸리지 않도록 합니다. 구글은 깔끔한 코드와 가능한 한 적은 수의 파일을 좋아합니다. 이는 로딩을 용이하게 하고 탐색 시 최적의 사용자 경험을 달성하기 위해서입니다.

크롤 예산을 위한 WPO 개선
크롤 예산을 위한 WPO 개선

다음 사항을 잊지 마세요.

  • CSS와 JS 파일 축소 및 압축

  • 이미지 용량과 크기 관리, 그리고 크기 명시

  • 캐싱을 통한 포지셔닝 개선을 위해 Nginx를 서버로 선택

링크와 리디렉션

봇은 여러분의 웹사이트의 모든 콘텐츠를 크롤할 뿐 아니라, 각 페이지의 모든 링크를 따라갑니다. 올바른 크롤을 위해 다음을 고려해야 합니다.

  • 불필요한 리디렉션은 피해야 합니다. 구글이 그 안에서 길을 잃기 때문입니다.

  • 리디렉션 체인은 다수의 URL이 연쇄적으로 리디렉션되는 것으로, 구글이 목적지 URL에 도달하지 못하고 그 안에서 길을 잃게 됩니다.

리디렉션 체인 또는 리디렉션 루프
리디렉션 체인 또는 리디렉션 루프

  • 깨진 링크(404 not found 상태로 연결되는 링크)를 내부 링크에서 점검합니다.

Screaming Frog와 Search Console은 잘못된 리디렉션과 모든 종류의 오류 URL을 찾아내는 데 특별한 동맹이 됩니다.

Search Console에서 잘못된 리디렉션
Search Console에서 잘못된 리디렉션

내부 링크

내부 링크는 링크를 과도하게 사용해 봇이 URL을 크롤하다가 길을 잃지 않도록 신중하게 관리해야 합니다.

  • 가장 중요한 영역은 강화하고 덜 중요한 영역은 링크를 적게 두어야 합니다. 그래서 개인정보 처리방침이나 쿠키 페이지처럼 메인 메뉴나 푸터에서 모든 페이지에 링크할 필요가 없는 페이지가 있는 것입니다.

코드

  • 가능한 한 HTML을 많이 포함해 봇의 크롤과 색인을 용이하게 하는 것이 권장됩니다. 구글이 JavaScript로 만들어진 페이지를 렌더링하고 색인하는 데 어려움을 겪는다는 사실은 잘 알려져 있습니다.

XML 사이트맵

사이트맵(sitemap)은 웹사이트의 올바른 크롤과 색인을 보장하기 때문에 구글에게 가장 기본적인 파일 중 하나입니다.

  • 정리되어 있을수록 좋습니다. 사이트맵을 버티컬이나 폴더별로 정리하세요.

  • 어떤 내용이 들어 있는지 설명하는 이름을 지정합니다. "sitemap 1"처럼 너무 일반적인 이름은 피하세요.

XML 사이트맵 권장사항
XML 사이트맵 권장사항

  • 이미지, 동영상, 언어별 사이트맵.

  • 포함하는 URL은 항상 가장 중요한 것이어야 하므로, 리디렉션이 있는 페이지, canonical 태그가 없는 페이지, 필터가 있는 페이지, 페이지네이션 등은 포함하지 마세요. 또한 개인정보 처리방침이나 쿠키 같은 비중이 낮은 페이지도 포함하지 않습니다.

Robots txt

사이트맵과 함께 robots.txt 파일은 웹사이트의 색인과 크롤에 핵심적인 파일입니다. 따라서 가능한 한 최적화하는 것을 잊지 마세요.

  • 크롤을 최대한 용이하게 하기 위해 XML 사이트맵을 참조합니다.

  • 중요한 폴더를 차단하지 마세요. 이를 위해 Search Console robots.txt 테스터로 중요한 폴더나 페이지를 차단하고 있는지 확인할 수 있습니다.

Search Console robots.txt 테스터
Search Console robots.txt 테스터

  • 리디렉션이나 canonical이 적용된 페이지를 차단하지 마세요.

  • JS와 CSS에 대한 접근을 허용하세요.

Hreflang 태그

  • 이 보조 속성들은 구글이 웹사이트가 어떤 언어로, 그리고 몇 개 언어로 제공되는지 식별하는 데 도움이 됩니다.

Metarobots noindex와 X-Robots-Tag

이 디렉티브들은 어떤 페이지나 폴더를 색인하지 말아야 하는지 봇에게 알려주지만, 크롤 접근을 막는 것은 아닙니다.

  • metarobots "noindex" 디렉티브가 적용된 태그는 크롤 예산을 소비하므로 남용하지 않는 것이 매우 중요합니다.

  • X-Robots 헤더는 코드 레벨에서 헤더에 포함되며, 페이지를 색인하지 않는 것을 포함해 구글에 여러 디렉티브를 지시할 수 있습니다.

참고 자료:

  • José Facchin: 크롤 예산이란 무엇이며, 구글에 얼마나 중요하고 어떻게 개선할 수 있는가?

  • SEOCOM 에이전시: 크롤 예산이란?

  • Big SEO Agency: 크롤 예산이란? 최적화의 핵심

  • ContentKing: SEO에서의 크롤 예산: 참고 가이드

  • Mi posicionamiento web: 크롤 예산이란?

  • Luis Villanueva: 크롤 예산이란?

  • Neil Patel: 구글의 크롤 예산을 활용해 웹사이트의 SEO를 개선하는 방법

  • Search Engine Journal: SEO를 위한 크롤 예산 최적화 7가지 팁

  • Webmasters Google Blog: Googlebot에게 크롤 예산이란 무엇인가?

  • DeepCrawl: 크롤 예산이란 무엇인가?

저자: David Kaufmann

David Kaufmann

지난 10년 넘게 SEO에 완전히 빠져 살아왔습니다 — 솔직히 다른 길을 가고 싶지도 않았어요.

제 커리어가 한 단계 도약한 것은 인터넷 전체에서 방문자가 가장 많은 100개 사이트 중 하나인 Chess.com에서 시니어 SEO 스페셜리스트로 일했을 때입니다. 수백만 페이지, 수십 개 언어, 그리고 가장 경쟁이 치열한 SERP 중 하나에서 일한 경험은 어떤 강의나 자격증도 가르쳐주지 못하는 것들을 알려주었습니다. 이 경험은 진정으로 훌륭한 SEO가 어떤 모습이어야 하는지에 대한 제 관점을 완전히 바꾸어 놓았고, 이후 제가 만든 모든 것의 기초가 되었습니다.

이 경험을 바탕으로 SEO Alive를 창업했습니다 — 오가닉 성장에 진심인 브랜드를 위한 에이전시입니다. 우리는 대시보드와 월간 리포트를 파는 것이 목표가 아닙니다. 실제로 결과를 움직이는 전략을 만들어, 클래식 SEO의 최고와 흥미진진한 새로운 Generative Engine Optimization(GEO) 세계를 결합합니다 — 여러분의 브랜드가 Google의 파란 링크뿐 아니라 ChatGPT, Perplexity, Google AI Overviews가 매일 수백만 명에게 전달하는 AI 생성 답변 안에도 노출되도록 합니다.

그리고 이 두 세계를 제대로 다루는 도구를 찾을 수 없어서 직접 만들었습니다 — SEOcrawl입니다. 랭킹, 기술 감사, 백링크 모니터링, 크롤 건전성, AI 브랜드 가시성 추적을 한 곳에서 통합하는 엔터프라이즈 SEO 인텔리전스 플랫폼이죠. 항상 존재하기를 바랐던 바로 그 플랫폼입니다.

→ David님의 모든 글 읽기
더 많은 글: David Kaufmann

이 저자의 더 많은 콘텐츠를 만나보세요