robots.txt: guia completa de configuració

Cansat de sentir parlar del robots.txt i no saber de què va? No et preocupis, avui et portem la solució al teu problema. En aquest post farem el possible per explicar-te què és el robots.txt, com configurar-lo (especialment a WordPress) i quin impacte pot tenir al SEO del nostre projecte.
Anem-hi!
Què és el robots.txt i per a què serveix?
El robots.txt és simplement un fitxer allotjat a l'arrel del teu web que permet evitar que certs bots (com els de Google o Bing) visitin la teva pàgina web o parts d'ella.
ATENCIÓ: és important saber que es tracta d'un protocol i com a regla general tots els bots "bons" el compleixen (GoogleBot, BingBot, Semrush, ...) però qualsevol bot amb males intencions el pot saltar, com Screaming Frog activant aquesta opció:

Per què és important el fitxer robots.txt per al SEO?
Com hem comentat abans, tots els bots bons (com GoogleBot) compleixen aquest protocol, així que el que podem fer és utilitzar aquest fitxer per guiar Google a través de la nostra pàgina web.
Què? Què vols dir? Guiar Google amb el robots.txt?
Sí, no et preocupis, t'ho expliquem amb un exemple perquè quedi molt més clar:
Imagina que a la teva pàgina web tens una àrea privada a la qual només poden accedir els usuaris registrats, i com bé sabem, Google no pot accedir a cap lloc que requereixi inici de sessió (encara...).
Doncs, no tindria sentit que Google no malgastés el nostre crawl budget rastrejant pàgines que no tenen cap valor per a ell?
Exacte! Un dels usos més importants del robots.txt és bloquejar rutes que tenen poc valor per a Google i, d'aquesta manera, fer que es centri a les pàgines importants de la nostra pàgina web. Per aquest motiu, el robots.txt hauria de ser un dels pilars a tenir en compte dins de la nostra estratègia SEO.
Aquest és només un exemple dels milers de coses que podem fer amb aquest fitxer. Altres exemples inclouen indicar el nostre sitemap, reduir l'interval de rastreig, bloquejar el rastreig de recursos, ...
Com crear el fitxer robots.txt
Bé... posem-nos-hi!
Crear aquest fitxer és realment senzill, només has d'agafar el teu editor de text (Notepad a Windows o TextEdit a Mac) o utilitzar-ne un online i després de redactar el teu robots.txt, exportar-lo com a fitxer txt.
Un cop el tinguem, només l'hem d'anomenar "robots.txt" i pujar-lo a l'arrel del teu web mitjançant el panell del teu servidor o via FTP.
Per comprovar si s'ha pujat correctament, només has d'afegir "/robots.txt" al teu domini, per exemple https://seocrawl.com/robots.txt
ATENCIÓ: Compte amb la cau, és millor veure-ho en mode incògnit ;)
I si tinc WordPress?
Si tens WordPress és més senzill perquè els millors plugins SEO com Rank Math o Yoast venen amb un complement integrat per editar el robots.txt directament.
En el cas de Rank Math el trobaràs a Rank Math > Configuració general > Editar robots.txt

En el cas de Yoast caldrà anar a SEO > Eines > Editor de fitxers
D'aquesta manera podràs editar o crear el fitxer fàcilment sense haver de fer cap dels passos explicats anteriorment.
Comandes
A continuació veurem moltes de les comandes que tenim disponibles juntament amb els seus exemples corresponents:
Bloquejar el rastreig de la teva pàgina web
User-agent: * Disallow: /
NOTA: Si estàs desenvolupant la teva pàgina web i no vols que cap bot hi entri, llegeixi i indexi el teu contingut, aquesta regla funciona molt bé.
Bloquejar el rastreig d'una pàgina
User-agent: * Disallow: /url-de-pagina-que-no-vull-rastrejada
Bloquejar el rastreig d'una carpeta
User-agent: * Disallow: /carpeta/
Permetre l'accés a una pàgina
User-agent: * Allow: /pagina
Bloquejar una carpeta i permetre una pàgina d'aquesta carpeta
User-agent: * Disallow: /carpeta/ Allow: /carpeta/pagina
Indicar el sitemap
Sitemap: https://domini.com/sitemap.xml
Donar ordres a bots específics
En aquest cas hi aprofundirem una mica més. Si t'has fixat, la majoria de directives anteriors començaven amb:
User-agent: *
Aquell "*" fa referència a tots els bots. És a dir, totes les directives després d'aquesta línia s'apliquen a tots els bots. Si el que volem fer és enviar ordres específiques a certs bots, haurem de canviar-ho de la manera següent:
User-agent: Googlebot Si volem referir-nos al bot de Google
User-agent: Bingbot Si volem referir-nos al bot de Bing
User-agent: DuckDuckBot Si volem referir-nos al bot de DuckDuckGo
Només has d'esbrinar com s'anomena el bot al qual vols enviar una ordre i nomenar-lo com t'acabem de mostrar.
Revisar i provar el fitxer robots.txt
Ara que has acabat de "tunejar" el teu robots per deixar-lo totalment optimitzat i personalitzat per a la teva pàgina web, l'únic que queda és provar-lo.
Provar-lo? Per a què?
Doncs, provar-lo per assegurar que no ens hem equivocat en cap línia i que realment està funcionant per bloquejar les parts de la pàgina web que volem bloquejar.
Per a això recomanem utilitzar aquesta eina.

Un cop dins només has de:
-
Introduir la URL que vols comprovar si està permès rastrejar
-
Triar el User Agent
-
Fer clic a TEST
Just després, es carregarà tot el nostre fitxer robots.txt i a sota ens dirà si l'accés està permès o no.

En aquest cas, com podem veure, ens dona un resultat positiu, però si introduíssim una URL que no està permesa, també destacaria la línia que la bloqueja:

A més, aquesta eina ens permet editar el nostre fitxer robots.txt directament des d'allà per fer les modificacions que necessitem perquè el resultat coincideixi amb el nostre objectiu. Un cop modificat i provat, només cal aplicar aquestes noves modificacions al nostre robots.
Consell extra: fes el teu robots.txt inoblidable
T'hem mostrat un munt de línies de codi que funcionen per als bots, però també pots inserir comentaris començant la línia amb un "#". És a dir, qualsevol cosa que comenci per "#" serà ignorada pels bots. Això obre un món de possibilitats i bromes internes. Per aquest motiu t'animem a fer una ullada al robots.txt de windupschool, pccomponentes o Minube, segur que et trobes una sorpresa ?

Conclusió
Com has vist, el fitxer robots.txt té molt a oferir i també requereix molta cura, perquè una directiva mal col·locada pot bloquejar el rastreig de la teva pàgina web.
Esperem que aquesta guia et sigui útil i, per a qualsevol pregunta, ens veiem als comentaris.
Автор: David Kaufmann

He passat els últims 10+ anys completament obsessionat amb el SEO — i sincerament, no ho canviaria per res.
La meva carrera va fer un salt qualitatiu quan vaig treballar com a especialista SEO sènior a Chess.com — un dels 100 webs més visitats de tot Internet. Operar a aquesta escala em va ensenyar coses que cap curs ni certificació podrien transmetre.
D'aquella experiència vaig fundar SEO Alive — una agència per a marques que es prenen seriosament el creixement orgànic. I com que no trobava cap eina que gestionés bé tant el SEO clàssic com el món de la IA, vaig construir SEOcrawl. Si busques un partner SEO sènior que s'estimi aquest sector de debò — m'encantarà parlar amb tu!
Дізнайтесь більше контенту цього автора

