robots.txt: guia completa de configuració

robots.txt: guia completa de configuració
David Kaufmann
Tutorials SEO
6 min read

Cansat de sentir parlar del robots.txt i no saber de què va? No et preocupis, avui et portem la solució al teu problema. En aquest post farem el possible per explicar-te què és el robots.txt, com configurar-lo (especialment a WordPress) i quin impacte pot tenir al SEO del nostre projecte.

Anem-hi!

Què és el robots.txt i per a què serveix?

El robots.txt és simplement un fitxer allotjat a l'arrel del teu web que permet evitar que certs bots (com els de Google o Bing) visitin la teva pàgina web o parts d'ella.

ATENCIÓ: és important saber que es tracta d'un protocol i com a regla general tots els bots "bons" el compleixen (GoogleBot, BingBot, Semrush, ...) però qualsevol bot amb males intencions el pot saltar, com Screaming Frog activant aquesta opció:

ignorar robots.txt a screaming frog
ignorar robots.txt a screaming frog

Per què és important el fitxer robots.txt per al SEO?

Com hem comentat abans, tots els bots bons (com GoogleBot) compleixen aquest protocol, així que el que podem fer és utilitzar aquest fitxer per guiar Google a través de la nostra pàgina web.

Què? Què vols dir? Guiar Google amb el robots.txt?

Sí, no et preocupis, t'ho expliquem amb un exemple perquè quedi molt més clar:

Imagina que a la teva pàgina web tens una àrea privada a la qual només poden accedir els usuaris registrats, i com bé sabem, Google no pot accedir a cap lloc que requereixi inici de sessió (encara...).

Doncs, no tindria sentit que Google no malgastés el nostre crawl budget rastrejant pàgines que no tenen cap valor per a ell?

Exacte! Un dels usos més importants del robots.txt és bloquejar rutes que tenen poc valor per a Google i, d'aquesta manera, fer que es centri a les pàgines importants de la nostra pàgina web. Per aquest motiu, el robots.txt hauria de ser un dels pilars a tenir en compte dins de la nostra estratègia SEO.

Aquest és només un exemple dels milers de coses que podem fer amb aquest fitxer. Altres exemples inclouen indicar el nostre sitemap, reduir l'interval de rastreig, bloquejar el rastreig de recursos, ...

Com crear el fitxer robots.txt

Bé... posem-nos-hi!

Crear aquest fitxer és realment senzill, només has d'agafar el teu editor de text (Notepad a Windows o TextEdit a Mac) o utilitzar-ne un online i després de redactar el teu robots.txt, exportar-lo com a fitxer txt.

Un cop el tinguem, només l'hem d'anomenar "robots.txt" i pujar-lo a l'arrel del teu web mitjançant el panell del teu servidor o via FTP.

Per comprovar si s'ha pujat correctament, només has d'afegir "/robots.txt" al teu domini, per exemple https://seocrawl.com/robots.txt

ATENCIÓ: Compte amb la cau, és millor veure-ho en mode incògnit ;)

I si tinc WordPress?

Si tens WordPress és més senzill perquè els millors plugins SEO com Rank Math o Yoast venen amb un complement integrat per editar el robots.txt directament.

En el cas de Rank Math el trobaràs a Rank Math > Configuració general > Editar robots.txt

Robots TXT a Wordpress
Robots TXT a Wordpress

En el cas de Yoast caldrà anar a SEO > Eines > Editor de fitxers

D'aquesta manera podràs editar o crear el fitxer fàcilment sense haver de fer cap dels passos explicats anteriorment.

Comandes

A continuació veurem moltes de les comandes que tenim disponibles juntament amb els seus exemples corresponents:

Bloquejar el rastreig de la teva pàgina web

User-agent: * Disallow: /

NOTA: Si estàs desenvolupant la teva pàgina web i no vols que cap bot hi entri, llegeixi i indexi el teu contingut, aquesta regla funciona molt bé.

Bloquejar el rastreig d'una pàgina

User-agent: * Disallow: /url-de-pagina-que-no-vull-rastrejada

Bloquejar el rastreig d'una carpeta

User-agent: * Disallow: /carpeta/

Permetre l'accés a una pàgina

User-agent: * Allow: /pagina

Bloquejar una carpeta i permetre una pàgina d'aquesta carpeta

User-agent: * Disallow: /carpeta/ Allow: /carpeta/pagina

Indicar el sitemap

Sitemap: https://domini.com/sitemap.xml

Donar ordres a bots específics

En aquest cas hi aprofundirem una mica més. Si t'has fixat, la majoria de directives anteriors començaven amb:

User-agent: *

Aquell "*" fa referència a tots els bots. És a dir, totes les directives després d'aquesta línia s'apliquen a tots els bots. Si el que volem fer és enviar ordres específiques a certs bots, haurem de canviar-ho de la manera següent:

User-agent: Googlebot Si volem referir-nos al bot de Google

User-agent: Bingbot Si volem referir-nos al bot de Bing

User-agent: DuckDuckBot Si volem referir-nos al bot de DuckDuckGo

Només has d'esbrinar com s'anomena el bot al qual vols enviar una ordre i nomenar-lo com t'acabem de mostrar.

Revisar i provar el fitxer robots.txt

Ara que has acabat de "tunejar" el teu robots per deixar-lo totalment optimitzat i personalitzat per a la teva pàgina web, l'únic que queda és provar-lo.

Provar-lo? Per a què?

Doncs, provar-lo per assegurar que no ens hem equivocat en cap línia i que realment està funcionant per bloquejar les parts de la pàgina web que volem bloquejar.

Per a això recomanem utilitzar aquesta eina.

Eina per comprovar robots txt 1.jpg
Eina per comprovar robots txt 1.jpg

Un cop dins només has de:

  • Introduir la URL que vols comprovar si està permès rastrejar

  • Triar el User Agent

  • Fer clic a TEST

Just després, es carregarà tot el nostre fitxer robots.txt i a sota ens dirà si l'accés està permès o no.

Resultat provar robots txt.jpg
Resultat provar robots txt.jpg

En aquest cas, com podem veure, ens dona un resultat positiu, però si introduíssim una URL que no està permesa, també destacaria la línia que la bloqueja:

Exemple d'URL bloquejada per robots txt.jpg
Exemple d'URL bloquejada per robots txt.jpg

A més, aquesta eina ens permet editar el nostre fitxer robots.txt directament des d'allà per fer les modificacions que necessitem perquè el resultat coincideixi amb el nostre objectiu. Un cop modificat i provat, només cal aplicar aquestes noves modificacions al nostre robots.

Consell extra: fes el teu robots.txt inoblidable

T'hem mostrat un munt de línies de codi que funcionen per als bots, però també pots inserir comentaris començant la línia amb un "#". És a dir, qualsevol cosa que comenci per "#" serà ignorada pels bots. Això obre un món de possibilitats i bromes internes. Per aquest motiu t'animem a fer una ullada al robots.txt de windupschool, pccomponentes o Minube, segur que et trobes una sorpresa ?

Minube Robots TXT
Minube Robots TXT

Conclusió

Com has vist, el fitxer robots.txt té molt a oferir i també requereix molta cura, perquè una directiva mal col·locada pot bloquejar el rastreig de la teva pàgina web.

Esperem que aquesta guia et sigui útil i, per a qualsevol pregunta, ens veiem als comentaris.

Автор: David Kaufmann

David Kaufmann

He passat els últims 10+ anys completament obsessionat amb el SEO — i sincerament, no ho canviaria per res.

La meva carrera va fer un salt qualitatiu quan vaig treballar com a especialista SEO sènior a Chess.com — un dels 100 webs més visitats de tot Internet. Operar a aquesta escala em va ensenyar coses que cap curs ni certificació podrien transmetre.

D'aquella experiència vaig fundar SEO Alive — una agència per a marques que es prenen seriosament el creixement orgànic. I com que no trobava cap eina que gestionés bé tant el SEO clàssic com el món de la IA, vaig construir SEOcrawl. Si busques un partner SEO sènior que s'estimi aquest sector de debò — m'encantarà parlar amb tu!

→ Читайте всі статті від David
Більше статей: David Kaufmann

Дізнайтесь більше контенту цього автора