Fitxers de robots.txt de mostra del vostre lloc web

Un fitxer robots.txt emmagatzemat a l'arrel del vostre lloc web us dirà als robots web com a aranyes del motor de cerca quins directoris i fitxers se'ls permet rastrejar. És fàcil utilitzar un fitxer robots.txt, però hi ha algunes coses que recordeu:

  1. Els robots web del barret negre ignoraran el vostre fitxer robots.txt. Els tipus més comuns són robots de programari maliciós i robots que busquen adreces de correu electrònic per a la collita.
  2. Alguns programadors nous escriuran robots que ignoren el fitxer robots.txt. Això es sol fer per error.
  1. Qualsevol pot veure el fitxer robots.txt. Sempre s'anomenen robots.txt i sempre s'emmagatzemen a l'arrel del lloc web.
  2. Finalment, si algú vincula a un fitxer o directori exclòs del fitxer robots.txt d'una pàgina que no està exclosa del fitxer robots.txt, els motors de cerca poden trobar de totes maneres.

No utilitzeu fitxers robots.txt per ocultar res important. En lloc d'això, haureu de posar informació important darrere de les contrasenyes segures o deixar-lo completament fora de la xarxa.

Com s'utilitzen aquests fitxers d'exemple

Copieu el text de la mostra que està més a prop del que vulgueu fer i enganxeu-lo al fitxer robots.txt. Canvieu el nom del robot, el directori i el fitxer a la vostra configuració preferida.

Dos fitxers Robots bàsics.txt

Agent d'usuari: *
No permetre: /

Aquest fitxer diu que qualsevol robot (agent d'usuari: *) que accedeixi a ell hauria d'ignorar totes les pàgines del lloc (No permetre: /).

Agent d'usuari: *
No permetre:

Aquest fitxer diu que qualsevol robot (agent d'usuari: *) que accedeix a ell pot veure totes les pàgines del lloc (No permetre:).

També podeu fer-ho deixant el vostre fitxer robots.txt en blanc o sense tenir-ne cap al vostre lloc.

Protegeix els directoris específics dels robots

Agent d'usuari: *
No permetre: / cgi-bin /
No permetre: / temp /

Aquest fitxer diu que qualsevol robot (agent d'usuari: *) que accedeixi hauria d'ignorar els directoris / cgi-bin / i / temp / (No permetre: / cgi-bin / Disallow: / temp /).

Protegeix pàgines específiques de robots

Agent d'usuari: *
No permetre: /jenns-stuff.htm
No permetre: /private.php

Aquest fitxer diu que qualsevol robot (agent d'usuari: *) que l'accedeixi, hauria d'ignorar els fitxers /jenns-stuff.htm i /private.php (Disallow: /jenns-stuff.htm Disallow: /private.php).

Evita que un robot específic accedeixi al vostre lloc

Agent d'usuari: Lycos / xx
No permetre: /

Aquest fitxer diu que el bot Lycos (Agent d'usuari: Lycos / xx) no està permès accedir a cap lloc del lloc (No permetre: /).

Permetre només un accés específic de Robot

Agent d'usuari: *
No permetre: /
Agent d'usuari: Googlebot
No permetre:

Aquest fitxer no permet tots els robots anteriors i, de manera explícita, deixeu que Googlebot (User-agent: Googlebot) tingui accés a tot (Disallow:).

Combineu diverses línies per obtenir exactament les exclusions que desitgeu

Tot i que és millor fer servir una línia d'agent d'usuari molt inclusiva, com ara Agent d'usuari: *, podeu ser tan específic com vulgueu. Recordeu que els robots llegeixen el fitxer en ordre. Així doncs, si les primeres línies diuen que tots els robots estan bloquejats de tot i, més endavant, en el fitxer, es diu que tots els robots tenen accés a tot, els robots tindran accés a tot.

Si no esteu segur de si heu escrit correctament el vostre fitxer robots.txt, podeu utilitzar les Eines per a administradors web de Google per verificar el vostre fitxer robots.txt o escriure-ne un de nou.