Saiba como evitar que determinadas páginas do site apareçam no Google
Os robôs dos buscadores são aplicativos que navegam pela internet através dos links encontrados nas páginas, em busca de conteúdo a ser indexado e exibido nos resultados de busca.
Porém, você pode optar por não ter algumas de suas páginas exibidas nos resultados de busca, como por exemplo:
Como o próprio nome já diz, robots.txt é um arquivo no formato .txt (bloco de notas). Funciona como um filtro para os robôs dos sites de busca e faz com que os webmasters controlem permissões de acesso a determinadas páginas ou pastas dos sites.
O robots.txt controla qual informação de um site deve ou não deve ser indexada pelos mecanismos de busca. A sintaxe do arquivo é bem simples, e deve ser colocada pelo webmaster responsável pelo site na raiz da hospedagem.
O próprio Google usa um arquivo em https://www.google.com/robots.txt, e navegar por ele é no mínimo curioso.
O arquivo robots.txt tem o papel de criar uma política de acesso aos Robots. Para a execução dessas tarefas, há palavras reservadas, ou seja, palavras com a função de comandos que permitirão ou não o acesso a determinados diretórios ou páginas de um site. Vejamos os principais comandos do arquivo robots.txt:
A função do comando user-agent é listar quais robôs devem seguir as regras indicadas no arquivo robots.txt.
Supondo que você deseje somente que o mecanismo de busca do Google siga as definições definidas no arquivo robots.txt, basta indicar o User-agent como Googlebot. Veja as principais opções:
O comando instrui os sites de busca sobre quais diretórios ou páginas não devem ser incluídas no índice. Exemplos:
O comando Allow orienta aos robots qual diretório ou página deve ter o conteúdo indexado. Diretórios e páginas são por definição sempre permitidos.
Assim, este comando deve ser utilizado apenas em situações em que o webmaster bloqueou o acesso a um diretório por meio do comando Disallow, mas gostaria de ter indexado um arquivo ou subdiretório dentro do diretório bloqueado.
Note por exemplo no robots.txt do Google, logo no início, as duas linhas abaixo. O Allow permite que seja indexado o diretório /about abaixo do diretório /catalogs.
Disallow: /catalogs
Allow: /catalogs/about
Uma outra função permitia pelo robots.txt é a indicação do caminho e nome do sitemap em formato XML do site. A ferramenta Google Search Console, porém, oferece um maior controle e visibilidade para a mesma função - comunicar ao Google onde está o ou os arquivos sitemap. Note como o Google submete, em seu robots.txt, diversos sitemaps:
Sitemap: https://www.google.com/sitemap.xml
Dentro desse arquivo há diversos sitemaps para cada área de leitura que o buscador deseja indexar.
Como veremos abaixo em exemplos reais de robots.txt, é muito fácil acessar o conteúdo de arquivos robots.txt de qualquer site, inclusive de concorrentes.
Assim, cuidado com o que é incluído nesse arquivo. Evite colocar arquivos confidenciais. Nesses casos, o ideal é utilizar a meta tag robots (meta name = "robots"), explicada no tópico de meta tags deste tutorial.
Exemplo: o webmaster não deseja que o conteúdo do diretório/docs seja indexado pelos robots, então, bloqueou o acesso ao diretório /docs com o comando "Disallow: /docs" no arquivo robots.txt.
Dentro desse diretório, porém, existe um sub-diretório chamado "public", que deve ter seu conteúdo indexado. Para que isso aconteça, basta usar no arquivo robots.txt a instrução "Allow: /docs/public/".
Para olhar exemplos de arquivos robots.txt, saia navegando pela internet e inclua o arquivo /robots.txt na raiz dos sites visitados para verificar se eles utilizam o arquivo robots.txt. Veja abaixo alguns exemplos: