Excluir uma página da Web ou site a partir de motores de busca usando um arquivo de texto Robots

Você pode usar um arquivo de texto robôs para bloquear uma aranha motor de busca de indexar o seu Web site ou uma parte do seu site. Por exemplo, você pode ter uma versão de desenvolvimento do seu site onde você trabalha em mudanças e adições para testá-los antes que se tornem parte de seu Web site ao vivo. Você não quer que os motores de busca para indexar este #-147-em andamento # 148- cópia do seu Web site, porque isso causaria um conflito duplicado em conteúdo com seu Web site real. Você também não gostaria que os usuários a encontrar suas páginas em andamento. Então, você precisa bloquear os motores de busca de ver essas páginas.

o texto robôs O trabalho de arquivo é dar os motores de busca instruções sobre o que não a aranha dentro do seu Web site. Este é um arquivo de texto simples que você pode criar usando um programa como o Bloco de Notas, e depois salvar com o robots.txt nome de arquivo. Coloque o arquivo na raiz do seu site (tais como yourdomain.com / robots.txt), que é onde as aranhas esperar para encontrá-lo. Na verdade, sempre que o mecanismo de busca entrar no seu site, a primeira coisa que procuro é o arquivo robots texto. É por isso que você deve sempre tem um arquivo de texto robôs em seu site, mesmo que seja em branco. Você não quer que a primeira impressão do seu site as "aranhas para ser um 404 erro (O erro que aparece quando um arquivo não pode ser localizado).

Com um arquivo robots texto, você pode excluir seletivamente determinadas páginas, diretórios, ou todo o site. Você tem que escrever o código HTML só assim, ou as aranhas ignorá-lo. A sintaxe do comando que você precisa para usar vem do Robots Exclusion Protocol (REP), que é um protocolo padrão para todos os sites. E é muito exact- apenas comandos específicos são permitidos, e eles devem ser escritos corretamente com posicionamento específico, letras maiúsculas / minúsculas, pontuação e espaçamento. Este arquivo é um lugar onde você não quer que seu Webmaster obter criativo.

Um arquivo de texto robôs muito simples poderia ser assim:

User-agent: * Disallow: / pessoal /

Este arquivo robots texto diz todos os robôs de busca que eles são bem-vindos para rastrear qualquer lugar em seu site exceto para o diretório chamado / / pessoal.

Antes de escrever uma linha de comando (como Disallow: / pessoal /), você primeiro tem que identificar qual o robô (s) que você está dirigindo. Neste caso, a linha User-agent: * aborda todos os robôs porque usa um asterisco, que é conhecido como o wild card personagem porque ele representa algum caracter. Se você quiser dar instruções diferentes para diferentes motores de busca, como muitos sites fazem, escrever linhas User-Agent separadas seguidas por suas linhas de comandos específicos. Em cada User-agent: linha, você poderia substituir o caractere asterisco (*) com o nome de um robô específico:

User-agent: Googlebot seria chamar a atenção do Google.

User-agent: Slurp trataria Yahoo !.

User-agent: MSNBot trataria Microsoft Live Search.

Observe que se o arquivo robôs seu texto tem User-agent: * instruções, bem como outra User-agent: linha especificando um robô específico, o robô específico segue os comandos que lhe deram individualmente ao invés das instruções mais gerais.

Você pode digitar apenas alguns comandos diferentes em um arquivo robots.txt:

  • Excluindo todo o site. Para excluir o robô de todo o servidor, você pode usar o comando:

    Proibir: /

    Este comando na verdade remove todos do seu site páginas Web a partir do índice de pesquisa, por isso tome cuidado não para fazer isso, a menos que isso é o que você realmente quer.

  • Excluindo um diretório. (. Uma palavra de cautela - geralmente, você quer ser muito mais seletiva do que a exclusão de um diretório inteiro) Para excluir um diretório (incluindo todo o seu conteúdo e subdiretórios), colocá-lo dentro barras:

    Proibir: / pessoal /
  • Excluindo uma página. Você pode escrever um comando para excluir apenas uma página particular. Você só pode usar uma barra no início e deve incluir a extensão do arquivo no final. Aqui está um exemplo:

    Proibir: /private-file.htm
  • Dirigir as aranhas para o mapa do site. Além de não permitir :, outro comando útil para seus esforços de SEO especifica onde o robô pode encontrar o seu mapa do site - a página que contém ligações em toda a sua organização do site, como uma tabela de conteúdo:

Mapa do Site: https://yourdomain.com/sitemap.xml 

Deve salientar-se que para além dos comandos relacionados anteriormente, o Google reconhece Permitir bem. Isto é aplicável apenas para o Google e pode confundir os outros motores, então você deve evitar usá-lo.

Você deve sempre incluir no final do seu texto robôs apresentar um Sitemap: linha de comando. Isso garante que os robôs encontrar o mapa do site, o que ajuda-los a navegar mais plenamente através de seu site para que mais do seu site fica indexado.

Algumas notas sobre a sintaxe robôs arquivo de texto:

  • Os comandos são case-sensitive, então você precisa de um D de capital em Proibir.

  • Deve sempre haver um espaço após os dois pontos após o comando.

  • Para excluir um diretório inteiro, coloque uma barra depois de assim como antes o nome do diretório.

  • Se você estiver executando em uma máquina UNIX, tudo é sensível a maiúsculas.

  • Todos os arquivos que não sejam especificamente excluídos estão disponíveis para spidering e indexação.

Para ver uma lista completa dos comandos, nomes de robô, e instruções sobre como escrever robôs arquivos de texto, vá para o as páginas Web do robô.

Como salvaguarda adicional, torná-lo parte de sua manutenção do site semanalmente para verificar o seu arquivo de texto robôs. É um poderoso interruptor on / off tal para os esforços de SEO do seu site que merece uma olhada regular para se certificar de que ainda é # 147-on # 148- e funcionando corretamente.

menu