urllib.RobotParser

urllib.RobotParser
Nesta postagem, você aprenderá sobre o módulo RobotParser no pacote urllib, que fornece a classe RobotFileParser para determinar se um determinado agente do usuário pode acessar um URL especificado nos robôs.arquivo txt.

RobotFileParser Class

A classe RobotFileParser fornece vários métodos para leitura, análise e resposta a perguntas sobre os robôs.arquivo txt em um determinado recurso.

Os métodos suportados incluem:

  1. set_url () - define o URL para os robôs.arquivo txt.
  2. leia () - lê os robôs.Arquivo TXT e o alimenta nos robôs.Analisador txt.
  3. Parse (linhas) - analisa o argumento da linha.
  4. Can_Fetch (UserAgent) - Verifica se um agente de usuário especificado pode acessar um URL especificado, conforme especificado nos robôs.arquivo txt.
  5. mtime () - retorna o tempo em que os robôs.O arquivo txt foi buscado,
  6. modificado () - atualiza o último tempo de busca para os robôs.txt para o horário atual.
  7. CRAWL_DELAY (UserAgent, URL) - Retorna o valor do parâmetro CRAWL_DELAY.
  8. request_rate (userAgent) - Retorna o parâmetro de taxa de solicitação como uma tupla nomeada.
  9. site_maps () - Retorna o parâmetro sitemap dos robôs.arquivo txt como uma lista.

Exemplo de uso de uso

O código a seguir mostra o uso da classe RobotFileParser e os métodos fornecidos.

importar urllib.RobotParser
rp = urllib.RobotParser.RobotFileParser ()
rp.set_url ("https: // linuxhint.com/robôs.TXT")
rp.ler()
req_rate = rp.request_rate ("*")
req_rate.segundos
rp.crawl_delay ("*")
rp.can_fetch ("*", "https: // linuxhint.com/assinando-se-linuxhint-com/")
rp.can_fetch ("*", "https: // linuxhint.com/assinando-se-linuxhint-com/wp-admin ")

O código acima começa importando o módulo RobotParser e criando uma instância da classe RobotFileParser.

Então passamos o URL para os robôs.arquivo txt e envie o arquivo para o analisador. Em seguida, usamos os métodos fornecidos para executar várias ações.
O código acima deve retornar:

5
30
Verdadeiro
Falso

Conclusão

Neste artigo, discutimos como usar o módulo RobotParser do pacote urllib, permitindo que você execute várias ações, conforme fornecido nos robôs.arquivo txt. Sinta -se à vontade para explorar o código -fonte para obter mais informações.