Urlparse python

Urlparse python
Os URLs freqüentemente incluem dados essenciais que podem ser explorados ao avaliar um site, a pesquisa de um participante ou a distribuição do material em cada área. Embora, às vezes, pareçam bastante complexos, o Python vem com uma variedade de bibliotecas úteis que permitem analisar URLs e recuperar suas partes constituintes.

No Python 3, o pacote urllib permite que os usuários explorem sites de dentro de seu script. O urllib contém vários módulos para gerenciar diferentes funções de URL. Ao abrir um URL na programação Python, a biblioteca urllib é crucial. Ele permite que você visite e interaja com sites utilizando seu localizador de recursos universais. Esta biblioteca nos fornece pacotes como: urllib.solicitação, urllib.erro, urllib.analisar e urllib.RobotParser.

Neste trecho, apesar de ser um grande tópico para compreender tudo de uma só vez, simplesmente prestaremos atenção ao urllib.Módulo de análise. Mais particularmente, o método urlparse ().

O urllib.O módulo Parse é utilizado para analisar os URLs dos sites. Isso implica que, dividindo um URL, podemos obter suas várias partes. Além disso, pode ser usado para obter qualquer URL de um URL de origem e caminho de referência.

Carregando o urllib:

Python inclui urllib como uma biblioteca padrão. Para usá -lo, devemos primeiro importar esta biblioteca. Para isso, abriremos a ferramenta Spyder e escreveremos o seguinte comando:

Importar urllib

Módulo urlparse ():

O módulo URLPARSE () oferece um método definido para analisar um localizador de recursos uniformes (URL) em seções distintas. Para simplificar, este módulo nos permite separar facilmente URLs em diferentes componentes e filtrar qualquer parte em particular dos URLs. Simplesmente dividiu o URL em 6 componentes relacionados à sintaxe geral de um

URL: Scheme:/Netloc/Path; Parâmetros?Fragmento de consulta#.

Vamos agora começar nosso tutorial com um exemplo prático.

de urllib.análise de manifestação urlparse, urlunparse

Neste trecho de código, a primeira coisa que fizemos foi importar o urlparse e o urlunparse do urllib.analisar. Isso permitirá todos os recursos necessários do método urlparse () em nossa ferramenta.

de urllib.Análise de importação de importação
Exemplourl = urlparse ('https: // linuxhint.com/')
print ("componentes de URL:", exemplourl)

Agora, como podemos usar o método urlparse (). Definimos uma variável chamada "Exemplourl" que armazenará os valores da string. Em seguida, usamos o operador de atribuição "=" para atribuir valores. Ao lado, chamamos o método "urlparse ()". Dentro dos aparelhos do método URLPARSE (), entre as vírgulas invertidas, definimos um URL de um site específico no qual queremos realizar a análise. A instrução Print of the Print () contém um texto citado e o nome da variável, separado por uma vírgula.

A imagem abaixo nos mostra a seguinte saída.

Você pode ver que o URL fornecido é dividido em 6 componentes. Agora, antes de mergulharmos para aprender esses componentes, primeiro aprenderemos a colocar esses componentes de volta ao URL original.

Para esse fim, o método usado é "urlunparse ()".

de urllib.análise de manifestação urlparse, urlunparse
Exemplourl = urlparse ('https: // linuxhint.com/')
print ("componentes de URL:", exemplourl)
unpar_url = urlunparse (exemplourl)
Print ("URL original:", UNPAR_URL)

Já importamos o urlunparse do urllib.analisar no trecho acima. Agora, criaremos uma variável chamada "UNPAR_URL". Invocando o método “urlunparse ()” e escrevendo o nome da variável, alocamos a abertura do URL para o método URLPARSE ().e. “Exemplourl”. Na última etapa, use a instrução "print ()" para exibir um texto e o nome da variável para descobrir o URL.

O URL analisado é exibido na imagem anexada abaixo.

O uso das funções UrlParse () e UrlunParse () foi demonstrado. Agora, vamos explorar o significado de todos os elementos do parseresult que foi devolvido.

Componentes urlparse ():

O método urlparse () divide o URL fornecido em 6 pedaços que são esquemas, netloc, caminho, parâmetros, consulta e fragmento.

O primeiro componente é o esquema. O esquema é utilizado para especificar o protocolo que deve ser usado para adquirir os recursos on -line que podem ser HTTP ou HTTPS. O próximo componente é NETLOC: net refere -se à rede enquanto Loc significa localização. Então, ele nos diz sobre a localização da rede de URLs fornecida. O componente caminho Contém o caminho preciso que um navegador da web deve seguir para adquirir o recurso fornecido. O params são os parâmetros dos elementos do caminho. O consulta adere ao componente do caminho e oferece um fluxo de dados que o recurso pode utilizar. O último componente fragmento simplesmente classifica uma parte.

Como mencionado anteriormente, cada um desses elementos contém alguns dados no URL. Como o objeto retornado é fornecido como uma tupla, todos esses componentes também podem ser recuperados, utilizando a posição do índice.

de urllib.Análise de importação de importação
Exemplourl = urlparse ('https: // linuxhint.com/')
Imprima (exemplourl.Esquema, "==", Exemplourl [0])
Imprima (exemplourl.netloc, "==", exemplourl [1])
Imprima (exemplourl.caminho, "==", exemplourl [2])
Imprima (exemplourl.params, "==", exemplourl [3])
Imprima (exemplourl.consulta, "==", exemplourl [4])
Imprima (exemplourl.fragmento, "==", exemplourl [5])

Neste trecho de código, definimos índices para cada componente separadamente dentro da instrução print (). Usamos o nome da variável com o nome do componente no qual mencionamos o nome da variável com a posição de índice na qual ela está no fluxo. Continuaremos a usar esta sequência até mencionarmos todos os componentes com as posições de índice correspondentes.

Strings resultantes podem ser vistas na imagem aqui.

Embora eles compensem a maioria do conteúdo indexado, mais palavras -chave também podem ser usadas para recuperar certas funcionalidades adicionais, como nome de host, nome de usuário, senha e porta. O nome de anfitrião identifica o nome do host do URL especificado, o nome de usuário Segura o nome do usuário, a senha mantém a senha que o usuário forneceu, enquanto o porta diz ao número da porta.g \

Conclusão

No tópico de hoje, discutimos o módulo urlparse () fornecido pelo urllib.analisar. Explicamos o propósito e a usabilidade do método urlparse (). Elaboramos em diferentes componentes do método urlparse () e também como fazemos acesso. Ao implementar os códigos de exemplo práticos no URL de qualquer site especificado que empregue a ferramenta Spyder, tentamos torná -lo simples, compreensível, mas benéfico, aprendizado para você.