Isso tem uma implicação. Sua implicação é que existe muitos dados úteis no Google e que exige a necessidade de raspar esses dados dourados. Os dados raspados podem ser usados para análise de dados de qualidade e descoberta de idéias maravilhosas. Também pode ser importante para obter ótimas informações de pesquisa em uma tentativa.
Falando sobre raspagem, isso pode ser feito com ferramentas de terceiros. Isso também pode ser feito com uma biblioteca Python conhecida como SCRAPY. O scrapy é classificado como uma das melhores ferramentas de raspagem e pode ser usado para raspar quase qualquer página da web. Você pode descobrir mais na biblioteca de scrapy.
No entanto, independentemente dos pontos fortes desta maravilhosa biblioteca. Rasgar dados no Google pode ser uma tarefa difícil. O Google desce com força em qualquer tentativa de raspagem na web, garantindo que os scripts de raspagem nem sequer façam tantos 10 pedidos de raspagem em uma hora antes de ter o endereço IP banido. Isso torna inúteis os scripts de raspagem da web de terceiros e pessoais.
O Google dá a oportunidade de raspar informações. No entanto, qualquer raspagem que seria feita deve ser através de uma interface de programação de aplicativos (API).
Apenas caso você ainda não saiba o que é uma interface de programação de aplicativos, não há nada com o que se preocupar, pois fornecerei uma breve explicação. Por definição, uma API é um conjunto de funções e procedimentos que permitem a criação de aplicativos que acessam os recursos ou dados de um sistema operacional, aplicação ou outro serviço. Basicamente, uma API permite obter acesso ao resultado final de processos sem ter que estar envolvido nesses processos. Por exemplo, uma API de temperatura forneceria os valores Celsius/Fahrenheit de um lugar sem que você tenha que ir lá com um termômetro para fazer as medidas.
Trazendo isso para o escopo de eliminar informações do Google, a API que estaríamos usando nos permite acesso às informações necessárias sem ter que escrever qualquer script para raspar a página de resultados de uma pesquisa do Google. Através da API, podemos simplesmente ter acesso ao resultado final (depois que o Google faz o "raspagem" no final deles) sem escrever nenhum código para raspar as páginas da web.
Enquanto o Google tem muitas APIs para diferentes propósitos, usaremos a API de pesquisa personalizada JSON para os fins deste artigo. Mais informações sobre esta API podem ser encontradas aqui.
Esta API nos permite fazer 100 consultas de pesquisa por dia gratuitamente, com planos de preços disponíveis para fazer mais consultas, se necessário.
Para poder usar a API JSON de pesquisa personalizada, estaríamos precisando de um ID de mecanismo de pesquisa personalizado. No entanto, teríamos que criar um mecanismo de pesquisa personalizado primeiro, o que pode ser feito aqui.
Ao visitar a página do mecanismo de pesquisa personalizado, clique no botão "Adicionar" para criar um novo mecanismo de pesquisa.
Na caixa "Sites para pesquisar", basta colocar "www.Linuxhint.com ”e na caixa“ Nome do mecanismo de pesquisa ”, coloque qualquer nome descritivo de sua escolha (o Google seria preferível).
Agora clique em "Criar" para criar o mecanismo de pesquisa personalizado e clique no botão "Painel de controle" da página para confirmar o sucesso da criação.
Você veria uma seção "ID do mecanismo de pesquisa" e um ID embaixo dela, esse é o ID que precisaríamos para a API e nos referiríamos a ele mais tarde neste tutorial. O ID do mecanismo de pesquisa deve ser mantido em particular.
Antes de sairmos, lembre -se de que colocamos “www.Linuhint.com ”antes. Com essa configuração, só obteríamos resultados apenas do site. Se você deseja obter os resultados normais da pesquisa total da web, clique em "Configuração" no menu à esquerda e clique na guia "Basics". Vá para a seção “Pesquise a Web inteira” e alterne este recurso em.
Criando uma chave de API
Depois de criar um mecanismo de pesquisa personalizado e obter seu ID, o próximo será criar uma chave de API. A chave da API permite o acesso ao serviço da API e deve ser mantido seguro após a criação, assim como o ID do mecanismo de pesquisa.
Para criar uma chave da API, visite o site e clique no botão "Get A Tecla".
Crie um novo projeto e dê um nome descritivo. Ao clicar em "Avançar", você teria a chave da API gerada.
Na próxima página, teríamos diferentes opções de configuração que não são necessárias para este tutorial, então basta clicar no botão "Salvar" e estamos prontos para ir.
Acessando a API
Ficamos bem obtendo o ID de pesquisa personalizado e a chave da API. Em seguida, vamos usar a API.
Enquanto você pode acessar a API com outras linguagens de programação, faremos isso com Python.
Para poder acessar a API com Python, você precisa instalar o cliente da API do Google para Python. Isso pode ser instalado usando o pacote de instalação do PIP com o comando abaixo:
PIP Instale o google-api-python-client
Depois de instalar com sucesso, agora você pode importar a biblioteca em nosso código.
A maior parte do que será feita será através da função abaixo:
de googleapiclient.Construção de importação de descobertaNa função acima, o my_api_key e my_cse_id As variáveis devem ser substituídas pela chave da API e pelo ID do mecanismo de pesquisa, respectivamente, como valores de string.
Tudo o que precisa ser feito agora é chamar a função que passa no termo de pesquisa, a chave da API e o ID da CSE.
resultado = google_search ("café", my_api_key, my_cse_id)A chamada de função acima procuraria a palavra -chave "café" e atribuiria o valor retornado ao resultado variável, que é então impressa. Um objeto JSON é devolvido pela API de pesquisa personalizada; portanto, qualquer análise adicional do objeto resultante exigiria um pouco de conhecimento de JSON.
Isso pode ser visto em uma amostra do resultado, como visto abaixo:
O objeto JSON retornado acima é muito semelhante ao resultado da pesquisa do Google:
Raspar o Google para obter informações não vale realmente a pena. A API de pesquisa personalizada facilita a vida para todos, pois a única dificuldade é analisar o objeto JSON para as informações necessárias. Como lembre.