Melhores mecanismos de pesquisa auto-hospedados

Melhores mecanismos de pesquisa auto-hospedados
Seu chefe sabe que você está procurando outro emprego? Você contou ao seu outro significativo sobre a incapacidade de decidir se você quer ter filhos ou não? Vocês pais sabem sobre sua orientação sexual? Bem, o Google e outros principais mecanismos de pesquisa fazem.

"A maioria dos usuários pesquisa no Google enquanto fazia assinatura, para que todas as informações sobre sua vida on-line estejam disponíveis: pesquisas, e-mails e histórico de pesquisas anteriores do YouTube", diz Adam Tauber, desenvolvedor principal do mecanismo de metasearch de privacidade, Searx, Searx.

Obviamente, você pode usar o Tor para anonimato e sempre excluir todos os vestígios de sua atividade após cada pesquisa, mas fazê -lo depois de cada pesquisa provavelmente envelhece. Em vez disso, considere instalar um mecanismo de pesquisa auto-hospedado capaz de recuperar informações para você sem revelar nada sensível a você.

Selecionamos dois desses mecanismos de pesquisa e também introduzimos três mecanismos de pesquisa adicionais para mostrar que excelentes alternativas aos mecanismos de pesquisa proprietários, como o Google ou o Bing, já existem e são mais fáceis de instalar e usar do que você imagina.

Yacy

Yacy é um mecanismo de pesquisa de ponto a ponto distribuído gratuito cujo componente principal é escrito em java. Como todos os usuários da Yacy são iguais e como o mecanismo de pesquisa não armazena solicitações de pesquisa de usuário, a censura simplesmente não é possível.

Atualmente, Yacy indexa cerca de 1.4 bilhões de documentos em seu índice graças à atividade de mais de 600 operadores de pares que contribuem para isso a cada mês. Para comparação, o índice de pesquisa do Google contém centenas de bilhões de páginas da web e tem mais de 100.000.000 de gigabytes em tamanho.

Embora Yacy ainda tenha um longo caminho a percorrer antes que possa rivalizar com os maiores mecanismos de pesquisa centralizados do mundo, já é utilizável como um portal de pesquisa para intranets privados e aplicativos específicos do projeto, porque a Yacy pode operar como um único dispositivo de pesquisa sem rede com outros pares.

Yacy pode ser facilmente integrado a qualquer página da web graças aos seus trechos de código simples que podem ser copiados sem esforço e colados sem qualquer modificação.

Searx

O Searx é descrito como um mecanismo de metasearch hackable que respeita a privacidade. Está disponível no GNU Affero Geral Public License Versão 3, e seu principal objetivo é proteger a privacidade de seus usuários, nunca compartilhando os endereços IP dos usuários ou o histórico de pesquisa com os mecanismos de pesquisa dos quais ele reúne resultados.

“Ao usar o Searx, o endereço IP do Searx, um agente de usuário aleatório e uma consulta de pesquisa são enviados ao Google por padrão”, Adam Tauber, também conhecido. “Obviamente, você pode personalizar o Searx para encaminhar outros parâmetros extras, como o idioma de pesquisa ou o número da página da página de resultado solicitada.”

O Searx bloqueia automaticamente todos os cookies de rastreamento servidos pelos mecanismos de pesquisa para impedir a modificação de resultados baseados em perfil do usuário, que pode resultar de um mecanismo de pesquisa tentando implementar a pesquisa que é individualizada com base no que o mecanismo sabe sobre o usuário. Searx é 100 % livre e qualquer um pode modificá -lo conforme necessário. Você pode até pegar o código Searx e executar o mecanismo de metasearch em seu próprio servidor, o que definitivamente deve abordar quaisquer preocupações que você possa ter com relação aos logs.

Elasticsearch

Elasticsearch é um mecanismo de pesquisa baseado no Lucene, uma biblioteca de software de recuperação de informações gratuita e de código aberto suportado pela Apache Software Foundation e é lançado sob a licença de software Apache.

Elasticsearch fornece um mecanismo de pesquisa de texto completo com uma interface da web http. O mecanismo de pesquisa pode ser usado para pesquisar todos os tipos de documentos e pode ser facilmente distribuído em vários nós.

É possível construir um mecanismo de pesquisa auto-hospedado usando o Elasticsearch e o Docker, e você pode encontrar um tutorial que descreva o processo aqui.

Ambar

Ambar é um mecanismo de pesquisa de documentos de código aberto com muitos recursos úteis. Ele suporta rastreamento automatizado, marcação e pesquisa de texto completo instantâneo, apenas para dar alguns exemplos. Um dos recursos mais emocionantes do Ambar é sua capacidade de executar OCR em imagens e arquivos PDF. Os idiomas apoiados incluem inglês, alemão, russo, italiano, francês, espanhol, polonês e holandês.

Ambar pode ser facilmente implantado com um único arquivo Docker-Compose, e você pode aprender como fazê-lo aqui.

Apache Solr

Escrito em Java, o Apache Solr é uma plataforma de pesquisa corporativa que inclui pesquisa de texto completo, destaque, pesquisa facetada, indexação em tempo real, agrupamento dinâmico e muitos outros recursos importantes. Foi criado em 2004 para um projeto interno na CNET Networks. As redes da CNET doaram gentilmente para a Apache Software Foundation em 2006, onde se formou no status de incubação em um projeto de nível superior independente em 2007.

Hoje, Solr é uma plataforma de pesquisa corporativa altamente confiável, escalável e tolerante a falhas que alimenta os recursos de pesquisa e navegação de muitos dos maiores sites da Internet do mundo, incluindo DuckDuckgo, Eharmony e Bestbuy. Você pode

Como instalar e configurar Yacy

A instalação de Yacy é muito simples e leva apenas alguns minutos, porque você não precisa instalar um banco de dados externo ou servidor da web que você vem com tudo o que é necessário.

  1. Vá para o site oficial de Yacy e faça o download do pacote mais recente para Linux.
  2. Instale o ambiente OpenJDK 8 de tempo de execução.
    • Se você estiver usando uma distribuição baseada no Debian, use o seguinte comando: $ sudo apt-get install OpenJdk-8-jre
    • Caso contrário, siga as instruções específicas para sua distribuição.
  3. Extraia o pacote baixado para o seu local preferido.
  4. Vá para a nova pasta e comece a “Startyacy.script sh ”no terminal.
  5. Você deve ver uma mensagem de confirmação informando que Yacy começou como um daemon

Conclusão

Os mecanismos de pesquisa sabem mais sobre nós do que a maioria das pessoas gostaria de admitir. Se você deseja parar de alimentar grandes corporações com dados suculentos, pode levar as coisas com suas próprias mãos e configurar um mecanismo de pesquisa auto-hospedado para proteger sua privacidade. Embora os mecanismos de busca auto-hospedados ainda tenham um longo caminho a percorrer para se tornar totalmente utilizável, o potencial para eles superarem os gostos do Google está lá e capturá-lo é apenas uma questão de atrair mais usuários.