Existem dois cenários diferentes ao calcular a mediana de um conjunto de dados:
Caso você tenha um número ímpar de valores, a solução é direta e você pode encontrar o número do meio facilmente.
Se você está tentando encontrar a mediana para um número par de valores, você deve tomar a média ou a média dos dois números do meio. Em outras palavras, você precisa adicionar os dois valores que estão no meio do conjunto de dados e dividir sua soma por dois.
Neste artigo, vamos nos concentrar em como você pode encontrar a mediana de um conjunto de dados em seu banco de dados Amazon Redshift. O Redshift é um serviço de data warehousing muito famoso da AWS para resolver consultas complexas de banco de dados e executar trabalhos de análise de big data.
Sintaxe para usar a função mediana
Se você estiver trabalhando com o Redshift, poderá encontrar facilmente a mediana de um conjunto de dados usando a seguinte sintaxe:
Mediana (Aqui o expressão mediana é simplesmente o conjunto de dados ou o nome da coluna para o qual você deseja encontrar a mediana.
Exemplos de uso da função mediana
Agora, vamos dar um exemplo em que você deseja encontrar a mediana para a idade dos estudantes da turma. Você tem uma mesa Class_data com duas colunas nome e idade No cluster do desvio para o vermelho.
Temos dados aleatórios e não ordenados e queremos a mediana desses dados. Para encontrar a mediana para esse conjunto de dados, você estará escrevendo a seguinte consulta no Redshift:
Selecione mediana (idade)A consulta é simples e curta, mas retorna a mediana do conjunto de dados fornecida através da expressão de entrada. A função mediana pode ser apenas uma pequena parte de muitas consultas complexas em análise de dados difíceis e empregos estatísticos.
Você viu como encontrar a mediana de uma coluna pertencente a uma determinada tabela de banco de dados. Vamos passar para um nível mais alto e ver como a função mediana pode ser usada em consultas complexas de desvio para o vermelho.
Caso condicional
Aqui, você vai ver como você pode adicionar uma declaração condicional enquanto tenta encontrar uma mediana de um conjunto de dados. Suponha que você esteja trabalhando como especialista em TI no departamento de vendas e receita da sua organização. Você recebe uma tarefa da sua alta gerência para encontrar a mediana para os projetos que custam mais de mil dólares e agora todos os projetos estão listados em uma única tabela de banco de dados sem qualquer segregação de custo.
Você já sabe como encontrar a mediana para esta coluna. Mas aqui, nosso requisito é um pouco diferente, é por isso que você usará a seguinte consulta para alcançar os resultados desejados:
Selecione mediana (custo)Você vai obter a seguinte saída desta consulta. A mediana que recebemos é calculada após ignorar todos os valores de custo menor que mil.
É assim que você pode utilizar a função mediana com um limite condicional para obter os resultados necessários no banco de dados do Redshift.
Função mediana da janela
Caso você não esteja familiarizado com as funções da janela, elas são usadas quando você não deseja aplicar a função em toda a tabela ou coluna do banco de dados. As funções da janela permitem que você aplique uma função em um conjunto ou um grupo específico ou em uma variedade de dados. Cada grupo retornará seu resultado para essa função específica em uma única saída. Você pode encontrar funções de janela correspondentes para muitas funções SQL no Amazon Redshift.
Suponha que você inicie um novo projeto, mas sua empresa não tem alguns dos conjuntos de habilidades para concluir esse projeto. Por esse motivo, você deseja terceirizar parte da parte do projeto para o qual você tem outras organizações para fornecer cotações para este projeto de terceirização. Cada cliente criou três planos de execução diferentes dos quais você precisa escolher um.
Agora, você precisa ir com um plano moderado para cada cliente. Para encontrar a solução primeiro, você encontrará a mediana para cada cliente separadamente. Estaremos usando a função mediana da janela para esta tarefa.
Selecione Client_name, Project_type, mediana (citação_value)Na saída, você obterá os seguintes resultados. A mediana para cada cliente é calculada e exibida separadamente usando o SOBRE cláusula onde mencionamos o Nome do cliente Para a base desta partição.
Dessa forma, você pode utilizar a função mediana da janela usando o Amazon Redshift. Este esquema pode ser usado para conjuntos de dados mais complexos e muito maiores também.
Conclusão
Se você deseja encontrar a mediana de um conjunto de dados no Amazon Redshift, pode executar essa tarefa facilmente usando a função mediana do desvio para o vermelho, que permite calcular a mediana para uma coluna completa ou apenas para um pequeno grupo de valores usando a função mediana da janela. Existem certos casos e cenários de função mediana discutidos neste blog para deixar seu entendimento claro.