PANDAS RESUMAMENTE

PANDAS RESUMAMENTE

“Os dados da série temporal geralmente precisam ser compilados ou resumidos usando um novo prazo. Esses dados de séries temporais são normalmente processados ​​usando pandas “DataFrame.reample () ”função. É uma abordagem prática para reamostrações temporais e frequências de conversão.”

Para usar este método, precisamos seguir a sintaxe abaixo:

Vamos analisar a execução prática do método "reample ()" com diferentes técnicas neste guia.

Exemplo # 1: Utilizando o método reample () para calcular a soma

Para a reamostragem dos dados da série temporal, utilizaremos o método Pandas "Resample ()". Veremos a execução do script Python para reamostragem os dados da série temporal para encontrar frequências em dias especificados.

O primeiro e fundamental requisito é uma ferramenta ou software que nos fornece um ambiente para compilar e executar o programa. Selecionamos a ferramenta Spyder para a implementação dos códigos de exemplo. Abrimos a interface Spyder; um novo arquivo com o “.A extensão py ”foi lançada. Agora comece a escrever o script python.

O requisito para executar o script aqui é a biblioteca "pandas". Isso ocorre porque o método "resample ()" é um método de pandas. Para poder usá -lo no script, devemos primeiro importar a biblioteca que o está segurando. Então, carregamos a biblioteca de pandas em nosso arquivo python e fizemos "PD" para ser usado como alias de "pandas" ao longo do programa.

O código começou invocando o “PD.função date_range () ”. Ele gerará um intervalo de data com os limites fornecidos. Estamos criando um intervalo de data porque o método Pandas "Resample ()" funciona na série Date_time. Entre os colchetes da função, definimos uma data como "2022/2/3". Este é o valor inicial do intervalo de data. O segundo parâmetro, "Período", definirá o número de uma tupla para a data para a qual especificamos "15", então o intervalo de data começa em "2022/2/3" e vai até 15 tuplas. Aqui a frequência é "d", que significa "dia" por padrão. Portanto, os intervalos serão gerados na base de dias. O “PD.O método date_range () ”criará um intervalo de 15 dias. Para salvar o intervalo de data de saída, inicializamos uma variável "index_col". Agora podemos acessar o intervalo mencionando esta variável.

Depois disso, temos que construir um quadro de dados de pandas. Para construir um quadro de dados com valores definidos pelo usuário, os pandas nos fornecem uma função “PD.Quadro de dados()". Chamamos esse método em nosso programa e o inicializamos com 3 colunas que são "estranhas", "uniformes" e "prime". Os valores definidos para cada coluna são do mesmo comprimento, que é 15.

A primeira coluna, "Odd", está mantendo números estranhos como seus valores. Esses valores são "1", "3", "5", "7", "9", "11", "13", "15", "17", "19", "21", "23" , "25", "27" e "29". Os números pares são armazenados na coluna "par" como "2", "4", "6", "8", "10", "12", "14", "16", "18", "20" , "22", "24", "26", "28" e "30". Enquanto a última coluna, "Prime", está tendo os 15 primeiros números primos como seus valores: "1", "2", "3", "5", "7", "11", "13", "17" , "19", "23", "29", "31", "37", "41" e "47".

Logo após definir valores para todas as colunas no “PD.DataFrame () ”Método, também definimos nossa coluna de índice. Fizemos isso utilizando a propriedade "índice" do DataFrame e atribuindo -lhe a variável "index_col", que está mantendo a série de intervalo de data. Isso significa que estamos definindo o intervalo de data como a coluna de índice de nosso quadro de dados em vez da lista de índices padrão. O objeto "números" preservará o resultado que será gerado quando invocarmos o "PD.DataFrame () ”função. O DataFrame é exibido, em última análise, empregando o método "print ()". Este método simplesmente exibe o que for fornecido como entrada nele. Entramos o objeto "números" para mostrá -lo no terminal.

O programa executado gera uma saída na qual podemos ver um DataFrame possui 3 colunas, "ímpares", "par" e "prime", enquanto a coluna do índice tem um intervalo que começa de "2022-02-03" e termina em "2022-02-17", criando um intervalo de 15 dias.

Agora vamos executar a reamostragem deste documento de dados. Os pandas "resample ()" funcionam com o DateTimeIndex. Este método leva os dados da série de tempo como entrada e transforma os dados da série temporal em diferentes frequências definidas.

Para esta ilustração, mudaremos a frequência do DateTimeIndex de um intervalo de 1 dia para um intervalo de 2 dias. Nós invocamos o “PD.redimensionamento().Sum () ”Método. O método "reample ()" declarará a frequência, enquanto a função "soma ()" calculará a soma dos dias para a frequência fornecida. Fornecemos o nome do DataFrame como "números" com o ".redimensionamento().Sum () ”Método.

O parâmetro "regra" é transmitido para o método "resample ()" e seu valor é definido como "2D", o que significa criar a frequência de um intervalo de 2 dias e depois calcular a soma dos valores no quadro de dados para o 2 dias consecutivos. O quadro de dados reamostrado resultante será salvo na variável "dois dias". Por fim, apresentamos na tela usando a função "print ()".

Aqui a imagem de saída exibe um quadro de dados re-amostrado no qual temos 8 registros. A frequência foi definida para 2D para o DateTimeIndex e a soma dos valores é calculada para um intervalo 2D.

Exemplo # 2: Utilizando o método reample () para calcular a média

A primeira demonstração usou a função "soma ()" para calcular a soma dos dados reamostrados com a frequência de 2 dias. Além de calcular a soma, também aplicamos outros métodos com o método "Resample ()". Nesta ilustração, usaremos a função "Mean ()" para calcular a média dos dados reamostrados com uma frequência semanal.

Estamos utilizando o mesmo quadro de dados que foi criado na instância anterior. O “df.A função reample () "é empregada com a“.Método médio () ”. Invocamos o método com 2 parâmetros; "Regra" e "fechado". O parâmetro "regra" leva a duração do tempo para a conversão necessária. Como queremos a conversão em dados semanais de séries temporais, inserimos "W"; usado por uma semana. O segundo parâmetro, "fechado", está definido como "Right" por padrão para a frequência "W", mas aqui mudamos para "Esquerda". Isso significa que o intervalo na lixeira esquerda é inclusivo e o intervalo na lixeira direita é restrito.

Então usamos o “.função média () ”, que calculará a média dos valores em intervalos semanais. O DataFrame final será mantido pela variável "média". A função "print ()" exibirá no console python.

Quando compilamos o programa Python, obtemos esse quadro de dados que possui apenas 3 registros. Ele calculou valores médios para uma semana em cada coluna.

Da mesma forma, podemos converter a frequência em mensalmente usando "m", para uso trimestral "q", para usar a cada hora "h", para segundos use "s", e muitas outras opções estão lá para serem empregadas de acordo com o requerimento.

Conclusão

Os dados da série temporal às vezes precisam ser convertidos em uma nova frequência. Os pandas nos fornecem um método, “df.reample () ”, para lidar com essa necessidade. Este artigo demonstrou dois métodos diferentes para reamostragem os dados usando DateTimeIndex. Nós exercitamos diferentes técnicas para calcular diferentes dados de intervalo. O primeiro exemplo elaborou o cálculo da soma da frequência de 2 dias para reamostrações de dados, enquanto os 2nd Exemplo foi realizado para descobrir a média dos valores em bases semanais. Cada técnica é apresentada com um código de programa de amostra e a saída correspondente.