Índice de mudança de pandas

Índice de mudança de pandas
Neste artigo, tentaremos ensiná-lo a definir o índice do Pandas Dataframe usando uma lista de etiquetas ou as colunas já existentes. Cobrimos todas as situações em que os novos rótulos da linha são atribuídos ou os existentes precisam ser alterados. A estrutura tabular no pacote pandas é chamada de quadro de dados. Cada linha e coluna são representadas por seu rótulo. Um índice é uma etiqueta de linha, enquanto uma etiqueta de coluna é um índice de coluna ou cabeçalho. Python Pandas por padrão define uma série de números (começando em 0) como um índice para linhas ao gerar um DataFrame. Cada linha é identificada exclusivamente usando um índice de linha. Usaremos a função set_index () para alterar os índices de linhas no quadro de dados que criaremos ou que foram criados por padrão.

Como alterar o índice nas colunas pandas

Podemos fazer uma das colunas no quadro de dados no índice usando o método pandas set_index. Para entender como o método set_index () funciona, vejamos sua sintaxe.

Sintaxe para o DataFrame.set_index

Quadro de dados.set_index (chaves, goten = true, append = false, inplace = false, verify_integrity = false)

Parâmetro

  • chaves: Nome de uma coluna ou um conjunto de nomes de colunas.
  • derrubar: Se for verdade, o valor booleano solta a coluna do índice.
  • acrescentar: Se verdadeiro, adiciona a coluna à coluna de índice já existente.
  • no lugar: Se verdadeiro, ele aplica as alterações no quadro de dados.
  • Verify_integrity: Se for verdade, verifique se há alguma duplicata na nova coluna de índice.

Como vimos na sintaxe, agora veremos como usar a função set_index () para definir ou alterar os índices de um DataFrame nos exemplos a seguir.

Exemplo 1: Configurando o índice do DataFrame usando a função set_index ()

Um amostra de dados de dados com algumas linhas e colunas é criado primeiro. Apenas um quadro de dados simples que contém um registro de estudante "fictício" é criado aqui. O nome, idade, sujeito e taxa são as quatro colunas ou variáveis ​​no quadro de dados “df.”

Primeiro importamos o módulo Pandas para usar os recursos e funções fornecidas pela biblioteca. Então, um dicionário é passado em parâmetros do PD.DataFrame () funciona como um argumento para criar um DataFrame "DF".

Observe que, no lado esquerdo do quadro de dados exibido, há um número no início de cada linha (os números de 0 a 6). Esses números são conhecidos como índices. Agora, usamos o método pandas set_index () para definir o índice do quadro de dados "df". Para conseguir isso, devemos digitar o nome do DataFrame, seguido por um "ponto" e, em seguida, o nome do método que é "Set Index ()". Usamos o nome da coluna entre os parênteses da função set_index ().

A coluna "Fee" assumiu o local do índice inteiro anterior (0 a 6). Passamos a coluna "Fee" dentro da função set_index () como um argumento para defini -la como o índice de linha de nosso quadro de dados.

Exemplo 2: Definindo o índice do DataFrame usando uma lista

Também podemos fornecer ao quadro de dados uma lista de rótulos que podem ser strings ou números. Usamos a função set_index () para criar um novo índice no quadro de dados usando o objeto da lista. Vamos criar nosso quadro de dados com um dummy dados depois de importar os módulos de pandas.

Nosso DataFrame é criado com três colunas - "Nome", "Age" e "Country" - armazenando os dados fictícios. Agora, usando uma lista de rótulos, é criado um índice Python que passaremos para o DataFrame.definir index () função como uma entrada.

Passamos por uma lista contendo os rótulos dos índices de linha ['R1', 'R2', 'R3', 'R4', 'R5', 'R6'] para o PD.Índice () função e atribuiu -o à variável "índice". A variável é então passada como um argumento dentro dos parênteses da função set_index () para definir os índices do quadro de dados.

Como visto no quadro de dados fornecido, nossa lista especificada substituiu o índice padrão do DataFrame com os rótulos ("R1", "R2", "R3", "R4", "R5", "R6").

Exemplo 3: Definindo o índice do DataFrame usando várias colunas

DataFrames em Python pandas com mais de uma linha ou coluna como índice são conhecidos como quadros de dados de vários índices. Usando o DataFrame.função set_index (), podemos definir várias colunas como etiquetas de linha. Deve -se entender que a definição de mais de um índice torna nosso quadro de dados complicado. O índice pode ser estruturado de várias maneiras. Mostraremos como definir as várias colunas como um índice de uma maneira simples. Vamos primeiro criar nosso quadro de dados.

Nosso DataFrame possui quatro colunas - "ID", "Nome", "Curso" e "Code".

A partir dessas colunas, decidimos quais colunas são apropriadas de usar como índices de nosso quadro de dados. Depois de decidir as colunas adequadas, passamos uma lista com dois rótulos dentro da função set_index ().

As colunas "ID" e "Code" são definidas como os índices de linha no DataFrame. Ao usar os nomes das colunas dentro da lista e passando -os para o set_index (), atribuímos essas colunas como índices. A lista ["ID", "Code"] é passada como o argumento do set_index (). Tanto o nome quanto as colunas da região são os novos índices, como visto na saída.

Exemplo 4: Definindo o índice do DataFrame usando a série Python

Um quadro de dados com vários índices pode ser criado atribuindo novas séries usando o “DataFrame.Set_index () ”função quando precisamos alterar o índice inteiro existente com algumas séries de pandas, em vez das colunas do quadro de dados. Criamos um DataFrame primeiro, passando um dicionário dentro do PD.Função DataFrame () para demonstrar como uma série pode ser passada como os índices de primeiro e segundo nível do Dataframe.

Agora, criamos uma série passando uma lista de números inteiros dentro dos parênteses do PD.Função da série (). Atribuímos esta série a "n" variável.

Como visto no quadro de dados fornecido, nossa série "n" e "n ** 2" são definidos como os primeiros e os índices de segundo nível.

Exemplo 5: Definindo o índice do quadro de dados usando a linha Python

Digamos que precisamos especificar uma série de números inteiros como o índice do quadro de dados para que possa começar em qualquer número. Por exemplo, queremos iniciar o número de identificação para o funcionário DataFrame em 1. Não é possível usar o quadro de dados.Set_index () função com uma lista de todos os números como entrada. O método Python Range () pode ser usado nesta situação. Ao usar a função range (), podemos criar um índice de pandas que podemos passar para o quadro de dados.Função definida Index (). Vamos criar um quadro de dados para que possamos substituir sua função row_index usando a função range ().

Criamos nosso quadro de dados com as colunas "nome", "classificação", "bônus" e "salário". Agora, vamos definir o índice usando a função range () no lugar do índice inteiro padrão. O método range () retorna uma série de números que começam em 0 por padrão, aumenta em 1 (por padrão) e termina antes de um número especificado.

Especificamos o intervalo de índice para começar em 1, aumentar em 1 e terminar antes de 6. Depois de especificar o intervalo de índice, passamos a variável "índice" na função set_index () como uma entrada para definir o índice de linha do nosso quadro de dados.

Conclusão

Neste tutorial, discutimos os índices de um quadro de dados e como definir os novos índices em um quadro de dados existente. Vimos que o construtor python cria um índice inteiro para cada linha por padrão, mas pode ser alterado usando a função set_index (). Vimos a sintaxe da função set_index () neste tutorial e implementamos os múltiplos exemplos para ensinar como definir o índice de linha do quadro de dados usando listas, séries e colunas em pandas.