Pandas Shuffle

Pandas Shuffle
“Quando precisamos reorganizar um quadro de dados, o módulo Panda do Python nos oferece várias técnicas para embaralhar suas linhas. Os dados são embaralhados aleatoriamente usando o método "Sample ()", utilizando seu parâmetro "FARC = 1". As linhas do DataFrame podem ser embaralhadas sem alterar a coluna do índice usando "RESET_Index (Drop = true)". Para criar um novo quadro de dados com a redefinição do índice, podemos usar a função "Redefinir _index ()". Isso é útil se o índice tiver que ser tratado como uma coluna ou se precisar ser redefinido para o valor padrão antes do seguinte processo.”

A sintaxe para embaralhar o quadro de dados de pandas

A sintaxe para embaralhar o quadro de dados e o índice de redefinição de pandas

Exemplo 1: Mastramento das linhas do DataFrame usando o método de amostra ()

Nesta ilustração, estamos utilizando a função "Sample ()" para recuperar elementos aleatórios do eixo de um objeto. Podemos embaralhar as linhas do nosso quadro de dados usando a função "amostra ()" para "embaralhar" as linhas.

Então, vamos começar com o nosso primeiro exemplo. Para implementar nosso código, estamos aqui usando a ferramenta "Spyder". O primeiro passo é importar a biblioteca do Panda como "PD". Agora estamos criando um quadro de dados depois de importar a biblioteca. O título do DataFrame neste código que temos “aluno”. Este DataFrame "Student" tem três colunas "Nome", "Marks" e "Comentários". Existem valores armazenados em cada uma dessas três colunas. Os nomes de vários estudantes são "Thomas", "Enna", "Ponting", "Watson" e "Emma" na coluna "Nome". Na coluna "Marcas", temos as marcas do aluno "469", "202", "430", "190" e "398". A terceira coluna, "Comentários", contém a lista de comentários, "Pass" ou "Fail".

Para gerar esse quadro, estamos usando “PD. quadro de dados". No momento, o DataFrame está sendo exibido na tela usando a função "print ()".

Agora que atingimos a seção crucial do código, temos que embaralhar as linhas do nosso quadro de dados. No Shuffling, os algoritmos de mistura de dados podem potencialmente manter os links lógicos entre as colunas enquanto reorganizam os dados. Ele abre os dados de um conjunto de dados dentro de um atributo aleatoriamente. Aqui estamos usando o método "Sample ()" com seu parâmetro "FRAC = 1". Este "frac = 1" é usado para embaralhar a ordem da linha e é usado para recuperar todos os valores dos itens do quadro de dados após a embarcação.

Este método sampling () embaralhará todas as linhas do quadro de dados, e aparecerá como uma nova espuma de quadro de dados. Agora, estamos exibindo um DataFrame mais uma vez depois de embaralhar a linha usando a função "print ()".

Você pode ver a saída do programa na tela depois de executar o código clicando em executar o arquivo na ferramenta. Em nossa imagem de saída, dois quadros de dados são visíveis. O primeiro DataFrame é formado adicionando colunas e valores a ele, e o segundo DataFrame é exibido após a embartação nas linhas usando o método "Sample ()" com seu parâmetro "FRAC = 1".

Se compararmos o primeiro e o segundo quadro de dados, é óbvio que as linhas no segundo quadro de dados serão reorganizadas. O índice deles também foi embaralhado. O primeiro índice do DataFrame começa em "0" e termina em "4", e o segundo índice do DataFrame é reorganizado para incluir "2", "4", "0", "3" e "1".

Exemplo 2: Mastramento das fileiras do DataFrame sem fazer nenhuma alteração na coluna do índice

Nesse caso, as linhas do quadro de dados estão sendo embaralhadas, mas o índice do quadro de dados não muda. O índice acima das linhas também foi embaralhado no exemplo anterior, como pode ser visto, mas como estamos usando o “RESET INDEX (DOLL = TRUE)” aqui, o índice não será reorganizado.

Vamos começar nosso código primeiro; Nós importamos a biblioteca do Panda como "PD", o próximo passo é construir um quadro de dados. O DataFrame é chamado de "dados" em seu nome. Existem três colunas neste "nome" de dados, "marcas" e "sujeito". Todas as três colunas mantêm valores em cada um deles. Na coluna "Nome", temos alguns nomes de estudantes "Noah", "Pitbul", "Jack", "Arthur" e "George". A segunda coluna, "Marks", contém uma lista de marcas que inclui "460", "304", "431", "192" e "398" e, no terceiro assunto da coluna, temos "Python", " Java "," OOP "," PF "e" Cálculo ". Agora, “PD.DataFrame ”está sendo usado para criar o DataFrame e, para exibir o DataFrame, estamos usando a função“ print () ”.

Para embaralhar as linhas do DataFrame, agora estamos usando o método "Sample ()" com o parâmetro frac = 1; No entanto, neste caso, também estamos usando "Redefinir Índice (Drop = True)", que não embaralhará o índice, mas apenas as linhas do quadro de dados. O índice pode ser redefinido para o padrão "0", "1", "2", "3", etc. Índices usando o método Reset_index (). Se você deseja evitar manter os índices anteriores na coluna "índice" por padrão, use o argumento de drop. Agora estamos novamente exibindo o quadro de dados depois de embaralhar as linhas usando a função "print ()".

Dois quadros de dados são exibidos nesta imagem de saída, como pode ser visto. Usando o argumento Redefinir “Índice (Drop = True)” com o método “Sample ()”, podemos ver que as segundas linhas do quadro de dados são embaralhadas, mas seus índices não são alterados; No entanto, se olharmos para o exemplo anterior, podemos ver que o índice também foi reorganizado porque o parâmetro "Redefinir índice (solt = true)" não foi usado.

Exemplo 3: Alterar a ordem da linha usando a permutação Numpy com o método ILOC []

Usando "Numpy Permutação" e a técnica "Iloc []", estamos reorganizando o quadro de dados neste exemplo. O método de "permutação" usa amostras aleatórias de uma sequência de permutações para nos fornecer a sequência e retorna a sequência. Se Z é uma matriz multidimensional, é embaralhada com seu primeiro índice.

Antes de executar o código, devemos importar duas bibliotecas de pandas como "PD" e Numpy como "NP". O próximo é criar um DataFrame com o nome "dados". Neste DataFrame, temos duas colunas. O "carro" é o nome da primeira coluna, e o "modelo" é a segunda coluna. Existem certos valores listados para essas duas colunas. Na coluna "Nome", temos "Suzuki", "Ford", "Toyota", "Mercedes" e "Honda" e os valores para a coluna que temos "2011", "2008", "2019". e "2017". Este DataFrame será agora gerado por “PD.quadro de dados".

Aqui, estamos utilizando a técnica "iloc []" com o método "Permutação ()" e o parâmetro de índice, o que torna muito simples embaralhar as linhas do quadro de dados. Podemos utilizar o método “iloc []” para selecionar uma coluna ou linha distintiva do conjunto de dados fornecido. Ao utilizar valores de índice, podemos obter rapidamente qualquer valor específico de uma coluna ou linha usando o método "iloc []". Porque estamos usando o parâmetro "reset_index (solt = true)" aqui, o índice do DataFrame não vai mudar. Então, vamos usar a função "print ()" para exibir nosso quadro de dados após reorganizar as linhas.

Dois conjuntos de dados foram exibidos na saída, um dos quais era o conjunto de dados original e o outro o conjunto de dados embaralhados. Aqui, podemos ver que as linhas no segundo quadro de dados foram embaralhadas e o índice não mudou. O primeiro índice do DataFrame começa em "0", enquanto o segundo índice do DataFrame começa da mesma forma em "0", mas as linhas são alteradas.

Conclusão

Nos pandas, existem inúmeros métodos para reorganizar os dados nas linhas e colunas do quadro de dados. Neste artigo, utilizamos alguns métodos simples para embaralhar as linhas do quadro de dados. Nós embarcamos a linha e recuperamos todas as linhas do quadro de dados usando a função "sample ()" com o parâmetro "FARC = true e o método" Permutação "com ILOC []. “Reset_index (Drop = true)” é usado quando precisamos alterar as linhas, mas não o índice do DataFrame. Essas estratégias de panda são simples e acreditamos que, ao implementá -las, sua tarefa será facilmente gerenciada.