Pandas se fundem por índice

Pandas se fundem por índice
O procedimento de combinar dois conjuntos de dados em um e alinhar as linhas de acordo com atributos ou colunas compartilhados é conhecido como “pandas mescle ()” ”. Usando uma operação de junção no estilo de banco de dados, dois objetos de DataFrames são combinados usando a função Pandas Dataframe "Merge ()". Uma estrutura de dados bidimensional chamada Pandas Dataframe está alinhada em um formato tabular. Existem inúmeras maneiras de integrar esses quadros de dados, incluindo "junção ()" e "Merge ()". Os procedimentos de junção completos e excelentes do Pandas são comparáveis ​​aos de um banco de dados relacional SQL. Operações de junte -se entre os objetos do DataFrames podem ser realizados usando a função "Merge ()". Em colunas ou índices, a união é feita. Os índices não são levados em consideração ao ingressar em colunas. Os objetos de quadro de dados de origem são intocados e um novo quadro de dados é retornado por esta função.

Embora sejam usados ​​em situações distintas, os pandas "ingressar" e "merge" são usados ​​para realizar junções em pandas de dados de dados. Embora o procedimento "Merge ()" seja mais flexível e permita que você une os quadros de dados em índices e colunas, a função junção () é normalmente usada para ingressar em quadros de dados no índice. O "Left_index" é usado como a chave de junção e o "Right _index", que usa o índice do "DataFrame correto", é usado como a outra chave de link. A técnica "junção ()" pode ser empregada para se juntar ao quadro de dados esquerdo em uma coluna, mas o quadro de dados certo exige que ele seja anexado ao seu índice.

A sintaxe para combinar dois quadros de dados por índice usando o método Merge ()

Usando esta sintaxe, dois quadros de dados podem ser combinados com base em seus índices.

A sintaxe para unir dois quadros de dados por índice usando o método junção ()

Exemplo 1: Ao usar o índice, a função Merge () pode ser usada para ingressar em dois quadros de dados.

Panda é um módulo para processamento de dados. Os dados tabulares podem ser armazenados em python utilizando um quadro de dados. Você pode armazenar e trabalhar rapidamente com dados tabulares, como linhas e colunas, usando o DataFrame. Os pandas oferecem uma variedade de instalações para combinar séries ou dados de dados com vários tipos de raciocínio de conjunto para os índices e recursos de matemática estrutural em caso de operações do tipo junção ou merge.

Neste exemplo, usaremos a função "Merge ()" para ingressar em dois quadros de dados combinando seus valores de índice. Neste exemplo, dois quadros de dados são criados. O primeiro dataframe tem duas colunas e é chamado "Data1". "Age" e "Nomes" são as colunas de "Data1". Temos uma lista de valores em cada coluna. Os valores para "idade" temos "28", "37", "29" e "32" e para a coluna "Nome", temos "George", "James", "Arthur" e "Henry". Neste DataFrame, o tamanho do índice é "4". O índice "ID" é "1", "2", "3" e "4". As informações do índice do DataFrame são retornadas através da propriedade Index. As etiquetas para as linhas estão contidas nas informações do índice. A propriedade Index produz um objeto de índice de intervalo com os valores de partida, final e fase se as linhas não tiverem índices nomeados.

Em seguida, criamos outro DataFrame "Data2". Tem duas colunas "id" e "profissão". Nessas duas colunas, temos uma lista de valores. Na coluna "ID", temos "1", "2", "3" e "4" . A coluna "Profissão" tem "Doutor" e "Professor" e "Engenheiro". Então, mencionamos o índice aqui que é "1", "2", "3", "6" e "7".

Agora, usamos a função "Merge ()" para ingressar nos dois quadros de dados, "Data1" e "Data2". Dois parâmetros da função de mescla. Certas linhas e colunas de dados devem ser escolhidas de um quadro de dados. Como a chave combinada, o "índice esquerdo" é utilizado a partir do quadro de dados esquerdo e outra chave de conexão. O "Right _index" utiliza o índice do quadro de dados certo.

Indexação é o processo de escolha de todas as linhas e algumas das colunas, algumas das linhas e todas as colunas, ou um pedaço de cada linha e cada coluna. Outro nome para indexação é a seleção de subconjunto. "Merge ()" é a função que você precisa quando deseja mesclar itens de dados com base em uma ou mais chaves, assim como você faria em um banco de dados relacional. A fusão de linhas particularmente com dados semelhantes é melhor realizada com a função "Merge ()". Agora, ele concatenará os dois quadros de dados combinando seu endereço de índice e os exibirá na tela usando a função "print ()".

Um quadro de dados é mostrado na imagem de saída neste exemplo. Portanto, quando a função de mescla. As duas últimas linhas do segundo quadro de dados e a quarta linha do primeiro dadoframe não puderam ser mostradas porque seus endereços de índice não correspondem. O tamanho do quadro de dados que temos agora é três depois de usar a mesclagem no índice.

Exemplo 2: Para combinar dois quadros de dados, dependendo de seus índices, use a função de junção ().

Existem situações em que a fusão de dois quadros de dados produz um quadro de dados com um padrão de índice que não atende aos nossos requisitos. Queremos modificar o índice que resulta da mesclagem. Ao mesclar os quadros de dados, redefiniremos o índice por esse motivo. A menor quantidade de controle é possível com esta função com base em uma coluna ou índice compartilhado, as linhas das duas tabelas serão unidas.

Para o nosso segundo exemplo, que é semelhante ao primeiro, este programa possui dois quadros de dados "DF1" e "DF2". Temos duas colunas "nomes" e "marcas" no primeiro dataframe. Os valores que temos na primeira coluna são "Emma", "Watson", "Jhon", "Lilly", "Edward", "Noah", "Smith" e "Enna" e os valores na coluna "Marks" são “25”, “20”, “14”, “16”, “27”, “20”, “12” e “15”. Depois disso, tivemos uma lista de índices "A", "B", "C", "D", "E", "F", "G" e "H". Da mesma forma, existem duas colunas no segundo Dados Dataframe "Assunto" e "Comentários". Na coluna "Assunto", temos uma lista de assuntos que incluem "OOP", "PF", "Python", "Java", "PHP" e "Cálculo" e temos uma lista de comentários na coluna "Comentários" que são "passe" ou "falhas". A lista de índices para o Second Dataframe é "A" "C", "D", "G", "M" e "N".

Então, com base nos índices dos dois quadros de dados, nós os mesclamos usando a técnica "junção ()". A estratégia de junção funciona melhor ao vincular os quadros de dados em seus índices, mesmo que possamos escolher outra coluna para o quadro de dados esquerdo para participar. Além de nos permitir fornecer colunas diferentes do índice para participar de ambos os quadros de dados, a técnica de mesclagem é mais flexível. Ele mesclará DF1 e DF2 depois de corresponder ao índice do DF2 com o índice do DF1, ele exibe o "nan" nessa linha de DF2 para aqueles cujos índices não correspondem.

Três quadros de dados podem ser vistos na imagem resultante. Os dois primeiros dados de dados "df1" e "df2" são aqueles que criamos. Podemos ver que o terceiro dataframe usa a função "junção ()" para combinar os quadros de dados superior e inferior com base em seus índices. Aqueles cujo índice não correspondia foi exibido "nan" lá.

Conclusão

O DataFrame é combinado usando a técnica Pandas "Merge ()". As colunas de ambos os quadros de dados são combinados durante o processo de união conhecido como fusão. Unir -se, índices ou uma combinação dos dois também é suportada pela fusão. Este artigo abordou a operação das funções "Juns ()" e "Merge ()" na Biblioteca Pandas Python. Você pode ingressar facilmente a dois quadros de dados usando seus locais de índice usando os métodos mencionados acima, e também aprendeu como implementar os procedimentos de junção.