Como extrair valores únicos da coluna Pandas?
Várias maneiras podem ser usadas para encontrar valores únicos em pandas. A maneira mais comum de extrair valores exclusivos de uma coluna é usar a função exclusiva () e a função Drop_duplicates (). Antes de usar essas funções, vamos ver sua sintaxe primeiro.
Sintaxe da função exclusiva (): série.exclusivo( )
Retornos: ndarray ou extensionArray
Sintaxe da função Drop_duplicate ()
Quadro de dados.Drop_duplicates (subcet = Nenhum, mantenha = 'primeiro', inplace = false)
Parâmetros:
subconjunto: Uma lista de etiquetas de coluna ou uma coluna é exigida pelo subconjunto. Nenhum é o valor padrão para isso. Depois de passar colunas, isso só levará em consideração duplicatas.
manter: Para controlar como os valores duplicados são considerados. Podemos usar três valores distintos; é 'primeiro' por padrão.
no lugar: Valor booleano. Se verdadeiro, remove linhas duplicadas.
Retornos: Dependendo dos argumentos, o tipo de retorno será um DataFrame com linhas duplicadas eliminadas.
Como vimos a sintaxe, vamos em direção aos exemplos para aprender a extrair valores únicos da coluna Pandas.
Exemplo # 01: Obtenha valores exclusivos das colunas pandas usando o método exclusivo ()
Ao trabalhar com uma única coluna de um DataFrame, os “pandas.Quadro de dados.o método exclusivo () ”é usado. Ele retorna todos os componentes únicos de uma coluna. O método gera um quadro de dados que inclui os elementos distintos da coluna e seus rótulos de índice que o acompanham como saída. Vamos criar um DataFrame primeiro, para que possamos usar a função exclusiva () para extrair valores exclusivos de suas colunas.
Depois de importar o módulo Pandas, criamos nosso quadro de dados usando um dicionário de pandas. Definimos as chaves do nosso dicionário como "nome" e "cursos" e atribuímos este dicionário à variável "DIC". A variável "dic" é então passada no parâmetro do PD.Método DataFrame () como um argumento para criar o DataFrame "DF". Podemos ver nosso quadro de dados usando a função print ().
Suponhamos que nosso quadro de dados consista em nomes de estudantes e nos cursos em que eles estão inscritos. Em tal situação, é bastante difícil contar cada linha do quadro de dados para identificar a categoria de curso específica para determinar o número geral de cursos estudados. No quadro de dados anterior, a coluna “cursos” contendo o nome dos cursos ('inglês', 'matemática', 'química', 'matemática', 'estatística', 'matemática', 'inglês', 'datascience'). Mais de um aluno estuda alguns cursos. Então, para obter os cursos exclusivos da coluna "cursos", usaremos a função exclusiva ().
Na saída, temos uma variedade de elementos que contêm os cursos únicos em nosso quadro de dados. Suponha que você queira contar o número total de elementos distintos, em vez de procurar os nomes de valores únicos nas colunas do quadro de dados. Para esse fim, podemos usar a função Nunique (). O número total de valores distintos para cada coluna é retornado pelo método Nunique ().
A função Nunique () retornou "5", o que significa que há um total de 5 valores únicos na coluna 'cursos' do quadro de dados 'df'.
Exemplo # 02: Usando o método exclusivo () Obtenha valores exclusivos de colunas numéricas
Para criar um DataFrame, imporemos o módulo Pandas primeiro. Em seguida, criaremos nosso quadro de dados usando o PD.Função DataFrame ().
Como visto acima, criamos o DataFrame passando um dicionário dentro da função DataFrame (). Para visualizar o recém -criado DataFrame, usaremos a função print ().
Neste DataFrame, temos dois rótulos: "Idade" e "Salário", tendo dados numéricos. Na coluna "Age", temos as idades dos indivíduos como ("20", "24", "20", "22", "21", "28", "31", "25"), enquanto o A coluna “salário” está armazenando os salários dos indivíduos ('1000', '1000', '1300', '1100', '1400', '1000', '1100', '1400'). Agora, usaremos a função exclusiva () para obter os valores distintos das colunas do DataFrame.
Como mostra o script anterior, usamos a função exclusiva () para obter valores distintos da coluna "salário". A função retornou a saída na forma de uma matriz ['1000', '1300', '1100', '1400'] contendo todos os valores exclusivos da coluna "salário" no quadro de dados. Também podemos usar a função Sort () para classificar os dados de resultado em ordem crescente.
Para classificar a matriz de saída (com valores exclusivos da coluna salarial), atribuímos a matriz a uma variável 'u'. A função stor () é aplicada à matriz para classificar os valores da matriz de saída em ordem ascendente.
Exemplo # 03: Obtenha valores exclusivos de várias colunas usando o método exclusivo ()
Aprendemos como extrair um conjunto de valores distintos de uma única coluna de dados de dados. Mas em algumas situações. Você pode precisar encontrar valores distintos em várias colunas. Em tais circunstâncias, antes de usar a função exclusiva () no objeto Série (coluna), combinaremos os valores das colunas das quais queremos obter os valores únicos. Usaremos o mesmo dataframe, que criamos no Exemplo # 2.
Suponha que queremos obter os valores distintos das colunas de 'idade' e 'salário'. Primeiro, mesclaremos os dados de ambas as colunas usando o seguinte script.
No código anterior, selecionamos os dados da coluna 'Age' e depois usamos o Anexo ('Salário') para mesclar os dados da coluna 'salário' com os dados da coluna 'Age'. Depois de mesclar os dados, usamos a função exclusiva () para obter os valores distintos de ambas as colunas.
Como pode ser visto, extraímos com sucesso os valores únicos de ambas as colunas.
Exemplo # 04: Usando a função Drop_duplicates () para obter valores exclusivos das colunas de pandas
A função Drop_duplicates é uma função interna da biblioteca de pandas. Ele pode ser usado para remover os valores repetidos ou duplicar dados da coluna do quadro de dados. As linhas com valores duplicados são removidas enquanto o tipo de dados do objeto ou seu subconjunto permanece preservado. O método Drop_duplicate () é a opção mais rápida para eliminar valores duplicados ao trabalhar com um grande grupo de dados.
Agora, usaremos a função Drop_duplicate () para eliminar as colunas com valores duplicados.
Como você pode ver, todas as linhas foram eliminadas considerando os dados duplicados na coluna "salário". Somente a primeira instância de valores duplicados é deixada no quadro de dados.
Conclusão
Neste artigo, discutimos como obter valores únicos das colunas do DataFrame em pandas. Depois de passar por este tutorial, você poderá extrair valores únicos da coluna Pandas por conta própria. Implementamos alguns exemplos para ensiná -lo a obter valores exclusivos de colunas pandas e colunas numéricas de pandas usando a função exclusiva () e grow_duplicates ().