PANDAS AMOSTRA ALEMAIS

PANDAS AMOSTRA ALEMAIS
Existem muitas bibliotecas que "Python" oferece. Quando discutimos "pandas", também é a biblioteca de "Python". Isso nos ajuda em diferentes campos como utilizamos esta biblioteca em ciências de dados, ou também podemos usar essa biblioteca "pandas" em atividades de aprendizado de máquina. Também ajuda no gerenciamento e manipulação de dados. Os "DataFrames" em "Pandas" nos permitem organizar e armazenar os dados em linhas e colunas, ou também podemos dizer que no formulário da tabela. Podemos selecionar algumas linhas como dados de amostra do DataFrame. Para esse fim, utilizamos a função "amostra ()" dos "pandas". Esta função nos ajuda a gerar qualquer linha ou coluna aleatória a partir do quadro de dados. Podemos usar essa função para obter apenas uma linha ou coluna como amostra, ou também podemos definir alguns números nesta função para obter várias linhas como a amostra. Explicaremos esse método “Aleatório de amostra ()” e explicaremos seu trabalho em detalhes neste tutorial.

Sintaxe

Quadro de dados.amostra (n = valor, frac = valor, substitua = false/true, pesos = valor, random_state, eixo)

Em seu parâmetro "n", definimos o número de amostra aleatória que queremos obter do quadro de dados. Se não adicionarmos nenhum número aqui, ele receberá apenas uma linha aleatória como a amostra desse quadro de dados específico. No parâmetro "frac", podemos definir a porcentagem das linhas que queremos obter; Se definirmos o frac como “0.7 ", então dará" 70%"das linhas do quadro de dados. Lembre -se de que não podemos colocar o parâmetro "frac" com o parâmetro "n". Se definirmos o parâmetro "n", não adicionamos o parâmetro "frac" simultaneamente. Nós apenas usamos um deles. Depois disso, temos o parâmetro "Substituir" no qual adicionamos "verdadeiro" ou "falso". Se definirmos como "verdadeiro", pode dar a mesma linha mais de uma vez. Também podemos definir mais três parâmetros, que são "pesos", "random_state" e "eixo". Agora, estamos usando este método "amostra ()" no código "pandas".

Exemplo 01

O software que estamos usando para gerar esse código "Pandas" é o software "Spyder". Nossa primeira tarefa ao fazer esse código "pandas" é importar as bibliotecas. A biblioteca que temos que importar é a biblioteca "pandas", que importamos com a ajuda da palavra -chave que é a palavra -chave "importar". Também definimos "pandas como PD" depois de escrever a "importação". A próxima tarefa é desenvolver o quadro de dados e construímos "lmn_company_df" aqui. Este DataFrame é construído porque utilizamos o “PD.Dataframe () ”, que ajuda a gerar o DataFrame em“ Pandas ”.

Também inserimos algumas colunas, e essas colunas também contêm dados. Primeiro entramos no "LMN_Person", que é a primeira coluna deste DataFrame. Ele contém “Jasper, Milli, Hayes, Easton, Bromley, Diego e Logan”. Em seguida, “LMN_Code” é a próxima coluna aqui e adicionamos “LMN122, LMN124, LMN125, LMN126, LMN127, LMN128 e LMN129” nesta coluna. O “LMN_YEAR” é a terceira coluna aqui, e inserimos “maio de 2008, fevereiro de 2008, junho de 2009, abril de 2009, setembro de 2010, junho de 2015 e julho de 2009”. O "LMN_SaleUnit" está listado após "lmn_year". Ele contém várias unidades de venda: “50, 44, 39, 76, 85, 90 e 53”.

Agora, exibimos esse quadro de dados usando "print ()":

Quando pressionamos o ícone "Run" do software "Spyder", obtemos rapidamente a saída de nossos códigos. O resultado do código anterior é fornecido aqui, no qual você pode ver apenas o quadro de dados exibido. Agora, aplicaremos o método "Sample ()" neste código para obter a linha de amostra a partir deste DataFrame.

Primeiro, adicionamos o nome do DataFrame com esta função "Sample ()". Aqui, não adicionamos nenhum parâmetro a esta função. Portanto, ele dará apenas uma linha aleatória desse quadro. Ele também imprime essa linha aleatória no terminal porque inserimos essa função "amostra ()" dentro da "print ()".

A linha que obtemos depois de aplicar esta função "amostra ()" é renderizada abaixo. Observe que ele seleciona a linha aleatoriamente como a amostra desse quadro de dados.

Exemplo 02

O "lmn_company_df" está aqui e, agora, estamos definindo o valor de "n" como o parâmetro desta função "amostra ()". Quando usamos o método "Sample ()", também adicionamos "n" a ele e definimos "3" como o valor de "n". Isso selecionará aleatoriamente três linhas da amostra "lmn_company_df".

Aqui, o DataFrame completo contém sete linhas e quatro colunas. Em seguida, ele renderiza três linhas aleatórias, que obtemos depois de aplicar a função "amostra ()" e definir seu parâmetro "n" igual a "3". Ele retorna linhas de acordo com esse valor "n".

Exemplo 03

O "vendor_df" agora é construído e a coluna "vendor_name" é a primeira coluna do "vendor_df". Ele contém “Maverick, Julian, Felix, Jasper, Chloe, Freya, Easton, Diago e Milli”. A coluna "Vendor_Country" vem depois disso, que contém "Inglaterra, América, Londres, Canadá, Alemanha, França, Argélia, Inglaterra e Alemanha". Depois disso, é adicionado "vendor_address" e insira "XYZ123, MNO890, JKL678, QWE345, RTY678, DFG456, CVB234, JHG876 e MNB543".

Em seguida, temos a coluna "Project_code", que contém "p123, p234, p345, p456, p678, p890, p098 e p765". A última coluna é chamada de "vendas" e também contém alguns registros de vendas, que são "80000, 50000, 75000, 40000, 55000, 85000, 97000, 80000 e 90000". Agora, imprimimos todo o “vendor_df” usando “print ()”. Depois de exibir o "venfor_df", utilizamos o método "sample ()" e, desta vez, definimos o parâmetro "frac" aqui e adicionamos "0.5 ”como seu valor. Ele selecionará 50% das linhas aleatoriamente a partir deste quadro de dados e também as exibirá como inserimos esse método "Sample ()" no método "print ()".

O DataFrame mostra todas as linhas e colunas e, em seguida, exibe metade ou 50% das linhas. Ele seleciona essas linhas aleatoriamente e as exibe no terminal porque definimos o parâmetro "frac" da função "amostra ()" igual a "0.5 ”. Você também pode observar neste código que não adicionamos o parâmetro "n" com este parâmetro "frac".

Exemplo 04

Neste código, estamos adicionando dois parâmetros no método "amostra ()", e estes são "n" e "substituir". Primeiro, adicionamos "5", que é o valor de "n", para que ele retorne cinco linhas e depois definimos "false" como o valor do parâmetro "substituir". Quando definimos "false" aqui, não dará a mesma linha novamente. Ele apenas renderiza linhas únicas e não duplica uma linha.

Ele renderiza cinco linhas abaixo, e todas são linhas únicas. Ele seleciona essas linhas aleatoriamente a partir deste quadro e as exibe neste resultado.

O valor de "n" não é maior que o número de linhas. Como você pode observar, este DataFrame contém nove linhas. Se definirmos o valor de "n" maior que "9", ele retornará uma mensagem de erro. Aqui, adicionamos "10" como o valor de "n". Na imagem a seguir, exibe o que acontece quando executamos este código:

Esta mensagem de erro é gerada no terminal porque esse quadro contém apenas nove linhas, e o valor de "n" é maior que o número de linhas do quadro de dados.

Conclusão

Este tutorial é sobre a “amostra aleatória de pandas”. Nós explicamos esse conceito em profundidade neste tutorial. Explicamos sua sintaxe e também utilizamos o método "amostra ()" em nosso código "pandas". Fizemos exemplos colocando diferentes parâmetros neste método "Sample ()" e discutimos todos os parâmetros desse método "Sample ()" em detalhes. Mostramos como ele retorna linhas do DataFrame como a amostra, selecionando -as aleatoriamente após aplicar esta função "Sample ()". Também discutimos a mensagem de erro neste tutorial enquanto utilizamos essa função e explicamos por que essa mensagem de erro ocorre.