Sintaxe
Quadro de dados.amostra (n = valor, frac = valor, substitua = false/true, pesos = valor, random_state, eixo)Em seu parâmetro "n", definimos o número de amostra aleatória que queremos obter do quadro de dados. Se não adicionarmos nenhum número aqui, ele receberá apenas uma linha aleatória como a amostra desse quadro de dados específico. No parâmetro "frac", podemos definir a porcentagem das linhas que queremos obter; Se definirmos o frac como “0.7 ", então dará" 70%"das linhas do quadro de dados. Lembre -se de que não podemos colocar o parâmetro "frac" com o parâmetro "n". Se definirmos o parâmetro "n", não adicionamos o parâmetro "frac" simultaneamente. Nós apenas usamos um deles. Depois disso, temos o parâmetro "Substituir" no qual adicionamos "verdadeiro" ou "falso". Se definirmos como "verdadeiro", pode dar a mesma linha mais de uma vez. Também podemos definir mais três parâmetros, que são "pesos", "random_state" e "eixo". Agora, estamos usando este método "amostra ()" no código "pandas".
Exemplo 01
O software que estamos usando para gerar esse código "Pandas" é o software "Spyder". Nossa primeira tarefa ao fazer esse código "pandas" é importar as bibliotecas. A biblioteca que temos que importar é a biblioteca "pandas", que importamos com a ajuda da palavra -chave que é a palavra -chave "importar". Também definimos "pandas como PD" depois de escrever a "importação". A próxima tarefa é desenvolver o quadro de dados e construímos "lmn_company_df" aqui. Este DataFrame é construído porque utilizamos o “PD.Dataframe () ”, que ajuda a gerar o DataFrame em“ Pandas ”.
Também inserimos algumas colunas, e essas colunas também contêm dados. Primeiro entramos no "LMN_Person", que é a primeira coluna deste DataFrame. Ele contém “Jasper, Milli, Hayes, Easton, Bromley, Diego e Logan”. Em seguida, “LMN_Code” é a próxima coluna aqui e adicionamos “LMN122, LMN124, LMN125, LMN126, LMN127, LMN128 e LMN129” nesta coluna. O “LMN_YEAR” é a terceira coluna aqui, e inserimos “maio de 2008, fevereiro de 2008, junho de 2009, abril de 2009, setembro de 2010, junho de 2015 e julho de 2009”. O "LMN_SaleUnit" está listado após "lmn_year". Ele contém várias unidades de venda: “50, 44, 39, 76, 85, 90 e 53”.
Agora, exibimos esse quadro de dados usando "print ()":
Quando pressionamos o ícone "Run" do software "Spyder", obtemos rapidamente a saída de nossos códigos. O resultado do código anterior é fornecido aqui, no qual você pode ver apenas o quadro de dados exibido. Agora, aplicaremos o método "Sample ()" neste código para obter a linha de amostra a partir deste DataFrame.
Primeiro, adicionamos o nome do DataFrame com esta função "Sample ()". Aqui, não adicionamos nenhum parâmetro a esta função. Portanto, ele dará apenas uma linha aleatória desse quadro. Ele também imprime essa linha aleatória no terminal porque inserimos essa função "amostra ()" dentro da "print ()".
A linha que obtemos depois de aplicar esta função "amostra ()" é renderizada abaixo. Observe que ele seleciona a linha aleatoriamente como a amostra desse quadro de dados.
Exemplo 02
O "lmn_company_df" está aqui e, agora, estamos definindo o valor de "n" como o parâmetro desta função "amostra ()". Quando usamos o método "Sample ()", também adicionamos "n" a ele e definimos "3" como o valor de "n". Isso selecionará aleatoriamente três linhas da amostra "lmn_company_df".
Aqui, o DataFrame completo contém sete linhas e quatro colunas. Em seguida, ele renderiza três linhas aleatórias, que obtemos depois de aplicar a função "amostra ()" e definir seu parâmetro "n" igual a "3". Ele retorna linhas de acordo com esse valor "n".
Exemplo 03
O "vendor_df" agora é construído e a coluna "vendor_name" é a primeira coluna do "vendor_df". Ele contém “Maverick, Julian, Felix, Jasper, Chloe, Freya, Easton, Diago e Milli”. A coluna "Vendor_Country" vem depois disso, que contém "Inglaterra, América, Londres, Canadá, Alemanha, França, Argélia, Inglaterra e Alemanha". Depois disso, é adicionado "vendor_address" e insira "XYZ123, MNO890, JKL678, QWE345, RTY678, DFG456, CVB234, JHG876 e MNB543".
Em seguida, temos a coluna "Project_code", que contém "p123, p234, p345, p456, p678, p890, p098 e p765". A última coluna é chamada de "vendas" e também contém alguns registros de vendas, que são "80000, 50000, 75000, 40000, 55000, 85000, 97000, 80000 e 90000". Agora, imprimimos todo o “vendor_df” usando “print ()”. Depois de exibir o "venfor_df", utilizamos o método "sample ()" e, desta vez, definimos o parâmetro "frac" aqui e adicionamos "0.5 ”como seu valor. Ele selecionará 50% das linhas aleatoriamente a partir deste quadro de dados e também as exibirá como inserimos esse método "Sample ()" no método "print ()".
O DataFrame mostra todas as linhas e colunas e, em seguida, exibe metade ou 50% das linhas. Ele seleciona essas linhas aleatoriamente e as exibe no terminal porque definimos o parâmetro "frac" da função "amostra ()" igual a "0.5 ”. Você também pode observar neste código que não adicionamos o parâmetro "n" com este parâmetro "frac".
Exemplo 04
Neste código, estamos adicionando dois parâmetros no método "amostra ()", e estes são "n" e "substituir". Primeiro, adicionamos "5", que é o valor de "n", para que ele retorne cinco linhas e depois definimos "false" como o valor do parâmetro "substituir". Quando definimos "false" aqui, não dará a mesma linha novamente. Ele apenas renderiza linhas únicas e não duplica uma linha.
Ele renderiza cinco linhas abaixo, e todas são linhas únicas. Ele seleciona essas linhas aleatoriamente a partir deste quadro e as exibe neste resultado.
O valor de "n" não é maior que o número de linhas. Como você pode observar, este DataFrame contém nove linhas. Se definirmos o valor de "n" maior que "9", ele retornará uma mensagem de erro. Aqui, adicionamos "10" como o valor de "n". Na imagem a seguir, exibe o que acontece quando executamos este código:
Esta mensagem de erro é gerada no terminal porque esse quadro contém apenas nove linhas, e o valor de "n" é maior que o número de linhas do quadro de dados.
Conclusão
Este tutorial é sobre a “amostra aleatória de pandas”. Nós explicamos esse conceito em profundidade neste tutorial. Explicamos sua sintaxe e também utilizamos o método "amostra ()" em nosso código "pandas". Fizemos exemplos colocando diferentes parâmetros neste método "Sample ()" e discutimos todos os parâmetros desse método "Sample ()" em detalhes. Mostramos como ele retorna linhas do DataFrame como a amostra, selecionando -as aleatoriamente após aplicar esta função "Sample ()". Também discutimos a mensagem de erro neste tutorial enquanto utilizamos essa função e explicamos por que essa mensagem de erro ocorre.