Como usar boxplot no python

Como usar boxplot no python
Um gráfico de caixa é usado para resumir conjuntos de dados usando o método da caixa e da plotagem de bigode. Esta função ajuda os usuários a entender o resumo dos dados corretamente. Gotões de caixa podem ser muito úteis quando queremos saber como os dados são distribuídos e espalhados. Três tipos de quartis são usados ​​no gráfico da caixa para plotar os dados. Esses valores incluem os valores estatísticos mediana, máxima, mínima, quartil superior e inferior. Um gráfico de caixa resume esses dados nos 25º, 50º, e 75º percentis. Este tutorial mostrará como criar gráficos de caixa com base em um determinado conjunto de dados usando o Pandas e Seancen Bibliotecas de Python.

Pré -requisito

Se você é um novo usuário do Python, primeiro precisará configurar o ambiente para mostrar a saída do gráfico da caixa. Você pode usar qualquer intérprete Python para executar o código. Neste tutorial, vou usar Spyder3 Para executar o código. Se você não instalou o Pandas e Seancen Bibliotecas antes, então você deve executar o seguinte comando do terminal para instalar estas bibliotecas:

$ PIP3 Instale os pandas Seaborn

Lotes de caixas com pandas

O boxplot () método de Pandas é usado para gerar figuras de plotagem de caixa com base no quadro de dados. Este método contém muitos argumentos; Alguns desses argumentos são usados ​​nos exemplos abaixo. Esta parte do tutorial incluirá dois exemplos que mostrarão como criar gráficos de caixa em Pandas. Você pode usar dados gerados aleatoriamente na biblioteca Numpy, ou os dados de um arquivo CSV, para gerar um gráfico de caixa em Pandas.

Exemplo 1: gráficos de caixa com base em valores aleatórios

As parcelas da caixa no exemplo a seguir foram geradas usando Numpy e Pandas. A biblioteca Numpy é usada no script para criar um objeto de quadro de dados, gerando uma matriz bidimensional de valores aleatórios que contêm 5 linhas e 5 colunas. O conteúdo do quadro de dados será impresso usando a cabeça() método. Em seguida, o boxplot () O método é usado para gerar gráficos de caixas com cor azul, tamanho da fonte 10 e um ângulo rotativo de 30 graus para exibir os valores da coluna.

#!/usr/bin/Env Python3
# Importar biblioteca de pandas
importar pandas como PD
# Importe a biblioteca Numpy para criar os números aleatórios para a matriz
importar numpy como np
"
Gerar conjunto de dados com base em matriz numpy criada aleatoriamente
e cinco valores de colunas
"
dataframe = pd.DataFrame (np.aleatório.Randn (5,5), colunas = ['2016', '2017', '2018',
'2019', '2020'])
# Imprima os valores do DataFrame
Imprimir (DataFrame.cabeça())
# Exiba o gráfico da caixa com base nos valores de quadro de dados
quadro de dados.boxplot (grade = 'false', color = 'azul', fontsize = 10, podring = 30)

Saída

A saída a seguir aparecerá após a execução do código.

Exemplo 2: gráficos de caixa com base nos dados do CSV

As parcelas da caixa no exemplo a seguir foram geradas a partir de dados CSV. Crie um arquivo CSV nomeado banco.CSV Usando os seguintes dados.

banco.CSV

Sl, client_name, account_type, gênero, saldo
1, Maria Hernandez, Salvando, Mulher, 120000
2, Mary Smith, atual, mulher, 40000
3, David Smith, atual, masculino, 379000
4, Maria Rodriguez, Salvando, Feminino, 56000
5, Mark Lee, Saving, masculino, 93500
6, Jonathan Bing, atual, masculino, 5900
7, Daniel Williams, Saving, masculino, 2300
8, Mike Brown, atual, masculino, 124888
9, Paul Smith, atual, homem, 59450
10, Maria Lopez, Salvando, Feminino, 487600

No script a seguir, o matplotlib A biblioteca foi usada para configurar o tamanho da figura do gráfico da caixa e exibir a saída embutida. Todos os registros de o banco.CSV o arquivo foi carregado usando o read_csv () método de Pandas. Os 8 primeiros registros do quadro de dados foram então impressos usando o cabeça() método. O boxplot () O método foi usado na seguinte declaração para desenhar a figura da plotagem da caixa usando a cor vermelha com base em 'Tipo de conta' com a coluna chamada 'Equilíbrio.'

#!/usr/bin/Env Python3
# Importar pandas para gerar gráfico de caixa
importar pandas como PD
# Importar matplotlib para configurar o tamanho da figura do gráfico de caixa
importar matplotlib.pyplot como plt
# Importar get_ipython para formatar a saída em linha
do ipython importar get_ipython
get_ipython ().run_line_magic ('matplotlib', 'inline')
# Configure o tamanho da figura
plt.rcparams ['figura.figSize '] = (8,4)
# Carregue o conjunto de dados de um arquivo CSV
df = pd.read_csv ("banco.CSV ")
# Imprima as 8 primeiras linhas dos dados carregados
Imprimir (df.cabeça (8))
# Exiba as parcelas da caixa com base no parâmetro usado
df.BoxPlot (por = 'Account_type', grade = 'true', coluna = ['balance'], color = 'vermelho')

Saída

A saída a seguir aparecerá após a execução do código.

Lotes de caixa com SeaBorn

Outra biblioteca de python comumente usada para desenhar gráficos de caixas é a biblioteca Seancen. Uma das características importantes desta biblioteca é que ela possui muitos conjuntos de dados de amostra internos para testar tarefas diferentes. Os próximos dois exemplos abrangem o uso de dois conjuntos de dados de amostra diferentes para desenhar gráficos de caixa usando o Seancen biblioteca.

Exemplo 3: Gráficos de caixa com base no parâmetro X

O exemplo a seguir usa um conjunto de dados de amostra, chamado 'diamantes, ' de o Seaorn biblioteca para gerar o gráfico da caixa. Aqui, o estilo da grade é definido usando o set_style () método. O load_dataset () o método é usado para carregar os dados do 'diamantes conjunto de dados. Os cinco primeiros registros são impressos no conjunto de dados e o boxplot () O método é então usado para desenhar o gráfico da caixa com base na coluna, nomeado 'profundidade,'Com cor azul.

# Importar biblioteca marítima para gerar o gráfico de caixa
Importar Seaborn como SNS
# Importar matplotlib para configurar o tamanho da figura do gráfico de caixa
importar matplotlib.pyplot como plt
# Importar get_ipython para formatar a saída em linha
do ipython importar get_ipython
get_ipython ().run_line_magic ('matplotlib', 'inline')
# Configure o estilo da grade
SNS.set_style ("WhiteGrid")
# Configure o tamanho da figura
plt.rcparams ['figura.figSize '] = (8,4)
# Carregue o conjunto de dados de amostra
diaml_dataset = sns.load_dataset ('diamantes')
# Exiba os 5 primeiros registros do conjunto de dados
Imprimir (Diamond_Dataset.cabeça())
# Desenhe a figura de gráficos da caixa
SNS.boxplot (x = diamante_dataset ['profundidade'], color = 'azul')

Saída

A saída a seguir aparecerá após a execução do código.

Exemplo 4: gráficos de caixa com base nos parâmetros x e y

O exemplo a seguir usa o conjunto de dados de amostra chamado 'vôos'Para desenhar o enredo da caixa. Aqui, os parâmetros X e Y de o boxplot () O método é usado para desenhar a figura. As outras declarações são semelhantes ao exemplo anterior.

# Importar biblioteca marítima para gerar o gráfico de caixa
Importar Seaborn como SNS
# Importar matplotlib para configurar o tamanho da figura do gráfico de caixa
importar matplotlib.pyplot como plt
# Importar get_ipython para formatar a saída em linha
do ipython importar get_ipython
get_ipython ().run_line_magic ('matplotlib', 'inline')
# Configure o estilo da grade
SNS.set_style ("DarkGrid")
# Configure o tamanho da figura
plt.rcparams ['figura.figSize '] = (12,4)
# Carregue o conjunto de dados de amostra
vôo_dataset = SNS.load_dataset ('voos')
# Exiba os 5 primeiros registros do conjunto de dados
Print (Flight_Dataset.cabeça())
# Desenhe a figura de gráficos da caixa
SNS.boxplot (x = 'mês', y = 'passageiros', dados = voo_dataset, color = 'azul')

Saída

A saída a seguir aparecerá após a execução do código.

Conclusão

Ao trabalhar com uma grande quantidade de dados, você pode resumir os dados usando um diagrama, como um gráfico de caixa. Este tutorial usou vários exemplos para mostrar como gerar gráficos de caixa com duas bibliotecas Python.