Boxplot em r

Boxplot em r
“Uma caixa de caixa, comumente conhecida como caixa e enredo de bigode, é um tipo de enredo em r. É uma representação gráfica que permite resumir os recursos essenciais dos dados e determinar se existem outliers. Boxplot também pode ser usado para comparar a dispersão na coleta de dados, gerando um boxplot para cada. Avaliação de intervalos é fácil usando um gráfico de caixa. Desde as faixas centrais, distribuídas e gerais são todas visíveis imediatamente.

BOXPLOTS são um tipo de gráfico que mostra como os dados uniformes são dispersos em um conjunto de dados. O conjunto de dados é dividido em três quartis como resultado disso. Este gráfico mostra o conjunto de dados mínimo, máximo, médio, primeiro, segundo e terceiro quartis.

A caixa de um boxplot começa no primeiro quartil (25 %) e termina no terceiro (75 %). Como resultado, a caixa reflete metade (50 %) dos dados do centro através de uma linha dentro daquela indicação da média. Apesar de incluir outliers de boxplot, uma divisão é moldada em ambos os lados da caixa até os dados mais importantes, se houver, será representada por círculos.

Este tutorial o educará sobre como usar o R ​​para fazer gráficos de box.”

Criando boxplot em r

Um gráfico de caixa e bigode pode ser criado usando a função "boxplot ()" de R. Várias entradas podem ser usadas para criar este gráfico, incluindo vetores e quadros de dados. No gráfico equivalente, você também pode inserir uma fórmula como entrada ao produzir boxplots para vários grupos.

Criando BoxPlot usando um vetor em r

Se você deseja criar um gráfico de caixa em R a partir de um vetor, basta passar o vetor para a função "boxplot ()".

Aqui criamos um vetor "s" e atribuímos uma lista de valores numéricos. Usando a função "boxplot ()", passe este vetor "s" como um parâmetro. O boxplot em r está definido para ser vertical por padrão, mas se você quiser alterá -lo para horizontal, pode fazê -lo definindo a expressão "horizontal" "true.”

Um caixa de caixa horizontal criado a partir de um vetor é exibido abaixo.

É essencial ter em mente que Boxplots obscurecem a distribuição subjacente dos dados. Para corrigir esse problema, a função "StraTChart ()" em r pode ser usada para inserir pontos em um boxplot.

Aqui usamos o método “Jitter."" PCH "significa caracteres de plotagem. O "PCH" padrão em R é 1, que cria um círculo vazio, enquanto "PCH = 19" significa círculos sólidos. Então, o que usamos são círculos sólidos com uma cor laranja. Os valores extremos não serão apagados se os pontos de dados forem agitados.

Criando BoxPlot usando "Notch" em R

Também podemos fazer uma caixa com um entalhe em r. Ajuda -nos a determinar o quão bem as medianas de vários grupos de dados interagem entre si. Ao especificar o argumento Notch To True, você pode ilustrar os intervalos de confiança de 95 % para a mediana no R Boxplot. A caixa representa os limites superior e inferior, enquanto a linha central pode ver a mediana.

Um "entalhe" ou encolhimento da caixa é utilizado em torno da mediana em parcelas de caixa entalhada. Notches podem ajudar a determinar a importância de uma discrepância em medianas. Se não houver sobreposição entre o entalhe de 2 caixas, há uma boa chance de as medianas não serem as mesmas.

O BoxPlot retirado do "Notch" é representado abaixo.

Criando BoxPlot usando um conjunto de dados em R

Para criar um boxplot em r, você também pode usar os quadros de dados na função "boxplot ()". Nesse caso, usaremos a base R fornecida pelo conjunto de dados embutido “peso de grão.”

Aqui você pode ver o conjunto de dados dentro da tabela "Chickweight". Ele contém 4 colunas, tempo, filhote e dieta. Todas as colunas têm valores numéricos armazenados neles.

Vamos escolher 2 colunas, eu.e., peso e dieta, do conjunto de dados. Usando a função "boxplot ()", desenharemos boxplots para a data selecionada.

Na peça de código acima, projetamos um gráfico de caixa de "peso" contra a "dieta.”Especificamos os nomes das variáveis ​​com o nome do conjunto de dados. Dentro dos aparelhos da função "BoxPlot ()", usamos o nome de dados do quadro "Chickweight", "$" para especificar a coluna e o nome da coluna "Weight", então a coluna com o nome de dados "Chickweight $ DIET.”

O boxplot resultante mostra claramente a dispersão do Outlliner.

Para tornar este boxplot visualmente melhor e mais detalhado, você pode adicionar pontos. Você pode conseguir isso usando a função "StraTChart ()".

Você pode ver os pontos que criamos para mostrar a divisão de dados essenciais em cada boxplot.

Criando vários boxplot em r

Criar vários aviões de box é outra técnica que pode ser usada na programação R. Para implementar esse método, estamos usando um conjunto de dados embutido na base R.

O conjunto de dados que usamos aqui são "árvores" fornecidas pela R Base. Também podemos adicionar cores ao boxplot. Na função "boxplot ()", definimos a cor "Col" como "arco -íris", que colocará cores diferentes para cada caixa.

Se você deseja plotar um caixa de caixa distinto para cada coluna do seu Dados de Dados R, você pode fazê -lo com a utilização da função "Lapply ()".

Vamos dividir os gráficos "par" em uma linha, bem como o número de colunas no conjunto de dados neste exemplo. Gráficos individuais, por outro lado, podem ser plotados. A função "invisível ()" impede que o texto de saída da função "Lapply" seja visível.

A imagem abaixo mostra o caixa criado para cada coluna de dados individualmente.

Conclusão

A programação r fornece uma variedade de operações que podem ser executadas. Criar um boxplot é outro método útil e simples para exibir dados visualmente em parcelas. Neste artigo, discutimos o que são boxplots e como eles exibem dados. Explicamos quatro técnicas diferentes que podem ser usadas para desenhar boxplots em r, usando rstudio no Ubuntu 20.04. Incluindo o uso de vetores simples para criar boxplots, utilizar "Notch", usando o DataFrames e criando vários boxplots também. Demonstramos cada método elaborando em diferentes exemplos de códigos. Isso tornará o aprendizado r para criar muito mais fácil para você.