R Tutorial de programação

Evan Mueller

Você quer para iniciar o Programador de especialista R rapidamente? R é a melhor linguagem de programação para o trabalho com estatísticas, matemática e ciência de dados. Este tutorial ajudará você a aprender r e construir seu primeiro modelo de aprendizado de máquina. Vamos começar.

Compilando e executando r da linha de comando

As duas maneiras de executar os programas R são: um script R, que é amplamente utilizado e é o mais preferido e o segundo é R CMD em lote, não é um comando comumente usado. Podemos chamá -los diretamente da linha de comando ou de qualquer outro agendador de emprego.

Você pode chamar esses comandos de um shell embutido no IDE e hoje em dia, o RStudio IDE vem com ferramentas que aprimoram ou gerenciam o script R e as funções de lote r cmd.

função de origem () dentro de r é uma boa alternativa para usar a linha de comando. Esta função também pode chamar um script, mas, para usar esta função, você deve estar dentro do ambiente R.

R Conjuntos de dados embutidos de idioma

Para listar os conjuntos de dados incorporados com r, use o comando data () e encontre o que deseja e use o nome do conjunto de dados na função Data (). Como dados (nome da função).

Mostrar conjuntos de dados em r

O ponto de interrogação (?) poderia ser usado para pedir ajuda para conjuntos de dados.

Para verificar tudo, use resumo ().

Plot () também é uma função usada para plotar gráficos.

Vamos criar um script de teste e executá -lo. Criar P1.R Arquive e salve o diretório doméstico com o seguinte conteúdo:

Exemplo de código:

 # Simples Hello World Code in R Print ("Hello World!") Print (" Linuxhint ") impressão (5+6)

Correndo Hello World

R quadros de dados

Para armazenar dados em tabelas, usamos uma estrutura em r chamada A Quadro de dados. É usado para listar vetores de igual comprimento. Por exemplo, a seguinte variável nm é um quadro de dados contendo três vetores x, y, z:

x = c (2, 3, 5) y = c ("aa", "bb", "cc") z = c (true, false, true) # nm é um quadro de dados nm = dados.quadro (n, s, b)

Existe um conceito chamado Construídas emQuadros de dados também em r. mtcars é um desses dados de dados embutidos em r, que usaremos como exemplo, para nossa melhor compreensão. Veja o código abaixo:

 > mtcars mpg cyl Disp hp drat wt… mazda rx4 21.0 6 160 110 3.90 2.62… BUS RX4 WAG 21.0 6 160 110 3.90 2.88… Datsun 710 22.8 4 108 93 3.85 2.32…

MTCARS Bulitin DataFrame

O cabeçalho é a linha superior da tabela que contém os nomes das colunas. As linhas de dados são doadas por cada linha horizontal; Cada linha começa com o nome da linha e depois seguida pelos dados reais. O membro de dados de uma linha é denominado como uma célula.

Entraríamos nas coordenadas de linha e coluna em um único suporte quadrado '[]' [] para recuperar dados em uma célula. Para separar as coordenadas, usamos uma vírgula. A ordem é essencial. A coordenada começa com a linha e a vírgula e depois termina com a coluna. Valor da célula de 2^nd linha e 1^st A coluna é dada como:

 > mtcars [2, 2] [1] 6

Também podemos usar o nome de linha e coluna em vez de coordenadas:

 > mtcars ["barramento rx4", "mpg"] [1] 6

A função NROW é usada para encontrar o número de linhas no quadro de dados.

 > nrow (mtcars) # número de linhas de dados [1] 32

A função NCOL é usada para encontrar o número de colunas em um quadro de dados.

 > NCOL (MTCARS) # Número de colunas [1] 11

R Loops de programação

Sob algumas condições, usamos loops quando queremos automatizar alguma parte do código ou queremos repetir uma sequência de instruções.

Para loop em r

Se quisermos imprimir esses anos mais de uma vez.

 Print (Paste ("The Year Is", 2000)) "O ano é 2000" Print (Colar ("O ano é", 2001)) "O ano é 2001" Impressão (Pasta ("O ano é", 2002) ) "O ano é 2002" Print (Colar ("The Year Is", 2003)) "O ano é 2003" Print (Colar ("The Year Is", 2004)) "O ano é 2004" Impressão (Colar (" O ano é ", 2005))" O ano é 2005 "

Em vez de repetir nossa declaração repetidamente se usarmos para loop será muito mais fácil para nós. Assim:

 para (ano em c (2000.2001.2002.2003.2004.2005)) print (paste ("o ano é", ano) "o ano é 2000" "o ano é 2001" "O ano é 2002 "" The Year Is 2003 "" O ano é 2004 "" O ano é 2005 "

Enquanto loop em r

 while (expressão) declaração

Se o resultado da expressão for verdadeiro, o corpo do loop será inserido. As declarações dentro do loop são realizadas e o fluxo retorna para avaliar a expressão novamente. O loop se repetirá até que a expressão seja avaliada como falsa; nesse caso, o loop sai.

Exemplo de While Loop:

 # I é inicialmente inicializado para 0 i = 0 enquanto (eu<5)  print (i) i=i+1  Output: 0 1 2 3 4

No laço acima, o loop, a expressão é eu<5que mede para verdadeiro, já que 0 é menor que 5. Portanto, o corpo do loop é executado e eu é produzido e incrementado. É importante incrementar eu Dentro do loop, então ele encontrará a condição em algum momento. No próximo loop, o valor de eu é 1 e o loop continua. Ele se repetirá até eu é igual a 5 quando a condição 5<5 reached loop will give FALSE and the while loop will exit.

R funções

Para criar um função Usamos a função diretiva (). Especificamente, eles são objetos de classe função.

f <- function()  ##some piece of instructions

Notavelmente, as funções podem ser passadas para outras funções como argumentos e funções podem ser aninhados, para permitir que você determine uma função dentro de outra função.

As funções opcionalmente podem ter alguns argumentos nomeados que possuem valores padrão. Se você não quiser um valor padrão, pode definir seu valor como nulo.

Alguns fatos sobre os argumentos da função R:

Os argumentos admitidos na definição da função são os argumentos formais
A função formal poderia devolver uma lista de todos os argumentos formais de uma função
Nem toda chamada de função em r usa todos os argumentos formais
Argumentos de função podem ter valores padrão, ou eles podem estar faltando

#Definando uma função: f <- function (x, y = 1, z = 2, s= NULL)

Criando um modelo de regressão logística com conjunto de dados interno

O GLM () A função é usada em r para se ajustar à regressão logística. A função GLM () é semelhante ao LM (), mas Glm () possui alguns parâmetros adicionais. Seu formato se parece com o seguinte:

 GLM (x ~ z1+z2+z3, família = binomial (link = "logit"), dados = mydata)

X depende dos valores de Z1, Z2 e Z3. O que significa que Z1, Z2 e Z3 são variáveis independentes e x é a função dependente envolve família de parâmetros extras e possui binomial de valor (link = "logit") que significa que a função do link é logit e a distribuição de probabilidade do modelo de regressão é binomial.

Suponha que tenhamos um exemplo de aluno onde ele obterá admissão com base em dois resultados do exame. O conjunto de dados contém os seguintes itens:

Resultado _1- Resultado-1 Pontuação
Resultado _2- Resultado -2 Pontuação
admitido- 1 se admitido ou 0 se não for admitido

Neste exemplo, temos dois valores 1 se um aluno obteve admissão e 0 se ele não obteve admissão. Temos que gerar um modelo para prever que o aluno obteve admissão ou não,. Para um determinado problema, admitido é considerado como uma variável dependente, o Exam_1 e o Exam_2 são considerados como variáveis independentes. Para esse modelo, nosso código R é dado

 > Modelo_1<-glm(admitted ~ result_1 +result_2, family = binomial("logit"), data=data)

Vamos supor que temos dois resultados do aluno. Resultado-1 65% e Result-2 90%, agora prevêemos que o aluno obtém admissão ou não por estimar a probabilidade de o aluno obter admissão que nosso código R está abaixo:

 > in_framepredict (modelo_1, in_frame, type = "Response") saída: 0.9894302

A saída acima nos mostra a probabilidade entre 0 e 1. Se então for menor que 0.5 Isso significa que o aluno não obteve admissão. Nesta condição, será falso. Se for maior que 0.5, a condição será considerada verdadeira, o que significa que o aluno obteve admissão. Temos que usar a função redond () para prever a probabilidade entre 0 e 1.

R Código para isso é como mostrado abaixo:

 > redond (prever (modelo_1, in_frame, type = "resposta") [/code] saída: 1

Um aluno será admitido, pois a saída é 1. Além disso, também podemos prever por outras observações da mesma maneira.

Usando o modelo de regressão logística (pontuação) com novos dados

Quando necessário, podemos salvar o modelo em um arquivo. R Código para o nosso modelo de trem ficará assim:

 the_model <- glm(my_formula, family=binomial(link='logit'),data=model_set)

Este modelo pode ser salvo com:

 salvar (file = "nome do arquivo", the_file)

Você pode usar o arquivo depois de salvar o TI, usando esse código de paz de R:

 carregamento (file = "nome do arquivo")

Para aplicar o modelo para novos dados, você pode usar esta linha de um código:

 Model_set $ pred <- predict(the_model, newdata=model_set, type="response")

OBSERVAÇÃO: O Model_set não pode ser atribuído a nenhuma variável. Para carregar um modelo, usaremos a carga de função (). Novas observações não mudarão nada no modelo. O modelo permanecerá o mesmo. Usamos o modelo antigo para fazer previsões sobre os novos dados para não alterar nada no modelo.

Conclusão

Espero que você tenha visto como a programação R funciona de maneira básica e como você pode entrar rapidamente em ação fazendo aprendizado de máquina e estatísticas codificando com r.

Docker

Qual é o objetivo de um docker-compor.Arquivo YML no Docker?

O principal objetivo de um “Docker-Compose.O arquivo YML ”é para simplificar o processo de implantaç...

Shaun Bogan

Pitão

Histograma Matplotlib 2D

Em Python, o “PLT.A função hist2d () ”do módulo“ PyPlot ”na biblioteca“ matplotlib ”é usada para plo...

Carl Hintz DDS

Golang

Introdução à linguagem de programação de Golang

Golang é uma linguagem de programação de código aberto desenvolvido pelo Google. Siga este artigo pa...

Pedro Macejkovic