Mini tutorial de R

Usando dados de uma planilha

Parte 1. Abrindo o programa

Objetivos: abrir o programa; abrir uma tela de script, onde serão escritos e rodados os comandos.

Figura 1: abrindo o R (no menu Iniciar, por exemplo)

No menu superior aparecem as opções Arquivo, Editar, Visualizar etc.

Ao clicar em Arquivo, obtemos:

Escolher a opção Novo script

Na nova tela em branco, é possível escrever e rodar as linhas de comando, e salvar o programa.

Parte 2. Rodar um programa

para ler uma planilha

Esta sequência de comandos permite ler dados diretamente de uma planilha, do excel, por exemplo. Abra a planilha e selecione todas as colunas que deseja analisar. Clique ctrl^C, como se fosse copiar a planilha em outro arquivo.

Neste exemplo, temos uma planilha com duas colunas; a primeira corresponde ao ano de ingresso e a segunda, ao coeficiente de rendimento (CR) de alunos de um curso da Unicamp.

Volte ao programa R. Dica: Para os que preferem o teclado ao mouse, as teclas Alt+Tab fazem a transição entre os programas abertos.

Abra o script do programa clicando aqui e copie o texto na janela de script. Em qualquer momento, a tela de script pode ser salva em um arquivo, clicando ctrl^S.

Você verá linhas começando com o símbolo #. Estes são comentários para o usuário que o programa não lê.

As linhas de comando são rodadas, por exemplo, colocando o cursor na linha desejada e clicando ctrl^R. Outra opção é colocar o cursor na linha desejada e clicar em Editar, Executar linha ou seleção.

O primeiro comando, read.table, lê as colunas selecionadas na planilha.

A linha executada aparecerá em vermelho na tela Console, embaixo da tela de script.

Exercício.

Abra uma planilha com dados de seu interesse. O R consegue ler planilhas de diversos tamanhos; as colunas não precisam ter o mesmo número de linhas válidas; as variáveis podem ser quantitativas ou qualitativas; se houver dados faltantes, o R entenderá isso, lendo NA na célula correspondente.

Os comandos seguintes mostram os dados que o R leu. Às vezes o programa adiciona colunas ou linhas desnecessariamente: é bom saber com que planilha o R está trabalhando antes de começar a analisar os dados...

O comando head mostra as seis primeiras linhas da planilha lida; e o comando tail, as seis últimas.

Observe que o R mostra corretamente duas colunas, ANOING e CR; no entanto, o programa leu uma linha adicional no fim. Podemos apagar esta linha desnecessária com o seguinte comando.

Às vezes o R interpreta erroneamente o tipo de variável. Tipicamente isto acontece quando copiamos uma planilha em português (decimais separados por vírgula, por exemplo). Para saber o tipo de variável lido pelo R, rodamos o comando str, que mostra a estrutura dos dados.

Veja que CR foi identificado como Factor, ou seja, como uma variável qualitativa. Para trocar o tipo de variável de CR para variável numérica, aplicamos o comando a seguir.

 

Exercício.

Faça a “limpeza” dos dados de sua planilha. Se tiver dúvidas com algum comando, digite help(nome do comando) na janela Console.

Alguns dos tipos de variável usados no R são: “logical", "integer", "double", "complex", "raw", "character", "list", "expression", "name", "symbol" e "function".

 

Referências

R Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing: Vienna, Austria, 2015.