Texto para ME-173
© J. Norberto W. Dachs, 2004.

 

 


| anterior | conteúdo | próximo |



2.4 - Tabelas para duas variáveis qualitativas


Já chegamos a fazer uma tabela que na realidade é para duas variáveis qualitativas. Trata-se da tabela do Quadro 2.1.8, com a distribuição dos alunos do Curso de Ciências Sociais da UNICAMP, para o período diurno e para o período noturno, de acordo com faixas de renda mensal em Reais do grupo familiar do/a aluno/a na ocasião em que prestou o vestibular, para os anos de 1994, 1995, 1996 e 1997, ao colocar lado a lado duas tabelas de frequência. para a mesma variável. Esta é na realidade uma tabela de faixas de renda por período. É uma das formas de apresentar a tabela chamada cruzada destas duas variáveis. Existem outras formas de apresentar os mesmos dados que podem ser muito importantes para entender o comportamento conjunto destas duas variáveis.


Agora vamos estender este tipo de tabelas para outras situações. A primeira tabela que vamos considerar é esta mesma, mas apresentada de maneira um pouco diferente, inicialmente apenas com as respectivas frequências, como pode ser visto no Quadro 1. Esta é na realidade a forma menos útil de apresentar a tabela, mas vamos começar com ela para ir apresentando as idéias seguintes.

Na tabela do
Quadro 2.1.8 estavam também as porcentagens correspondentes a cada categoria de faixa de renda para cada um dos dois períodos. Dessa forma pudemos comparar como eram as distribuições de renda no período diurno e no período noturno. Mas poderíamos estar interessados em outro aspecto do comportamento destas duas variáveis, especificamente em saber para cada faixa de renda como se distribuem os/as alunos/as nos dois períodos, ou seja, por exemplo, que na faixa de R$1.121,00 a R$1.680,00 mensais 58,3% dos/as estudantes estão no período diurno e apenas 41,7% no período noturno. E assim, da mesma forma para todas as faixas de renda. Neste caso estaríamos interessados no que chamamos de porcentagens nas linhas. No caso anterior tínhamos as porcentagens por coluna. Raramente podemos chegar a estar interessados na porcentagem em cada cela em relação ao total geral. A afirmação anterior de que são respectivamente 58,3% e (apenas) 41,7% na realidade necessita ser confrontada com o que acontece com o total de alunos nos dois períodos, ou seja, as porcentagens referentes aos totais que aparecem na última linha. Devemos estar atentos ao fato que do total de 289 alunos/alunas temos 60,2% no período diurno (174 do total) e 39,8% no período noturno, de maneira que não deveria surpreender-nos que na faixa de renda considerada tenhamos 58,3% e 41,7% dos/as alunos/as, respectivamente. São valores muito próximos ao que observamos para o conjunto completo de alunos. O que sim deveria chamar a atenção é que na faixa de renda de R$561,00 a R$1.120,00 temos 44,9% dos/as alunos/as no período noturno e 55,1% no período noturno, agora sim, porcentagens bem diferentes do conjunto todo. A tabela com as porcentagens nas linhas está no Quadro 2. No Quadro 3 apresentamos a tabela com ambas, as porcentagens nas linhas e nas colunas, em cada casela. É indispensável explicitar claramente qual vem primeiro. Não existe uma regra, às vezes convém ter primeiro a porcentagem na coluna, em outras, primeiro a porcentagem nas linhas. Na maioria das vezes nos interessam as duas e as interpretações são bastante diferentes (e, obviamente, complementares) ao usarmos uma ou outra. Existem também situações em que poderemos estar interessados na porcentagem numa dada casela em relação ao total geral da tabela.


Quadro 1 - Tabela cruzada de faixa de renda e período de estudos para os/as alunos/as do Curso de Ciências Sociais da UNICAMP que ingressaram nos anos de 1994, 1995, 1996 e 1997.

 

Faixa de renda
mensal

período

Total

diurno

noturno

Até R$ 112

1    

-    

1    

De R$ 113 a R$ 336

4    

2    

6    

de R$ 337 a R$ 560

11    

9    

20    

de R$ 561 a R$ 1120

22    

27    

49    

de R$ 1121 a R$ 1680

28    

20    

48    

de R$ 1681 a R$ 2240

23    

16    

39    

de R$ 2241 a R$ 3360

24    

19    

43    

de R$ 3361 a R$ 4480

25    

7    

32    

mais de R$ 4480

27    

12    

39    

Sem informação

9    

3    

12    

Total

174    

115    

289    

 


Fonte: Comvest, UNICAMP.



Quadro 2 - Tabela cruzada de faixa de renda e período de estudos para os/as alunos/as do Curso de Ciências Sociais da UNICAMP que ingressaram nos anos de 1994, 1995, 1996 e 1997, com porcentagens nas linhas.

 

Faixa de renda
mensal

período

Total

diurno

noturno

Até R$ 112

100,0    

-    

100,0    

De R$ 113 a R$ 336

66,7    

33,3    

100,0    

de R$ 337 a R$ 560

55,0    

45,0    

100,0    

de R$ 561 a R$ 1120

44,9    

55,1    

100,0    

de R$ 1121 a R$ 1680

58,3    

41,7    

100,0    

de R$ 1681 a R$ 2240

59,0    

41,0    

100,0    

de R$ 2241 a R$ 3360

55,8    

44,2    

100,0    

de R$ 3361 a R$ 4480

78,1    

21,9    

100,0    

mais de R$ 4480

69,2    

30,8    

100,0    

Sem informação

75,0    

25,0    

100,0    

Total

60,2    

39,8    

100,0    

 


Fonte: Comvest, UNICAMP.



Quadro 3 - Tabela cruzada de faixa de renda e período de estudos para os/as alunos/as do Curso de Ciências Sociais da UNICAMP que ingressaram nos anos de 1994, 1995, 1996 e 1997

 

conteúdo de cada casela

porcentagem na linha
porcentagem na coluna

 

Faixa de renda
mensal

período

Total

diurno

noturno

Até R$ 112

100,0    
0,6    

-     
-     

100,0    
0,4    

De R$ 113 a R$ 336

66,7    
2,3    

33,3    
1,7    

100,0    
2,1    

de R$ 337 a R$ 560

55,0    
6,3    

45,0    
7,8    

100,0    
6,9    

de R$ 561 a R$ 1120

44,9    
12,6    

55,1    
23,5    

100,0    
17,0    

de R$ 1121 a R$ 1680

58,3    
16,1    

41,7    
17,4    

100,0    
16,6    

de R$ 1681 a R$ 2240

59,0    
13,2    

41,0    
13,9    

100,0    
13,5    

de R$ 2241 a R$ 3360

55,9    
13,8    

44,1    
16,5    

100,0    
14,9    

de R$ 3361 a R$ 4480

78,1    
14,4    

21,9    
6,1    

100,0    
11,1    

mais de R$ 4480

69,2    
15,5    

30,8    
10,4    

100,0    
13,5    

Sem informação

75,0    
5,2    

25,0    
2,6    

100,0    
4,2    

Total

60,2    
100,0    

39,8    
100,0    

100,0    
100,0    

 


Fonte: Comvest, UNICAMP.



Não vamos apresentar agora interpretações para o que aparece na tabela do Quadro 3, além do que já foi dito na Seção 2.1 e acima. Faremos isto com a próxima tabela cruzada, apresentada no Quadro 4, para faixas de renda e nível de escolaridade do pai para estes/as mesmos/as alunos/as.


Quadro 4 - Tabela cruzada de renda familiar mensal e nível de escolaridade do pai para os/as alunos/as do Curso de Ciências Sociais da UNICAMP, que ingressaram nos anos de 1994, 1995, 1996 e 1997.

conteúdo de cada casela

porcentagem na linha
porcentagem na coluna

 

Renda familiar mensal

Nível de escolaridade do pai

Total

0 a 4

5 a 8

9 a 11

12 e mais

sem informação

até R$ 112

0,0    
0,0    

0,0    
0,0    

0,0    
0,0    

100,0   
0,6   

0,0    
0,0    

100,0    
0,4    

de R$113 a R$336

50,0    
7,3    

16,7    
3,6    

16,7    
2,1    

16,7   
0,6    

0,0    
0,0    

100,0    
2,1    

de R$337 a R$560

40,0    
19,5    

5,0    
3,6    

30,0    
12,5    

25,0   
3,0   

0,0    
0,0    

100,0    
6,9    

de R$561 a R$1120

26,5    
31,7    

14,3    
25,0    

26,5    
27,1    

30,6   
9,1   

2,0    
14,3    

100,0    
17,0    

de R$1121 a R$1580

12,5    
14,6    

14,6    
25,0    

18,8    
18,8    

54,2   
15,8   

0,0    
0,0    

100,0    
16,6    

de R$1681 a R$2240

5,1    
4,9    

10,3    
14,3    

20,5    
16,7    

61,5   
14,6   

2,6    
14,3    

100,0    
13,5    

de R$2241 a R$3360

11,6    
12,2    

11,6    
17,9    

14,0    
12,5    

62,8   
16,4   

0,0    
0,0    

100,0    
14,9    

de R$3361 a R$4480

3,1    
2,4    

0,0    
0,0    

6,3    
4,2    

90,6   
17,6   

0,0    
0,0    

100,0    
11,1    

mais de R$4480

7,7    
7,3    

5,1    
7,1    

5,1    
4,2    

82,1   
19,4   

0,0    
0,0    

100,0    
13,5    

sem informação

0,0    
0,0    

8,3    
3,6    

8,3    
2,1    

41,7   
3,0   

41,7    
71,4    

100,0    
4,2    

Total

14,2    
100,0    

9,7    
100,0    

16,6    
100,0    

57,1   
100,0   

2,4    
100,0    

100,0    
100,0    


Fonte: Comvest, UNICAMP.


Alguns comentários sobre o comportamento conjunto de renda mensal e escolaridade do pai:

 


•   Já tínhamos visto antes que 57,1% dos pais dos ingressantes no Curso de Ciências Sociais nos anos de 1994 a 1997 tinham 12 ou mais aons de escolaridade (curso superior incompleto ou mais). Ao examinar a porcentagem que tem essa escolaridade, de acordo com o nível de renda, vemos que para todas as categorias de R$1121 a R$1580 ou menos a porcentagem de pais com alguma educação formal na universidade é inferior a essa porcentagem, caindo cada vez mais conforme o nível de renda vai baixando: 54,2%, 30,6%, 25% e 16,7%. A porcentagem para rendimentos familiar inferior a R$112 não deve ser tomada como expressiva já que existe apenas um/a aluno/a nessa faixa.


•   No extremo oposto de nível de escolaridade se observa o contrário. Apenas 14,2% dos/as alunos/as tem pai com nível de escolaridade de 4 anos ou menos. Mas na faixa de R$561 a R$1120 esta porcentagem já é de 26,5%, subindo gradativamento conforme o nível de renda cai, para 40,0% na faixa de R$337 a R$560 e para 50,0% na anterior, de R$113 a R$336. Novamente na faixa de menos de R$112 o valor não deve ser considerado porque existe apenas um caso nesta faixa.


•   Se examinarmos na outra direção vemos que para as faixas de renda até R$1120 as porcentagens são decrescentes conforme vai aumentando o nível de escolaridade. Na faixa de R$1121 a R$1580 essas porcentagens oscilam entre 14,6% e 25%. A partir da faixa seguinte as porcentagens são crescentes conforme aumenta o nível de escolaridade, a tal ponto que nas duas faixas de R$3361 para cima, mas especialmente na de R$3361 a R$4480 a quase totalidade (90,6%) dos pais tem nível de pelo menos alguma escolaridade na universidade.


A pergunta que fica no momento sem resposta é, até que ponto este comportamento poderia ser apenas consequência de variações casuais (ao acaso, aleatórias)? Se fossem muito poucos estudantes isto seria possível, conforme o número vai aumentando essa possibilidade diminui. Será somente no Capítulo 6 que veremos testes de hipóteses para poder formalizar nossa resposta e poder dizer com que grau de segurança esta associação entre as duas variáveis é real ou apenas casual.

 


Mais importante em muitos contextos do que poder testar se as duas variáveis categóricas se comportam de forma "independente". Um conceito que estudaremos no Capítulo 5 é a noção de que quando temos duas variáveis associadas aos mesmos indivíduos, é possível, necessário e importante poder às vezes expressar qual é o grau de associação
(1) entre elas. Por exemplo, no caso da tabela do Quadro 4, é óbvio que ao aumentar a renda aumenta a escolaridade do pai. Será uma associação forte ou fraca?


Existem várias medidas de associação
(2) para variáveis qualitativas. Vejamos algumas das mais importantes, começando pela tabela cruzada mais simples, a tabela 2 x 2, ou seja uma tabela em que cada uma das variáveis tem apenas duas categorias. No Quadro 5 são apresentadas duas tabelas 2 x 2, a primeira delas (a) para duas variáveis nominais e a segunda (b) para duas variáveis ordinais. No caso da segunda o nível de renda baixo corresponde a uma renda mensal familiar de até R$1.580 e aprovação significa ter um coeficiente de rendimento (CR) igual ou superior a 0,5 no final do ano de 2001 quando os dados foram organizados no arquivo de trabalho que estamos usando.


Escolhemos tabelas com variáveis nominais e ordinais porque as medidas de associação que podem ser usadas em cada um destes casos não são as mesmas.


Em primeiro lugar é interessante ressaltar que na busca e construção de medidas de associação entre variáveis quase sempre os pesquisadores procuram estender os valores dessas medidas entre -1 e +1 ou entre 0 e 1. No caso de medidas entre -1 e +1 o valor zero representa falta completa de associação, o valor -1 uma associação perfeita do tipo inverso, ou seja, quando uma das variáveis é "grande" a outra é "pequena" e vice-versa, e no caso de variação entre 0 e 1, o zero de novo representa a falta completa de associação e o valor 1 uma associação completa ou "perfeita".

Parece claro que no caso de variáveis nominais as medidas de associação devem limitar-se a valores entre 0 e 1. Neste caso (variáveis nominais) não se pode falar de valores pequenos ou grandes, já que não existe nenhuma ordem implícita (ou "natural") para as categorias das variáveis. No caso de variáveis ordinais (e também mais tarde para medidas de associação entre variáveis quantitativas) em gerar as medidas que se usam irão variar entre -1 e +1.


Existem casos especiais nos quais a medida de associação pode variar além de 1, assumindo valores positivos que em princípio podem assumir qualquer valor. Este é, por exemplo, o que ocorre com o assim chamado
risco relativo que veremos mais adiante.


A primeira medida de associação que consideraremos, aplicável apenas a tabelas 2 x 2 é a
diferença porcentual de linhas (d%l) ou colunas (d%c). É uma medida de associação que pode ser usada tanto para variáveis nominais como para variáveis ordinais.


Consideremos a tabela (a) do Quadro 5, com duas variáveis nominais.


A diferença (em valor absoluto) entre as porcentagens das colunas tanto na primeira como na segunda linha é a mesma (e pode-se facilmente demonstrar que sempre será assim) e neste caso igual a 10,4%. Este valor é a diferença entre 47,9% e 37,5% que é igual (em valor absoluto) à diferença entre 52,1% e 62,5%.


Da mesma forma a diferença entre as porcentagens das linhas, tanto na primeira como na segunda coluna também é a mesma (só que em geral diferente da diferença das colunas). Neste caso ela é igual a 10,5%. Este valor é a diferença entre 49,3% e 38,8% que é igual (em valor absoluto) à diferença entre 50,7% e 61,2%.


A interpretação de d%l
é a seguinte: Ser do sexo feminino representa um aumento de 10,4% de ter feito cursinho. Neste caso a interpretação de d%c é pouco útil e até certo ponto forçada. Ela seria de que ter feito cursinho representa um aumento de 10,5% de ser do sexo feminino. Note que poderíamos igualmente dar a interpretação invertendo masculino com feminino e fazer cursinho com não fazer cursinho. Poderíamos dizer, por exemplo, que ser do sexo masculino representa uma diminuição de 10,4% de ter feito cursinho. Tudo isto, é claro, para alunos do Curso de Ciências Sociais da UNICAMP, período diurno, que ingressaram na Universidade entre 1994 e 1997.


Se calcularmos a d%l e a d%c para a tabela (b) do Quadro 5, com duas variáveis ordinais, obtemos, respectivamente, 1,4% e 1,8%.


Nestes exemplos podemos dizer que existe uma associação mais forte (ainda que não muito grande) entre sexo do aluno e ter feito cursinho, do que entre nível de renda e ter Coeficiente de Rendimento maior ou igual a 0,5 (que significa ter sido aprovado).

 

 


Quadro 5 - Duas tabelas cruzadas 2 x 2 para os/as alunos/as do Curso de Ciências Sociais da UNICAMP, período diurno, ingressados nos anos de 1994, 1995, 1996 e 1997.

conteúdo de cada casela

frequência
porcentagem na linha
porcentagem na coluna

(a) Sexo e fez cursinho.

sexo

fez cursinho

total

não

sim

masculino

35  
49,3  
47,9  

36  
50,7  
37,5  

71  
100,0  
42,0  

feminino

38  
38,8  
52,1  

60  
61,2  
62,5  

98  
100,0  
58,0  

total

73  
43,2  
100,0  

96  
56,8  
100,0  

169  
100,0  
100,0  

(b) Nível de renda e aprovado

nível de renda

aprovado

total

não

sim

baixa

12  
18,2  
41,4  

54  
81,8  
40,0  

66  
100,0  
40,2  

alta

17  
17,4  
58,6  

81  
82,6  
60,0  

98  
100,0  
59,8  

total

29  
17,7  
100,0  

135  
82,3  
100,0  

164  
100,0  
100,0  


  Nota: Existem 1 caso com falta de informação (FI) em sexo, 1 caso com FI em cursinho e 3 em ambas.


   Nota: Existem 9 casos com FI em renda e 1 caso com FI em aprovação.

Fonte: Comvest, UNICAMP.


 

A medida de associação que consideramos agora é aplicável a variáveis ordinais apenas, como ocorre na tabela (b) do Quadro 5. É chamada de Q de Yule, em homenagem ao estatístico escocês George Udny Yule, nascido em 1871.

Para poder entender e calcular o valor de Q precisamos primeiro falar de pares concordantes e pares discordantes. Faremos isto primeiro apenas para tabelas 2 x 2 e mais adiante para o caso mais geral. Fica desde o início claro porque o conceito de pares e esta medida só podem ser definidos e calculados para variáveis ordinais.

Chamamos de casos concordandes aqueles casos na tabela em que para as duas variáveis existe concordância de posição relativa nas respectivas classificações. Para a tabela 2 x 2 estes são os casos que estão na diagonal da tabela, ou seja os casos em que ambas as classificações tem estão na categoria menor ou na categoria maior. Os casos discordantes são aqueles em que uma das categorias é a menor e a outra a maior. Na tabela (b) do Quadro 5, por exemplo, os casos concordantes são que corresponde a menor nível renda e menor coeficiente de rendimento (reprovado) e 81 que representa os caos de maior nível renda e maior coeficiente de rendimento (aprovado). Os casos discordantes são 54 (menor renda e maior coeficiente de rendimento) e 17 (maior renda e menor coeficiente de rendimento).

Por sua vez são chamados de pares concordantes os produtos dos valores dos casos concordantes, ou seja, no exemplo da tabela (b) o produto de 12 e 81, que é igual a 972. O nome pares concordantes vem do fato de que para cada caso em que há concordância de menor e menor pode ser pareado com cada caso com concordância maior e maior.

Da mesma forma são chamados de pares discordantes aqueles em que se toma um caso menor e maior com outro do tipo maior e menor nas respectivas variáveis. No exemplo que estamos considerando são 918 pares discordantes, ou seja, o produto de 54 e 17.

Os pares concordantes são representados pela letra C e os pares discordantes pela letra D.

O último tipo de pares que existem e às vezes se usam para a construção de medidas de associação são os pares com empates. Podem existir empates nas linhas ou nas colunas. No exemplo com a tabela (b) temos:

Empates nas colunas: 12 vezes 17 (empate na categoria reprovado) e 54 vezes 81 (empate em aprovado) = 4378

Empates na linhas: 12 x 54 (empate em nível econômico baixo) e 17 x 81 (empate em nível econômico alto) = 2025

A medida de associação Q de Yule consiste na proporção (ou porcentagem) de pares concordantes menos pares discordantes em relação à soma de pares concordantes e discordantes

 

 

(2.4.1)

Já tínhamos visto que a associação entre nível econômico (baixo e alto) e ser aprovado ou não era pequena quando calculamos a diferença porcentual de linhas e também de colunas para a tabela (b) do Quadro 5. Essas diferenças porcentuais eram, respectivamente, 1,4% e 1,8% apenas. Esta associação fraca se confirma com o cálculo do Q de Yule para esta mesma tabela.


O valor do Q de Yule varia entre -1 e +1, sendo que o valor zero corresponde a nenhuma associação, o valor -1 a uma completa associação inversa (valor baixo das categorias de linhas se associa completamente a valor alto das categorias de coluna e vice-versa) e o valor +1 a uma completa associação direta (valor baixo das categorias de linhas se associa completamente a valor baixo das categorias de coluna). Associações completas raramente ocorrem na prática. Para entender o que se quer dizer com associação completa inversa e direta são apresentadas duas tabelas no Quadro 6, com valores especialmente "cozinhados" para que elas ocorram.

 


Quadro 6 - Duas tabelas cruzadas 2 x 2 com associações completas entra as linhas e colunas

 

(a) Associação completa direta, Q de Yule = +1
(b) Associação completa inversa, Q de Yule = -1

 

 

(a)

linha

coluna

total

C1

C2

L1

30  

0  

30  

L2

0  

70  

70  

total

30  

70  

100  

(b)

linha

coluna

total

C1

C2

L1

0  

30  

30  

L2

70  

0  

70  

total

70  

30  

100  

 


Para tabelas 2 x 2 existem outras duas medidas de associação que podem ser calculadas tanto para variáveis nominais como ordinais e que tem grande importância prática, sendo usadas principalmente pelos epidemiologistas.

Consideremos, por exemplo, a tabela do Quadro 7, na qual se apresenta os casos de mortes perinatais (mortes fetais com 22 semanas de gestação ou mais e mortes de recém nascidos até o sexto dia de vida) para mães em união estável ou não ocorridas no Hospital das Clínicas da Faculdade de Ciências Médicas da UNICAMP nos anos de 1978 a 1985. Para uma definição e usos de indicadores sobre morte perinatal você pode consultar as páginas do DATASUS.

Se olharmos atentamente a tabela, e principalmente se fizermos algumas contas, veremos que em termos proporcionais ocorrem mais mortes perinatais quando a mãe não vive numa união estável. Neste caso, são 57 mortes num total de 675 gravidez, o que corresponde a 8,44% do total na primeira linha. Para mães em união estável são 107 mortes num total de 1953 gravidezes, correspondendo portanto a 5,48% do total da segunda linha. Cada um desses valores se chama de risco. O primeiro é o risco de ocorrência de uma morte perinatal quando a mãe não vive em uma união estável e o segundo o risco de ocorrência de morte perinatal quando a mãe vive em união estável. A razão (quociente) destes dois valores é chamada de risco relativo (RR).(3)

Uma enorme vantagem, quando faz sentido usar esta medida, é que ela tem uma interpretação muito útil no entendimento do problema. O risco relativo representa quanto é maior a probabilidade de ocorrer uma morte perinatal quando a mãe não vive em união estável, comparada com a probabilidade de ocorrência de morte perinatal quando ela vive em união estável. Neste exemplo o risco relativo é de 8,44/5,48 = (aproximadamente) 1,54. Isto significa que a probabilidade de ocorrência de uma morte perinatal para mães que não viviam em união estável era na época 1,54 vezes maior do que para mães que viviam em união estável. A fórmula do RR, usando a notação da tabela do Quadro 8 é:

 

(2.4.2)


O jargão que se usa em geral é o seguinte: A variável tipo de união (com duas categorias, nominal) é chamada de fator de risco ou de exposição. A variável morte perinatal (também com duas categorias, também nominal) é chamada de resultado. No jargão dos epidemiologistas então se diria que a mãe não viver em união estável é um fator de risco para morte perinatal, com um risco relativo de 1,54.


Quadro 7 - Mortes perinatais de acordo com o tipo de união da mãe, Hospital de Clínicas da Faculdade de Ciências Médicas da UNICAMP, nos anos de 1978 a 1985.

 

união estável

morte perinatal

total

sim

não

não

57  

618  

675  

sim

107  

1846  

1953  

total (*)

164  

2464  

2628  

 


(*) Existem 9 casos com falta de informação sobre tipo de união, nos quais não ocorreu morte perinatal.
Fonte: Roveri, Creusa M. Comparação de Métodos Estatísticos de Classificação de Risco de Parto. Dissertação de Mestrado Departamento de Estatística, IMECC, UNICAMP, 1987, p 138.
(4)


A outra medida muito usada pelos epidemiologistas é a razão de produtos cruzados, que vamos representar por OR, devido ao nome da mesma em inglês (odds ratio). Como o nome diz esta medida é dada pelo quociente do produto de 57 por 1846 e o produto de 107 por 618, ou seja, usando os símbolos da tabela do Quadro 8:

Note como o valor da razão de produtos cruzados é parecido com o valor do risco relativo. De fato, é possível mostrar que para valores pequenos de (a+b)/n = (a+b)/(a+b+c+d) o OR tem valor próximo ao do RR. Quanto menor esta razão (a+b)/n, que pode ser uma incidência ou uma prevalência do resultado na população em geral, mais o OR se aproxima do valor do RR.

 

(2.4.3)


Existe uma relação simples entre a razão de produtos cruzados (OR) e o Q (de Yule). É possível mostrar que:

 

(2.4.4)


Esta relação entre as duas medidas de associação tem uma vantagem adicional, nos mostra que de fato um valor de Q de Yule igual a 0,16 não é tão pequeno quanto poderia parecer à primeira vista. Corresponde a uma tabela na qual o Risco Relativo é um pouco maior do que 1,5.

 


Quadro 8 - Uma tabela 2 x 2 com os símbolos que normalmente são usados para os números de casos em cada casela, e as somas de linhas, colunas e total.

 

fator de risco

resultado (quase sempre
não desejável)

total

sim

não

PRESENTE

a    

c    

a + c       

AUSENTE

b    

d    

b + d       

total (*)

a + b  

c + d  

n = a + b + c + d 

 



Essas medidas de associação, a diferença porcentual de linha ou de coluna, o
Q de Yule, o risco relativo e a razão de produtos cruzados só podem ser usadas em tabelas 2 x 2.

Vejamos agora algumas das medidas de associação que se usam em tabelas com mais categorias nas linhas e/ou nas colunas.

Inicialmente consideramos medidas de associação para variáveis nominais. Veremos abaixo quatro medidas, phi de Pearson, o coeficiente de contingência, V de Cramér e lambda de Goodman e Kruskal. As três primeiras são derivadas da estatística quiquadrado e para poder entendê-las temos que explicar o que é essa estatística que usaremos mais tarde em testes de hipóteses para testar, por exemplo, a independência entre as classificações de linhas e colunas. No capítulo quando voltaremos a usar o quiquadrado sua construção será feita usando o conceito de independência entre as duas variáveis correspondentes às linhas e às colunas, aqui pensaremos com o conceito de associação.

Na tabela (a) do Quadro 9 aparecem apenas os totais nas colunas e nas linhas. Estas são chamadas as distribuições marginais de coluna e de linha, como veremos no capítulo 6. Se não existe associação entre linhas e colunas, devemos ter em cada coluna proporções (ou porcentagens) do total da respectiva coluna que são iguais às proporções ou porcentagens para o total das colunas. Por exemplo, na tabela (a) do quadro 9 temos 30% dos casos na primeira linha e 70% na segunda linha. Para que não haja associação é necessário que a porcentagem na primeira linha correspondente à primeira coluna seja de 30% do total na primeira coluna, ou seja, 30% de 40 que corresponde a 12 casos. Na primeira coluna deve portanto haver 28 casos na segunda linha que corresponde a 70% dos 40 casos naquela coluna. Obviamente neste caso este valor também pode ser obtido por diferença, ou seja, 28 = 40 - 12. De forma análoga, na segunda coluna, deve haver 18 casos na primeira linha, correspondendo a 30% dos 60 casos que existem nessa coluna e 42 na segunda linha dessa coluna, que são 70% dos 60 casos, que é igual a 42, que por sua vez é igual a 60 - 18.

Todo este processo nos leva a valores que são chamados de valores esperados. Seriam os valores que esperaríamos encontrar no interior da tabela se as classificações de linha e coluna não tem nenhuma associação entre elas. Os valores esperados para a tabela do Quadro 9 estão na parte (b).


Quadro 9 - Uma tabela 2 x 2

 

(a) Apenas com os valores totais nas colunas e nas linhas
(b) Os valores esperados nas celas se não há associação entre linhas e colunas

 

(a)

linha

coluna

total

C1

C2

L1

  

  

30  

L2

  

  

70  

total

40  

60  

100  

(b)

linha

coluna

total

C1

C2

L1

12  

18  

30  

L2

28  

42  

70  

total

40  

60  

100  


 


Existe uma maneira simples de encontrar os valores esperados nas celas (caselas) em qualquer tabela. Para poder mostrar esta forma geral precisamos de alguma notação.
(5) Na tabela do Quadro 10 apresentamos uma tabela com p linhas e q colunas, e a notação para o número de casos em cada casela. O valor genérico para a linha i e a coluna j será representado por n(i j), o total na linha i é representado por n(i .) onde o ponto ( . ) representa soma na posição correspondente, de modo que a soma na coluna j é representada portanto por n(. j). O total de casos na tabela é pois n(..) que por conveniência representaremos apenas por n. Portanto a proporção de casos na linha i é dado por n(i .) / n. Se se mantiverem as proporções da coluna de totais de linhas em uma dada coluna j teremos respectivamente valores esperados iguais a n( . j) x n(i .) / n . Este valor esperado na cela (casela) i , j é representado por e(i j).

 

(2.4.5)


Os números de casos que ocorrem em cada casela (cela) são chamados de valores observados e representados por o(ij). São os n(ij) que temos internamente na tabela. O
quiquadrado é uma estatística que como dito anteriormente iremos usar no capítulo 6 para testar hipóteses é dado por:

 

(2.4.6)

   


Quadro 10 - Uma tabela com p linhas e q colunas, com a notação para as frequências nas celas, nas marginais de linha e de coluna e total.

Linhas

Colunas

Total

C1

C2

. . .

Cq

L1

 n(11)   

n(12)   

. . .   

n(1q)   

n(1.)  

L2

n(21)   

n(22)   

. . .   

n(2q)   

n(2.)  

. . .

. . .   

. . .   

. . .   

. . .   

. . .  

Lp

n(p1)   

n(p2)   

. . .   

n(pq)   

n(p.)  

Total

n(.1)   

n(.2)   

. . .   

n(.q)   

n = n(..



Vejamos então as três medidas de associação para tabelas gerais com variáveis nominais, que se constroem a partir do
quiquadrado. As duas primeiras foram criadas, ainda no século XIX por Karl Pearson.

A primeira delas se chama
fi de Pearson, às vezes (raramente na verdade) chamado de coeficiente de contingência de média quadrática de Pearson, é representada pela letra grega fi minúscula e é a raiz quadrada do valor de quiquadrado dividido por n, ou seja:

 

(2.4.7)


Talvez o aspecto mais útil de fi é que sua distribuição é conhecida, o que permite encontrar o que se chamam de intervalos de confiança exatos para esta medida de associação. Mas em geral é difícil de entender o que realmente estamos medindo em termos de associação com esta medida. Se todos os valores observados forem iguais a todos os valores esperados o quiquadrado será zero e portanto fi também será zero. Já o limite superior não é o valor 1, o que torna seu uso ainda mais inconveniente do ponto de vista prático. O único caso em que se pode dar uma interpretação para fi é para tabelas 2 x 2 o que faz com que em geral esta medida só seja utilizada neste caso.

A medida seguinte, também devida a Karl Peason é o coeficiente de contingência, representado por C. Esta é mais usada do que fi, mas também não tem uma interpretação para tabelas gerais. O coeficiente de contingência é dado pela raiz quadrada do quiquadrado dividido por quiquadrado mais n, o número total de casos na tabela.

 

(2.4.8)


Talvez a razão mais importante para a preferência pelo
coeficiente de contingência em relação a fi é que o C está limitado entre zero e raiz quadrada de (k-1)/k, onde k é o mínimo entre o número de linhas e de colunas da tabela, e este valor se aproxima de um quando o valor de k é grande.

A terceira medida derivada do quiquadrado que veremos se chama V de Cramér, em homenagem ao matemático e estatístico sueco Harald Cramér que a propôs pela primeira vez. Na fórmula de V se usa um termo denotado por m que é o mínimo entre (p-1) e (q-1), ou seja, o mínimo entre o número de linhas menos um e o número de colunas menos um:


(2.4.9)


O
V de Cramér está limitado entre zero e um, com zero correspondendo a nenhuma associação e um a "associação perfeita" que neste caso corresponde a ter as duas variáveis com o mesmo número de categorias e distribuições marginais iguais, com as frequências nas celas apenas nas caselas em que as frequências coincidem. O V de Cramér é a medida de associação derivada do quiquadrado que tem maior uso na prática, não só per estar entre zero e um mas também porque suas distribuição é conhecida, o que permite obter intervalos de confiança exatos para essa medida.

A última
(6) medida de associação para tabelas com as duas variáveis de tipo nominal que veremos é o lambda de Goodman e Kruskal. Neste caso, para usar lambda, é necessário ter uma situação em que uma das variáveis "precede" a outra em algum sentido, e queremos usar a primeira para predizer os valores da segunda. A medida de associação lambda mede a redução proporcional nos erros de predição ao conhecer o valor da primeira variável em relação a não conhecer esse valor. Consideremos o cruzamento de área de estudos na Unicamp e disciplina do curso secundário preferida pelo/a aluno/a conforme foi declarado na ocasião do vestibular para os/as alunos/as que ingressaram nos anos de 1994, 1995, 1996 e 1997 nos Cursos UNICAMP, período diurno. Os dados estão apresentados na tabela do Quadro 11, mas agora com as frequências em cada casela em vez das porcentagens de linhas e de colunas. Vamos explicar como se calcula o lambda no caso em que se deseja predizer a área de estudo do/a aluno/a.

Se não conhecemos a disciplina preferida do/a aluno/a a melhor adivinhação que podemos fazer é dizer que ele/ela ingressou em algum dos cursos de Engenharia, já que esta é a categoria mais frequente, são 1.893 dos/as 5.258 ingressantes naqueles anos. Iremos errar em (5.258 - 1.893) = 3.365 casos, ou seja que a chance de errar é de aproximadamente 64,0% (que é 100 x 3.365 / 5.258). Ao conhecermos a disciplina preferida do/a aluno/a neste caso podemos conseguir melhores resultados. Se a disciplina preferida for história, por exemplo, iremos prever que o/a aluno/a ingressou na área de Ciências Humanas ou Sociais, já que esta é, naquele caso, a categoria mais frequente, com 411 casos. Da mesma forma, se a disciplina preferida for geografia iremos prever ingresso também na área de Humanas e Sociais, se for redação ou literatura também, com acertos, respectivamente em 64, 73 e 200 casos (os mais frequentes em cada uma daquelas colunas). Se a disciplina for biologia devemos prever que o/a aluno/a ingressou na área de Ciências Biológicas ou da Saúde, com 720 acertos e, finalmente, se for química, física, matemática ou língua estrangeira, na área de Engenharias, com 287, 676, 477 e 172 acertos. O total de casos em que iremos acertar é portanto de 3.080 (que é a soma de 411 + 64 + 73 + 200 + 720 + 287 + 676 + 477 + 172). Iremos errar portanto em 2.178 casos (5.258 - 3.080). Isto significa que conhecendo a disciplina preferida do/a aluno/a nossa chance de errar cai para aproximadamente 41,4%. A redução porcentual relativa é de (64,0 - 41,4) / 64,0 = 35,3%.


Quadro 11 - Disciplinas preferidas, conforme declarado no vestibular, e área de estudos na qual o/a aluno/a ingressou na Unicamp, no período diurno, nos anos de 1994, 1995, 1996 e 1997.

Area

Disciplina preferida

história

geografia

redação

literatura

biologia

Ciências exatas

20    

15    

11    

11    

25    

Engenharias

94    

42    

28    

20    

97    

Biológicas/Saúde

50    

17    

21    

24    

720    

Humanas/Sociais

411    

64    

73    

200    

31    

Artes

97    

17    

45    

81    

24    

Total

672    

155    

178    

336    

897    

 

Area

Disciplina preferida

Total

química

física

matemática

ling. estr.

Ciências exatas

201    

289    

267    

77    

916   

Engenharias

287    

676    

477    

172    

1893   

Biológicas/Saúde

59    

35    

30    

92    

1048   

Humanas/Sociais

12    

10    

53    

146    

1000   

Artes

5    

13    

12    

107    

401   

Total

564    

1023    

839    

594    

5258   


Fonte: Comvest, UNICAMP.


Para apresentar a fórmula geral precisamos de um pouco mais de notação. Representemos por F(j) a frequência máxima nas linhas da coluna j e por F( . ) a frequência máxima na marginal de linhas, ou seja, na coluna de totais. O número total de acertos quando não conhecemos o classificação das colunas é F( . ), de modo que o número de erros será [n - F( . )]. Quando conhecemos a classificação das colunas os acertos são a soma para j de 1 até q (1 a 9 no caso particular da tabela do Quadro 11) dos F(j) e os erros são n - SOMA dos F(j). As proporções de erros são calculadas dividindo pelo número total de casos, n. A fórmula portanto é a seguinte:

 




(2.4.10)


A medida de associação lambda está sempre entre zero e um. Teremos zero quando os máximos em todas as colunas estão todos na mesma linha que é a mesma em que ocorre portanto o máximo da marginal. Teremos um quando o conhecimento da classificação de colunas permite determinar com total precisão os valores da classificação de linha. Outra vantagem desta medida é que sua distribuição é conhecida e portanto podemos apresentar intervalos de confiança para a mesma. Existe também uma versão equivalente para prever os valores da classificação da coluna quando conhecemos os valores da classificação das linhas mas em vez de apresentá-la o que se pode sempre fazer é trocar as posições das linhas e colunas na tabela e usar a expressão (2.4.10). Existe também uma versão "simétrica" de lambda mas ela não tem a interpretação simples que temos aqui.
(7)

Para poder estender as medidas de associação para variáveis ordinais em tabelas maiores do que 2 x 2 precisamos entender como se determinam pares concordantes e discordantes neste caso. No Quadro 12 apresentamos uma tabela de 2 linhas e 3 colunas. As duas classificações, tanto nas linhas como nas colunas, são ordinais, com os símbolos usados anteriormente

 

Exercícios

dados

1)     Use os mesmos dados do exercício 2.1 (pode usar o "link" aqui do lado esquerdo para chegar ao arquivo de dados).

1.1   Faça uma tabela cruzada das variáveis sexo e trabalha par os/as alunos/as do período diurno. Será uma tabela com duas linhas e quatro colunas. Não inclua na tabela os casos com falta de informação.

1.2  Faça uma tabela cruzada das variáveis sexo e trabalha par os/as alunos/as do período diurno mas em vez de colocar nas celas os valores observados calcule para cada uma delas qual é o valor esperado se não houver nenhuma relação entre as duas variáveis.

1.3  Calcule o valor de qui-quadrado para a tabela.

 

Notas e referências

(1)

As partes do texto que tem fundo amarelo claro são em geral mais difíceis do que as demais. Em alguns casos podem não ser apresentadas num curso introdutório. Por outro lado, no caso de Ciências Sociais é necessário considerar que se for usado um pacote de análise estatística como o SPSS (Statistical Package for the Social Sciences) neste caso particular de medidas de associação, o pacote vai calcular uma ou mais dessas medidas ao ser feita uma tabela cruzada e é extremamente importante que o usuário saiba de que se tratam. A menção do SPSS não significa que este seja o "software" que deva ser preferido para usar em análises de dados em Ciências Sociais ou qualquer outra área. Existem inúmeros pacotes, muitos deles melhores do que o SPSS. Aqui na UNICAMP é muito usado o SAS (Statistical Analysis System) e aos poucos se está também difundindo o uso do STATA. Eu pessoalmente prefiro este último, pelas suas características de flexibilidade, confiabilidade, facilidade de uso, e outras. Outro pacote usado para ensino na UNICAMP é o Minitab.

(2)

A referência mais importante sobre medidas de associação em tabelas cruzadas são quatro artigos de Goodman, Leo A. and W. H. Kruskal (1954, 1959, 1963, 1972). Measures of association for cross-classification, I, II, III and IV. Journal of the American Statistical Association. 49: 732-764, 54: 123-163, 58: 310-364, and 67: 415-421, respectivamente. São artigos longos e foram coletados num livro com o mesmo nome, publicado pela Springer Velag. Na Internet existe um conjunto de textos muito úteis, do professor G. David Garson, da Faculdade de Humanidades e Ciências Sociais da Universidade do Estado da Carolina do Norte.

(3)

Se você precisar usar o Risco Relativo ou a Razão de Produtos Cruzados em um trabalho convém ler um pouco mais sobre ambos e sobre suas relações. Existem muitos textos na Internet, a maior parte deles em inglês que podem ser consultados. Em português uma alternativa é o texto introdutório de Epidemiologia do Professor Maurício de Andrade Pérez, do Núcleo de Estudos em Saúde Coletiva da Universidade Federal do Rio de Janeiro.

(4)

A dissertação só está disponível na Biblioteca do IMECC e na Biblioteca Central da UNICAMP, em papel. É uma pena. Somente o Instituto de Física da UNICAMP já digitalizou todas as dissertações de mestrado e teses de doutorado e elas estão disponíveis na Internet. As demais unidades estão muito atrasadas neste processo. O IMECC é uma das unidades com menor número de teses e dissertações disponíveis em forma digital.

(5)

Notação significa usar símbolos especiais para simplificar a apresentação de conceitos, métodos e técnicas que podem ser muito complexas ou até impossíveis de serem expressadas apenas com nossa linguagem usual. São na realidade uma extensão de nossa linguagem escrita em áreas especiais. Não tenha medo nem rechaço ao uso de notação especial. Imagine o que seria de tua vida sem a letra "a", uma notação especial para representar no caso da língua portuguesa um fonema, e que nos permite escrever. São mais de dois mil anos de história desde o aparecimento do alfabeto e mais de cinco mil desde que começaram a ser usados símbolos (hieróglifos, cuneiformes e outros) para permitir a transmissão de idéias através de linguagem escrita. Nós sabemos todos quanto essa inovação permitiu o avanço do conhecimento e o intercâmbio de idéias entre os seres humanos ("La langue d’un peuple donne son vocabulaire, et son vocabulaire est une bible assez fidèle de toutes les connaissances de ce peuple ; sur la seule comparaison du vocabulaire d’une nation en différents temps, on se formerait une idée de ses progrès. Chaque science a un nom, chaque notion dans la science a le sien, tout ce qui est connu dans la nature est désigné ainsi que tout ce qu’on invente dans les arts, et les phénomènes, et les manœuvres, et les instruments". Michel Foucault. Les mots et les Choses. Une Archéologie des Sciences Humaines. Paris, Gallimard, 1966). Nos primórdios do desenvolvimento da matemática, da física e da química se usavam poucos símbolos especiais. Os pesquisadores e pensadores recorriam quase exclusivamente à linguagem escrita usual para, em frases longuíssimas, descrever os novos conceitos, estabelecer novas relações, etc. Veja por exemplo esta página do livro de Carl Gauss sobre Theoria residuorum biquadraticorum (teoria de resíduos biquadráticos). Além de quase não conter símbolos matemáticos (que em grande parte não existiam) o livro foi escrito em Latim, mais de 16 séculos depois da queda do Império Romano.

(6)

Existem muitas outras medidas de associação para tabelas com variáveis nominais mas aqui nos limitaremoa a ver apenas estas quatro. Entre as que deixamos de incluir estão o T de Tschuprow's T, o coeficiente de incerteza e o U de Theil. Estas duas últimas são medidas baseadas em conceitos de teoria da informação (tipo entropia).

(7)

O lambda de Goodman e Kruskal pode ser usado para selecionar sequencialmente variáveis categorizadas para prever uma outra de interesse. Este método é apresentado com detalhe na dissertação de mestrado de Mauro S. F. Marques, Um método de seleção para variáveis politômicas, Mestrado em Estatística, UNICAMP, 1980. Um resumo sobre o método é também apresentado em Dachs, J.N.W. e M.S.F. Marques. A Method for the Selection of Categorical Variables. Bull Intern. Statist. Inst., 1981: 221-224.


| anterior | conteúdo | próximo |