Modelos de Regressão

Modelos de Regressão para Dados de Contagem com Distribuição Zero-Modificada

Autor(es) e Instituição: 
Katiane S. Conceição (DEs - UFSCar)
Marinho G. Andrade (ICMC - USP)
Francisco Louzada-Neto (DEs - UFSCar)
Apresentador: 
Francisco Louzada-Neto

A análise de dados de contagem ocupam um importante lugar na estatística aplicada uma vez que muitos fenômenos ocorridos na natureza são expressos como tais dados. Entretanto, cautela na suposição da distribuição de probabilidade que rege o fenômeno aleatório é necessária pois, muitas vezes a discrepância de interesse é a classe de contagem de zeros. O objetivo principal deste trabalho é apresentar modelos de regressão na família de distribuição zero-modificada de forma a acomodar dados inflacionados, deflacionados ou com ausência de zeros. Desta forma o modelo proposto torna-se bastante flexível para tratar diferentes aplicações de modelos de regressão para dados de contagem. A abordagem clássica do problema de inferência são apresentados.

Resumo estendido: 

Asymptotic properties for a general extreme-value regression model

Autor(es) e Instituição: 
Wagner Barreto de Souza
Klaus Leite Pinto Vasconcellos
Apresentador: 
Wagner Barreto de Souza

In this thesis we introduce a general extreme-value regression model and derive Cox and Snell's (1968) general formulae for second-order biases of maximum likelihood estimates (MLEs) of the parameters. We present formulae which can be computed by means of weighted linear regressions. Furthermore, we give the skewness of order n^{-1/2} of the MLEs of the parameters by using Bowman and Shenton's (1998) formula. Special cases of this model and a simulation study with results obtained with use of Cox and Snell's (1968) formulae are presented. A practical use of this model and of the derived formulae for bias correction is also presented.

A Generalized Species-Area Relationship for Estimating Species Diversity: The Poisson Distribution Case

Autor(es) e Instituição: 
Katiane S. Conceição - UFScar
Rubiane Maria Pires - UFSCar
Francisco Louzada-Neto - UFSCar
Marinho G. Andrade - ICMC/USP
Carlos Alberto Ribeiro Diniz - UFScar
Apresentador: 
Rubiane Maria Pires

The species diversity is related to several factors, such as the mutation, interaction, competition and the amount of available resources for survival, amongst others. Besides, species diversity is related to the size of the habitat area (species-area relationship). A major problem in ecology is to identify the best function that models this relationship. The main idea of the paper is to propose a generalized species-area relationship that has as particular cases relations proposed earlier, including ones that consider the effects of minimum area and upper asymptote. The proposed model is suitable for areas of different scales (small, intermediate and large) and considers a Poisson (discrete) probability distribution for the species diversity. The advantage of our formulation is to lead to a unique function for species-area relationship, which takes into account both effects of minimum area and asymptotic behavior of the growth curve for large areas, providing a unique algorithm for fitting different dataset, and choosing the best model in the light of the data. The applicability of our approach was tested via a simulation study conducted in order to determine if the AIC and BIC selection criteria are suitable to decide for the best model to be considered for describing the species-area relationship. We also consider applications to a set of artificial data and a set of real data from of the diversity of fish in 70 lakes of different sites. In both cases our proposed extension overcome its particular cases.

Resumo estendido: 

UMA APLICAÇÃO DOS MODELOS LINEARES GENERALIZADOS HIERÁRQUICOS DUPLOS EM DADOS LONGITUDINAIS DE CONTAGEM COM EXCESSO DE ZEROS

Autor(es) e Instituição: 
NÍVEA BISPO DA SILVA - UNICAMP
ROSEMEIRE L. FIACCONE - UFBA
LEILA D. A. F. AMORIM
Apresentador: 
NÍVEA BISPO DA SILVA

Neste trabalho foi proposta uma aplicação dos modelos lineares generalizados hierárquicos duplos para dados longitudinais de contagem com excesso de zeros. Em diversas áreas do conhecimento é comum modelar respostas do tipo contagem, contudo, na maioria das vezes a estrutura deste tipo de resposta apresenta problemas de extra-variabilidade ou excesso de zeros. O modelo clássico de regressão para modelar contagens é o de Poisson, pois ele é frequentemente útil em descrever a média, contudo, subestima a variância dos dados quando o mesmo apresenta super-dispersão, e a não consideração deste problema pode resultar em estimação incorreta dos erros-padrão, e consequentemente uma avaliação incorreta da significância dos parâmetros da regressão individual. Uma solução é estender o modelo clássico de regressão, utilizando, por exemplo, estimadores sanduíche, ou ainda adicionando um parâmetro de dispersão no modelo. Outra opção é trabalhar com o modelo Binomial negativo. Existem na literatura diversas metodologias que lidam com o problema de excesso de zeros, dentre elas estão o modelo ZIP e o modelo “Hurdle”. Contudo, tais modelos apresentam limitações de uso para dados de contagem com estrutura longitudinal e/ou de cluster. Assim, aplicamos aos dados a classe de modelos proposta por Lee & Nelder, onde efeitos aleatórios podem ser especificados em ambos os componentes do modelo (média e dispersão). Resultados preliminares indicam que a adição do componente de dispersão é necessária, refletindo assim no impacto sobre as estimativas dos parâmetros no modelo com tal componente.

Resumo estendido: 

Métodos Bayesianos para Estimação em Modelos de Regressão Beta

Autor(es) e Instituição: 
Mariana Albi de Oliveira Souza - UFRJ
Helio dos Santos Migon - UFRJ
Cibele Queiroz da Silva - UNB
Apresentador: 
Mariana Albi de Oliveira Souza

Modelos de regressão são amplamente utilizados em diversas áreas de conhecimento pois contemplam situações em que a resposta de interesse depende de um conjunto de variáveis explicativas. Em particular, modelos lineares normais são os mais comumente utilizados na literatura, porém nem sempre são adequados por não contemplarem situações tais como assimetria, domínios limitados, etc.

Como alternativa a estes modelos, trataremos do modelo de regressão beta. Neste, assumiremos respostas contínuas restritas ao intervalo (0,1) modeladas através de distribuições beta cujas médias dependem de variáveis explicativas através de uma função de ligação. Além de acomodar assimetrias devido a flexibilidade desta família de distribuições, este modelo é especialmente interessante para análise de taxas, percentuais e proporções.

Abordaremos tal modelo através de uma perspectiva Bayesiana, apresentando diferentes métodos de estimação e comparando os resultados. Em particular, estimativas serão obtidas tanto através de estratégias numéricas, com a utilização de métodos de Monte Carlo via cadeias de Markov, quanto através de aproximações analíticas, com a utilização do INLA (Integrated Nested Laplace Approximation) e da estimação Linear de Bayes.

Exemplos com dados simulados e dados reais serão apresentados com o intuito de ilustrar os métodos.

Resumo estendido: 

Modelagem de Equacões Estruturais Multinível: Um Estudo de Simulação

Autor(es) e Instituição: 
Leila Denise A. F. Amorim, Departamento de Estatística, IM-UFBA
Rosemeire L. Fiaccone, Departamento de Estatística, IM-UFBA
Lia Terezinha L. P. de Moraes, Departamento de Estatística, IM-UFBA
Nelson Fernandes de Oliveira, Universidade Estadual de Feira de Santana-BA
Silvano Barbosa de Oliveira, Secretaria de Vigilância em Saúde, Ministério da Saúde
Apresentador: 
Leila Denise A. F. Amorim

Dados com estruturas hierárquicas são muito comuns em vários estudos e podem causar problemas nas análises tradicionais porque a usual suposição de que as variáveis aleatórias são independentes e identicamente distribuídas é violada. Dadas as vantagens associadas à modelagem de equações estruturais em geral, tentativas têm sido feitas para incorporar dados correlacionados nesse tipo de metodologia. É evidente que os modelos de equações estruturais e os modelos lineares multiníveis sozinhos não são capazes de capturar relações complexas que existem intra e entre-grupos, o que resultou na proposta de combinação dessas duas metodologias, denominada modelos de equações estruturais multiníveis. Este trabalho objetiva uma avaliação mais ampla do que a existente na literatura atual do procedimento de estimação dos modelos de equações estruturais multiníveis para respostas contínuas através da condução de estudos Monte Carlo, que foram realizados no software MPlus. Resultados referentes à avaliação de AFC, sem considerar a estrutura multinível dos dados, apontam para aumento do viés, sobretudo dos componentes da variância, à medida que o coeficiente de correlação intraclasse (ICC) aumenta e o número de clusters diminui. No ajuste da AFC multinível o viés associado às cargas fatoriais e às variâncias residuais é desprezível para as diversas combinações de grau de dependência e estrutura de agregação dos dados na modelagem do componente intra-grupos. No entanto, a modelagem do componente entre-grupos aponta para estimadores com alto grau de viés, que é reduzido com o aumento do ICC e do número de clusters. Certamente os modelos de equações estruturais multiníveis podem contribuir com o aumento do poder e flexibilidade na análise de dados em conglomerados hierárquicos, permitindo a incorporação de erros de medida. No entanto, este tipo de metodologia ainda requer a disponibilidade de dados para um número grande de clusters. A performance desta metodologia também depende da complexidade do modelo. O ajuste de modelos com alto grau de complexidade, sobretudo com respeito às relações causais e ao número de indicadores, depende de desenvolvimentos teóricos futuros. Projeto com financiamento FAPESB, Termo de Outorga n.0082/2006.

RELAÇÃO ENTRE A OCORRÊNCIA DE TUBERCULOSE E UM CONJUNTO DE FATORES SÓCIOECONÔMICOS, DEMOGRÁFICOS E DE SAÚDE DA POPULAÇÃO BRASILEIRA USANDO A PNAD 2003.

Autor(es) e Instituição: 
Jorcely Victório Franco-IBGE
José Rodrigo de Moraes-UFF
Luz Amanda Melgar Santander-UFF
Patrícia Viana Guimarães-UFRJ
Apresentador: 
Jorcely Victório Franco

A tuberculose (TB) é uma doença infecciosa crônica que acompanha a espécie humana desde os primórdios da civilização, mas que, ainda hoje, permanece como a maior causa de morte por doença infecciosa em adultos no mundo, principalmente nos países em desenvolvimento. Neste trabalho, utilizando dados provenientes da Pesquisa Nacional por Amostra de Domicílios (PNAD) de 2003 realizada pelo IBGE, foram identificados alguns fatores sócioeconômicos, demográficos e de saúde que explicam a chance de ocorrência de tuberculose para os residentes em domicílios particulares permanentes no Brasil em 2003. Para a identificação de tais fatores foi ajustado um modelo de regressão logística binária, incorporando as informações do desenho amostral da pesquisa, onde o desfecho do modelo indica se a pessoa teve ou não tuberculose. Para explicar o referido desfecho, foi considerado inicialmente um conjunto de 14 variáveis: sexo, faixa etária, cor/raça, escolaridade, rendimento domiciliar per capita, morbidade auto-referida (diabetes, artrite ou reumatismo, bronquite ou asma, insuficiência renal crônica, depressão), tipo do domicílio, material predominante nas paredes, material predominante no telhado, banheiro ou sanitário no domicílio ou propriedade, água canalizada de rede geral, coleta de lixo, localização do domicílio e densidade domiciliar. Utilizando o teste t-student verificou-se que as variáveis sexo, faixa etária, cor/raça, morbidade auto-referida e material predominante nas paredes apresentam efeito estatisticamente significativo. Os resultados deste estudo podem contribuir de forma relevante para o planejamento de políticas públicas que visem à prevenção, controle e tratamento da tuberculose na população brasileira.

Resumo estendido: 

Resíduos de Pearson melhorados em modelos de regressão beta

Autor(es) e Instituição: 
Tatiana Anholeto
Mônica Carneiro Sandoval
Denise Aparecida Botter
Apresentador: 
Mônica Carneiro Sandoval

Neste trabalho, desenvolvemos correções para resíduos de Pearson no modelo de regressão beta (Ferrari e Cribari-Neto, Journal of Applied Statistics, 2004) e propomos resíduos de Pearson melhorados de forma que a média e a variância dos resíduos melhorados estejam mais próximas de zero e de um, respectivamente. O trabalho foi baseado nos artigos de Cox e Snell (Journal of the Royal Statistical Society B, 1968), Cordeiro (Statistics and Probability Letters, 2004) e de Simas e Cordeiro (Journal of Statistical Computation and Simulation, 2009). Um estudo de simulação foi realizado, utilizando-se o método de Monte Carlo, para investigarmos o efeito da correção na média, variância e coeficientes de assimetria e curtose dos resíduos de Pearson não-melhorados e melhorados. Além disso, procuramos verificar a proximidade das distribuições dos resíduos abordados à distribuição normal padrão.

Resumo estendido: 

Comparação entre medidas clássicas e robustas para identificação de outliers em regressão.

Autor(es) e Instituição: 
Gabriela Isabel Limoeiro Alves
Verônica Maria Cadena Lima
Apresentador: 
Gabriela Isabel Limoeiro Alves

A técnica da análise de regressão linear não está completa sem o estudo dos resíduos para a identificação de possíveis outliers e de alguns outros diagnósticos. Outliers estão presentes em praticamente todos os conjuntos de dados, em qualquer domínio de aplicação. Pesquisas realizadas com grandes quantidades de observações tornam mais difíceis sua detectação visual. O objetivo desse trabalho é comparar as medidas clássicas com as medidas robustas para identificação de outliers. Entre as medidas clássicas foram consideradas: Leverage, DFBeta DFFit, Cook, Covratio e a distância de Malahanobis. As medidas robustas consideradas foram Elipsóide de Volume Mínimo e Covariância de Determinante Mínimo. Através da análise de vários conjuntos de dados, os resultados revelaram que as medidas robustas, que utilizam estimadores que “resistem” a uma proporção de dados contaminados, mostraram-se mais eficientes na identificação de outliers.

Resumo estendido: 

Understanding Raynaud’s Phenomenon through a Hierarchical Model Based on Splines

Autor(es) e Instituição: 
Josiane da S. Cordeiro, Universidade federal do Rio de Janeiro
Alexandra M. Schmidt, Universidade federal do Rio de Janeiro
Luigi Ippoliti, University G. d' Annunzio
Apresentador: 
Josiane da S. Cordeiro

Raynaud's Phenomenon (RP) is a vasospastic disorder of some specific arteries, typically induced by cold exposure and emotional stress, causing discoloration of the fingers, toes, ears, and niples. RP can be classified as primary (PRP), with no identifiable underlying pathological disorder, and secondary which is frequently associated with systemic sclerosis (SS). Patients who are classified as primary RP might evolve to secondary RP.

Thermal infrared (IR) imaging is a technique providing the map of the superficial temperature of a given body by measuring the infrared energy emitted, providing important indirect information on circulation, thermal properties and thermoregulatory functionality of the cutaneous tissue. PRP, SS and healthy controls (HC) groups show different thermal recoveries in consequence of the same standardized functional stimulation. In this study patients from HC, PRP and SS groups underwent a standard cold challenge, and temperatures of the 10 fingers of each patient, before and after the cold stress, were recorded. Temperatures of each finger of each person were measured every 30 seconds, 2.5 minutes before the cold stress and 20 minutes after it, resulting on $T=46$ temperature measurements for each individual. We aim to estimate the mean temperature as a function of time for each finger of each patient.
We also aim to obtain an overall mean function for each patient. This will provide us with tools to understand better the temperature behaviour
of each patient from each group. For this, we propose a hierarchical model based on B-splines. Inference procedure is performed under the Bayesian paradigm, therefore we are able to clearly describe the uncertainty of our estimates.

Divulgar conteúdo