Modelos De Regressão Em R
()
Sobre este e-book
Relacionado a Modelos De Regressão Em R
Ebooks relacionados
Análise de Sobrevivência Aplicada Nota: 0 de 5 estrelas0 notasAnálises Ecológicas No R Nota: 0 de 5 estrelas0 notasTécnicas Multivariadas Exploratórias: Teorias e Aplicações no Software Statistica© Nota: 0 de 5 estrelas0 notasConceitos sobre Significância Estatística em Biociências: Um Guia para a Interpretação do Valor-P Nota: 0 de 5 estrelas0 notasSensoriamento remoto: Princípios e aplicações Nota: 0 de 5 estrelas0 notasTécnicas de machine learning Nota: 0 de 5 estrelas0 notasEstatística Básica Nota: 5 de 5 estrelas5/5Mapeamento e gestão de risco de queda de árvores: em uma unidade de conservação na Amazônia Nota: 0 de 5 estrelas0 notasIntrodução À Programação Para Bioinformática Com Perl Nota: 0 de 5 estrelas0 notasGestão Do Desempenho Da Produção Nota: 0 de 5 estrelas0 notasExcel 2023 Power Pivot & Power Query Nota: 0 de 5 estrelas0 notasAlvenaria em blocos de concreto: Projeto estrutural de acordo com a NBR 16868 - 1, 2 ABNT, 2020 Nota: 0 de 5 estrelas0 notasVariáveis Complexas Nota: 0 de 5 estrelas0 notasMs Office Excel 2013 Nota: 0 de 5 estrelas0 notasCurso Linguagem C Para Microcontroladores Pic Nota: 3 de 5 estrelas3/5Tópicos Sobre Metrologia Industrial Nota: 0 de 5 estrelas0 notasControle Adaptativo: Teoria e Aplicação Nota: 0 de 5 estrelas0 notasContabilidade Básica Nota: 0 de 5 estrelas0 notasAnálise De Sistemas Vol X Nota: 0 de 5 estrelas0 notasPixinsight Para Iniciantes Em Astrofotografia 2 Nota: 0 de 5 estrelas0 notasComplexos Convectivos De Mesoescala Sobre O Nordeste Do Brasil Nota: 0 de 5 estrelas0 notasIntrodução Ao Cálculo I Nota: 0 de 5 estrelas0 notasAlgoritmos Em C Nota: 0 de 5 estrelas0 notasMicrosoft Excel 2013 Nota: 0 de 5 estrelas0 notasIntrodução A Linguagem C# Nota: 5 de 5 estrelas5/5Coleção Programador Volume 4 Nota: 0 de 5 estrelas0 notasModelagem De Banco De Dados Nota: 0 de 5 estrelas0 notasGuia Prático da Contabilidade Gerencial Nota: 0 de 5 estrelas0 notas
Matemática para você
Algoritmos Em C Nota: 0 de 5 estrelas0 notasMatemática financeira Nota: 4 de 5 estrelas4/5Matemática divertida e curiosa Nota: 5 de 5 estrelas5/5Sou péssimo em matemática Nota: 0 de 5 estrelas0 notasExcel Para Iniciantes Nota: 0 de 5 estrelas0 notasDeus é matemático? Nota: 4 de 5 estrelas4/5Estratégias E Macetes Matemáticos Para Concurseiros Nota: 0 de 5 estrelas0 notasHistória bizarra da matemática Nota: 5 de 5 estrelas5/5A Química Do Dia A Dia Nota: 0 de 5 estrelas0 notasMatemática Básica Para Concursos Nota: 0 de 5 estrelas0 notasMatemática com aplicações tecnológicas - Volume 1: Matemática básica Nota: 3 de 5 estrelas3/5Caderno De Exercícios De Matemática Do 9º Ano Nota: 0 de 5 estrelas0 notasOs Segredos Da Mega Sena Nota: 5 de 5 estrelas5/5Deus é Matemático Nota: 0 de 5 estrelas0 notasFísica Simples E Objetiva Nota: 0 de 5 estrelas0 notasSegurança Da Informação Descomplicada Nota: 0 de 5 estrelas0 notasAs Maravilhosas Utilidades da Geometria: da Pré-História à era Espacial Nota: 0 de 5 estrelas0 notasMatemática Aplicada Aos Games Nota: 0 de 5 estrelas0 notasCaderno De Questões | Matemática Nota: 5 de 5 estrelas5/5Matemática com aplicações tecnológicas - Volume 2: Cálculo I Nota: 0 de 5 estrelas0 notas+1000 Questões De Matemática Nota: 0 de 5 estrelas0 notasMatemática Para Concursos Nota: 0 de 5 estrelas0 notasAprenda Na Prática Comandos Sql De Consulta Para Banco De Dados Nota: 5 de 5 estrelas5/5Ensinar e aprender matemática Nota: 5 de 5 estrelas5/5Raciocínio Lógico Para Concursos Nota: 0 de 5 estrelas0 notasEletricidade Básica Nota: 0 de 5 estrelas0 notasÁlgebra em quadrinhos Nota: 5 de 5 estrelas5/5Viagem ao Número Pi: Quadraturas e Arquimedes Nota: 5 de 5 estrelas5/5Os Segredos Das Loterias Nota: 0 de 5 estrelas0 notas
Avaliações de Modelos De Regressão Em R
0 avaliação0 avaliação
Pré-visualização do livro
Modelos De Regressão Em R - Écio Souza Diniz E Jan Thiele
Écio Souza Diniz
Jan Thiele
Modelos de regressão em R
Sumário
INTRODUÇÃO ................................................................................................................................................ 7
Descrição de dados ........................................................................................................................................ 9
Modelos de Regressão Lineares ................................................................................................................ 12
1 LM (Modelos Lineares) ............................................................................................................................. 12
1.1 Testes exploratórios e diagnósticos .................................................................................................... 13
1.1.2 Teste normalidade .............................................................................................................................. 13
1.1.3 Correlação............................................................................................................................................ 16
1.1.4 Fator de Inflação de Variância (VIF) ................................................................................................ 20
1.1.5 Teste de linearidade ........................................................................................................................... 22
1.2 Aplicação com modelo LM .................................................................................................................... 24
1.2.1 Interpretação do summary em LM ................................................................................................... 25
1.2.2 Interpretação dos resíduos em LM .................................................................................................. 29
2. GLM (Modelos Lineares Generalizados) .............................................................................................. 32
2.1 Distribuições de erros ............................................................................................................................ 33
2.1.1 Distribuição gaussiana (normal) ....................................................................................................... 33
2.1.2 Distribuição gama ............................................................................................................................... 33
2.1.3 Distribuição Poisson ........................................................................................................................... 33
2.1.4 Distribuição binomial negativa .......................................................................................................... 34
2.1.5 Distribuição binomial .......................................................................................................................... 34
2.2 Aplicações com GLM ............................................................................................................................. 35
2.3 Interpretação do summary em GLM ................................................................................................... 35
2.4 Interpretação dos resíduos em GLM ................................................................................................... 38
2.5. Estimativa de R² para GLM ................................................................................................................. 50
3. Modelos Mistos ......................................................................................................................................... 51
3.1 GLMM (Modelos mistos lineares generalizados) .............................................................................. 52
3.1.2 Aplicações com GLMM ...................................................................................................................... 52
3.1.3 Interpretação do summary em GLMM ............................................................................................. 53
3.2 GLMM PQL (Quasi-verossimilhança penalizada) ............................................................................. 57
3.2.1 GLMM PQL para autocorrelação temporal ..................................................................................... 58
3.2.3 Wald Teste para GLMM PQL ............................................................................................................ 62
3.2.2 GLMM PQL para autocorrelação espacial ...................................................................................... 64
3.3 LME (Modelos Lineares mistos) .......................................................................................................... 72
3.3.1 Pré-testes para LME .......................................................................................................................... 72
1
3.3.4 Teste de autocorrelação espacial (Moran’s I) ................................................................................ 74
3.3.5 Aplicação com LME ............................................................................................................................ 78
4 Regressão Logística ................................................................................................................................. 82
4.1 Aplicação com Regressão Logística ................................................................................................... 83
4.1.2 Razão de verossimilhança (Likelihood-ratio test-LRT) ................................................................. 84
4.1.3 Interpretação da Anova e Summary de Modelo Logístico ........................................................... 84
4.1.4 Performance do modelo logístico ..................................................................................................... 86
5 GLS (Quadrados mínimos generalizados) ............................................................................................ 88
5.1 Aplicação com GLS ............................................................................................................................... 88
5.1.1 Pré-testes para GLS ........................................................................................................................... 89
5.1.2 Interpretação do Summary de GLS ................................................................................................. 91
6 Modelo Quadrático .................................................................................................................................... 94
6.1 Pré-diagnóstico ....................................................................................................................................... 94
6.2 Aplicação e interpretação do modelo Quadrático ............................................................................. 97
Modelos não lineares ................................................................................................................................... 99
7 GNM (Modelos Não lineares generalizados) ........................................................................................ 99
7.1 Aplicação de GNM ............................................................................................................................... 100
7.1.2 Pré-testes ........................................................................................................................................... 100
7.1.3 Interpretação do summary de GNM............................................................................................... 102
8 GAM (Generalized Additive Models) .................................................................................................... 106
8.1 Aplicação de GAM ............................................................................................................................... 107
8.2 Interpretação do summary de GAM .................................................................................................. 107
8.3 Correlação entre preditivas em GAM ................................................................................................ 109
8.4 Interpretação dos resíduos em GAM ................................................................................................ 110
9 GAMM (Generalized Additive Mixed Models) ..................................................................................... 116
9.1 Aplicação e interpretação de GAMM ................................................................................................ 117
9.2 Correlação entre preditivas em GAMM ............................................................................................ 121
Modelos de Aprendizagem Supervisionada ........................................................................................... 122
10 Random Forest ...................................................................................................................................... 123
10.1 Aplicação com Random Forest ........................................................................................................ 124
10.2 Interpretação de Random Forest .................................................................................................... 125
10.2.1 Importância dos preditores ............................................................................................................ 126
10.2.2 Verificação dos níveis de erros .................................................................................................... 128
10.2.3 Performance preditiva .................................................................................................................... 130
11 Seleção de Modelos (Akaike) .............................................................................................................. 132
2
11.2 Aplicações e interpretação do Akaike ............................................................................................. 132
11.3 Quasi Akaike (QAIC) ......................................................................................................................... 135
11.3.1 Aplicação com QAIC ...................................................................................................................... 135
11.4 Média de modelos .............................................................................................................................. 137
12 Testes a posteriori (Post-Hoc tests) ................................................................................................... 141
12.1 Teste Tukey (Tukey's HSD) ............................................................................................................. 141
12.2 LmerTest ............................................................................................................................................. 142
Literatura Citada ......................................................................................................................................... 144
3
Sobre os autores
Écio Souza Diniz é biólogo, mestre em Engenharia Florestal pela Universidade Federal de Lavras (Brasil) e doutor em Botânica pela Universidade Federal de Viçosa (Brasil), situadas no Estado de Minas Gerais, sudeste do Brasil. Fez estágio doutoral no Institute of Landscape Ecology da University of Münster e na University Bayreuth, ambas na Alemanha. Foi pesquisador em nível pós-doutoral no Departamento de Engenharia Florestal da Universidade Federal de Viçosa. Também atuou como pesquisador no Department of Vegetation Ecology do Institute of Botany (Czech Academy of Sciences).
Desde 2018 atua como diretor executivo da empresa Beta Analítica. Nessa empresa, atua como coordenador e também executor de consultorias e cursos em diversas vertentes da estatística e processamentos de dados. Sua linha de pesquisa é focada principalmente em estudos de dinâmica, filogenia ecológica, ecologia funcional, fragmentação e sensoriamento remoto de Florestas Neotropicais. Contato: eciodiniz@gmail.com
Jan Thiele é graduado em Ecologia da Paisagem pelo Institute of Landscape Ecology da University of Münster (Alemanha), doutor em Ciências Naturais pela Justus-Liebig-Universität Gießen (Alemanha) e foi pós-doutor no Departament of Agriculture and Ecology da University of Copenhagen (Dinamarca) e professor assistente Institute of Landscape Ecology da University of Münster. Atualmente é pesquisador no Thünen Institute for Biodiversity (Alemanha). Suas linhas de pesquisa são focadas em tópicos de Bioestatística, Biogeografia, Ecologia e Evolução e Sensoriamento Remoto.
4
Prefácio
Em tempos de grandes avanços tecnológicos concomitantes às intensas modificações antrópicas nos ecossistemas naturais, as ciências das áreas de meio ambiente e biodiversidade são fundamentais para a conservação, a manutenção e a recuperação desses ecossistemas. Nesse contexto, a Ecologia é uma ciência de suma importância para gerar informações básicas acerca da interação de organismos com o meio em que vivem. Essas informações podem, então, ser aplicadas em criação de planos e em políticas para conservação de ecossistemas naturais. A Ecologia Vegetal desempenha esse papel com relação a todos os tipos de fisionomias e ecossistemas constituídos majoritariamente por plantas.
Todavia, para conduzir estudos ecológicos robustos e com riqueza de informações sobre seus objetos de investigação, o uso de ferramentas analíticas igualmente eficazes é necessário. Diante disso, o rápido avanço de análises estatísticas nas últimas duas décadas tem sido um proponente fundamental para o avanço e a consolidação da Ecologia como uma área com seus próprios parâmetros científicos. O aprimoramento e o desenvolvimento constante de linguagens de programação computacional em importantes
‘ softwares’ (p. ex. Python e R) têm ajudado a subsidiar tal avanço. Inclusive, uma subárea surgiu e tem sido referida como Ecologia Computacional.
Dentre os principais métodos de análises estatísticas, os modelos de regressão (lineares e não lineares) desempenham papel crucial nas mais diversas ciências, auxiliando na busca por respostas sobre a influência ou efeito causal entre variáveis. Muito tem sido alcançado com o desenvolvimento de modelos de regressão cada vez mais precisos e específicos para distintos tipos de distribuição de dados. Uma parte considerável disso tem sido feita para pacotes no ‘ software’ R, que é o mais amplamente difundido e utilizado mundialmente para análises estatísticas, visto ser livre e receber constante atualização de seus pacotes pelos desenvolvedores e contribuições até mesmo de usuários.
O presente livro traz um compêndio dos métodos de modelagem de regressão no R
mais comumente utilizados aplicados à Ecologia. O fazemos empregando-os em exercícios práticos, baseados em dados reais de fisionomias de Mata Atlântica do Sudeste e Nordeste do Brasil e de ecossistemas do Sul e Oeste da Alemanha. Justificam o uso de dados dessas regiões para os exemplos de modelagem de regressão a contínua redução da Mata Atlântica a esparsos fragmentos florestais, e; os problemas causados por invasão de planta exótica altamente agressiva nos ecossistemas alemães.
5
Os dados reais, que foram randomizados para serem publicados e disponibilizados livremente pelos autores, anteriormente foram utilizados em cursos de modelagem estatística. Diante de uma crescente demanda por um material didático mais consistente e acessível, a proposta prática e direta do presente livro se mostrou atrativa, necessária e viável. Ademais, muito pouco sobre o tema tem sido abordado de forma prática em língua portuguesa, visto que larga parte do conteúdo acerca de estatística, em geral, é publicado em inglês.
Nessa segunda edição, nós ainda trazemos outras possibilidades para seleções de modelos, modelos ajustados para correlações espaciais e temporais, ajustes não lineares e exemplo de modelo baseado em algoritmo de machine learning. Com este material, esperamos auxiliar na ampliação da disseminação do conhecimento prático e aplicado da estatística na Ecologia e áreas correlatas, rompendo fronteiras e limitações ainda existentes para vários pesquisadores e estudantes de pós-graduação, sobretudo, no Brasil, como também de outros países lusófonos. Por fim, desejamos auxiliar no aumento do intercâmbio entre pesquisadores dessa área do conhecimento através da troca de aprendizado.
6
INTRODUÇÃO
Em diversas áreas científicas como, por exemplo, nas ciências agronômicas, ambientais, biológicas, biomédicas e florestais, é comum o interesse em conhecer o grau de influência de uma variável sobre outra. Isto é, como uma ou mais variáveis podem fazer uma determinada variável aumentar ou diminuir em sua distribuição de valores. Assim, podemos chamar como dependente (ou resposta) a variável da qual desejamos predizer valores a partir da influência de outras variáveis (Gotelli; Ellison, 2011). Já as variáveis influenciadoras da variável dependente são chamadas de independentes ou preditivas (Gotelli; Ellison, 2011). Esse tipo de abordagem analítica é uma técnica estatística denominada regressão, a qual pode seguir uma tendência linear ou não na sua distribuição dos dados na relação entre as variáveis (dependente e preditiva).
A regressão simples (apenas uma variável dependente e uma preditiva) e, principalmente, a múltipla (mais do que uma variável preditiva) (Freedman, 2009) têm fornecido importante suporte para o avanço na compreensão de relações causais entre fatores, fenômenos e variáveis do mundo natural (Hinkle et al., 2003). Nas áreas da Botânica, Ecologia e Engenharia Florestal, por exemplo, a regressão linear é um método quase obrigatório de uso em grande parte das situações analíticas. Suponha-se que em um estudo há a necessidade de verificar quais dentre um grupo determinado de variáveis preditivas (p. ex., densidade de árvores por hectare, taxa de mortalidade e recrutamento) influenciam o estoque de biomassa de uma floresta. Nesse caso, a regressão múltipla é a ferramenta usual para responder tal questão.
Devido à importância de modelos de regressão para o rápido desenvolvimento da ciência, diversos avanços têm sido alcançados e propostos para o aumento da robustez desses modelos. Tais avanços permitiram, principalmente nas últimas duas décadas, a elaboração de uma vasta gama de modelos de regressão que atendem à distintas realidades de dados. Há atualmente modelos que comportam dados com distintas distribuições de erros ao invés de abrangerem unicamente a distribuição normal (Bolker et al., 2009; Crawley, 2012; Thiele, Markussen, 2012; Bates et al., 2015). Também existem modelos adequados para tratamento de dados relacionados espacialmente (autocorrelação espacial) (Dormann et al., 2007) e modelos que ajustam tendências não lineares entre as variáveis dependente e preditiva (Turner; Firth, 2015). Todo esse rápido avanço nos modelos de regressão tem permitido responder várias questões de níveis mais superficiais até os mais complexos. Um bom exemplo para destacar a eficiência dos modelos de regressão é a possibilidade que temos de selecionar todas as combinações possíveis entre 7
as variáveis e elencar o melhor modelo como aquele com a combinação mais parcimoniosa entre elas (Burnham; Anderson, 2002).
Todavia, uma parcela considerável desse veloz e constante aprimoramento na modelagem de regressão se deve ao esforço de inúmeros e qualificados pesquisadores, os quais se empreendem no desenvolvimento de pacotes para tal tipo de estatística executáveis no software R. O R, por ser um software livre, fornece a cada ano ou a cada parcela de meses várias atualizações que provêm melhorias nos algoritmos computacionais, aumentando a eficiência dos pacotes e de suas funções. Além disso, há centenas de fóruns livres sobre o R na internet nos quais os usuários trocam experiências para solucionar questões analíticas, aumentando ainda mais o leque de possibilidades para o seu uso correto e eficiente.
O conteúdo a ser abordado nas aplicações práticas deste livro envolverá a aplicação de modelos de regressão no R sobre dados de vegetação. Esses dados de vegetação são aqui investigados num contexto de Ecologia Vegetal. Para tal, utilizamos dados randomizados a partir de dados reais coletados em Floresta Atlântica brasileira e ecossistemas da Alemanha invadidos por espécies de ervas denominadas ‘ Hogweed’, que também são problemáticas em várias outras partes da Europa. Todos os dados fazem parte do script BIOVEG (Diniz; Thiele, 2020) de análises estatísticas no R aplicadas à Ecologia Vegetal. Portanto, ao utilizar essa atual versão do referido script serão abordados os modelos de regressão mais amplamente utilizados não somente nessa, mas em diversas outras áreas cientificas.
8
Descrição de dados
Os dados utilizados para embasar os exemplos práticos para cada método de regressão abordado são oriundos de dados reais da Mata Atlântica brasileira e ecossistemas alemães de vegetação temperada. Os dados originais foram randomizados e tiveram identidades de nomes de áreas de estudos alterados para denominações genéricas.