Encontre milhões de e-books, audiobooks e muito mais com um período de teste gratuito

Apenas $11.99/mês após o término do seu período de teste gratuito. Cancele a qualquer momento.

Modelos De Regressão Em R
Modelos De Regressão Em R
Modelos De Regressão Em R
E-book320 páginas1 hora

Modelos De Regressão Em R

Nota: 0 de 5 estrelas

()

Ler a amostra

Sobre este e-book

O avanço em modelagem estatística, destacando técnicas de regressão, se posiciona no mundo globalizado como uma ferramenta essencial na investigação de fatores causais de padrões ecológicos de espécies e suas interações com o meio ambiente em rápida mudança no século 21. O avanço das linguagens de programação computacional tem ampliado a habilidade e performance investigativa de pesquisadores ao redor mundo. Uma parte significativa desse avanço tem sido amplamente fomentado no software R através do desenvolvimento de pacotes para diversos tipos de análises. O conteúdo do presente livro é constituído de diversos modelos de regressão lineares e não lineares no R aplicados, baseados em exemplos com dados amostrais reais de vegetação para estudos ecológicos. Assim, os modelos discutidos são apresentados num contexto teórico-prático acessível para público interdisciplinar de áreas acadêmicas, mas especialmente por estudantes de pós-graduação e pesquisadores nas áreas de Ecologia, Biodiversidade, Engenharia Florestal e Agronomia.
IdiomaPortuguês
Data de lançamento3 de abr. de 2021
Modelos De Regressão Em R

Relacionado a Modelos De Regressão Em R

Ebooks relacionados

Matemática para você

Visualizar mais

Avaliações de Modelos De Regressão Em R

Nota: 0 de 5 estrelas
0 notas

0 avaliação0 avaliação

O que você achou?

Toque para dar uma nota

A avaliação deve ter pelo menos 10 palavras

    Pré-visualização do livro

    Modelos De Regressão Em R - Écio Souza Diniz E Jan Thiele

    Écio Souza Diniz

    Jan Thiele

    Modelos de regressão em R

    Sumário

    INTRODUÇÃO ................................................................................................................................................ 7

    Descrição de dados ........................................................................................................................................ 9

    Modelos de Regressão Lineares ................................................................................................................ 12

    1 LM (Modelos Lineares) ............................................................................................................................. 12

    1.1 Testes exploratórios e diagnósticos .................................................................................................... 13

    1.1.2 Teste normalidade .............................................................................................................................. 13

    1.1.3 Correlação............................................................................................................................................ 16

    1.1.4 Fator de Inflação de Variância (VIF) ................................................................................................ 20

    1.1.5 Teste de linearidade ........................................................................................................................... 22

    1.2 Aplicação com modelo LM .................................................................................................................... 24

    1.2.1 Interpretação do summary em LM ................................................................................................... 25

    1.2.2 Interpretação dos resíduos em LM .................................................................................................. 29

    2. GLM (Modelos Lineares Generalizados) .............................................................................................. 32

    2.1 Distribuições de erros ............................................................................................................................ 33

    2.1.1 Distribuição gaussiana (normal) ....................................................................................................... 33

    2.1.2 Distribuição gama ............................................................................................................................... 33

    2.1.3 Distribuição Poisson ........................................................................................................................... 33

    2.1.4 Distribuição binomial negativa .......................................................................................................... 34

    2.1.5 Distribuição binomial .......................................................................................................................... 34

    2.2 Aplicações com GLM ............................................................................................................................. 35

    2.3 Interpretação do summary em GLM ................................................................................................... 35

    2.4 Interpretação dos resíduos em GLM ................................................................................................... 38

    2.5. Estimativa de R² para GLM ................................................................................................................. 50

    3. Modelos Mistos ......................................................................................................................................... 51

    3.1 GLMM (Modelos mistos lineares generalizados) .............................................................................. 52

    3.1.2 Aplicações com GLMM ...................................................................................................................... 52

    3.1.3 Interpretação do summary em GLMM ............................................................................................. 53

    3.2 GLMM PQL (Quasi-verossimilhança penalizada) ............................................................................. 57

    3.2.1 GLMM PQL para autocorrelação temporal ..................................................................................... 58

    3.2.3 Wald Teste para GLMM PQL ............................................................................................................ 62

    3.2.2 GLMM PQL para autocorrelação espacial ...................................................................................... 64

    3.3 LME (Modelos Lineares mistos) .......................................................................................................... 72

    3.3.1 Pré-testes para LME .......................................................................................................................... 72

    1

    3.3.4 Teste de autocorrelação espacial (Moran’s I) ................................................................................ 74

    3.3.5 Aplicação com LME ............................................................................................................................ 78

    4 Regressão Logística ................................................................................................................................. 82

    4.1 Aplicação com Regressão Logística ................................................................................................... 83

    4.1.2 Razão de verossimilhança (Likelihood-ratio test-LRT) ................................................................. 84

    4.1.3 Interpretação da Anova e Summary de Modelo Logístico ........................................................... 84

    4.1.4 Performance do modelo logístico ..................................................................................................... 86

    5 GLS (Quadrados mínimos generalizados) ............................................................................................ 88

    5.1 Aplicação com GLS ............................................................................................................................... 88

    5.1.1 Pré-testes para GLS ........................................................................................................................... 89

    5.1.2 Interpretação do Summary de GLS ................................................................................................. 91

    6 Modelo Quadrático .................................................................................................................................... 94

    6.1 Pré-diagnóstico ....................................................................................................................................... 94

    6.2 Aplicação e interpretação do modelo Quadrático ............................................................................. 97

    Modelos não lineares ................................................................................................................................... 99

    7 GNM (Modelos Não lineares generalizados) ........................................................................................ 99

    7.1 Aplicação de GNM ............................................................................................................................... 100

    7.1.2 Pré-testes ........................................................................................................................................... 100

    7.1.3 Interpretação do summary de GNM............................................................................................... 102

    8 GAM (Generalized Additive Models) .................................................................................................... 106

    8.1 Aplicação de GAM ............................................................................................................................... 107

    8.2 Interpretação do summary de GAM .................................................................................................. 107

    8.3 Correlação entre preditivas em GAM ................................................................................................ 109

    8.4 Interpretação dos resíduos em GAM ................................................................................................ 110

    9 GAMM (Generalized Additive Mixed Models) ..................................................................................... 116

    9.1 Aplicação e interpretação de GAMM ................................................................................................ 117

    9.2 Correlação entre preditivas em GAMM ............................................................................................ 121

    Modelos de Aprendizagem Supervisionada ........................................................................................... 122

    10 Random Forest ...................................................................................................................................... 123

    10.1 Aplicação com Random Forest ........................................................................................................ 124

    10.2 Interpretação de Random Forest .................................................................................................... 125

    10.2.1 Importância dos preditores ............................................................................................................ 126

    10.2.2 Verificação dos níveis de erros .................................................................................................... 128

    10.2.3 Performance preditiva .................................................................................................................... 130

    11 Seleção de Modelos (Akaike) .............................................................................................................. 132

    2

    11.2 Aplicações e interpretação do Akaike ............................................................................................. 132

    11.3 Quasi Akaike (QAIC) ......................................................................................................................... 135

    11.3.1 Aplicação com QAIC ...................................................................................................................... 135

    11.4 Média de modelos .............................................................................................................................. 137

    12 Testes a posteriori (Post-Hoc tests) ................................................................................................... 141

    12.1 Teste Tukey (Tukey's HSD) ............................................................................................................. 141

    12.2 LmerTest ............................................................................................................................................. 142

    Literatura Citada ......................................................................................................................................... 144

    3

    Sobre os autores

    Écio Souza Diniz é biólogo, mestre em Engenharia Florestal pela Universidade Federal de Lavras (Brasil) e doutor em Botânica pela Universidade Federal de Viçosa (Brasil), situadas no Estado de Minas Gerais, sudeste do Brasil. Fez estágio doutoral no Institute of Landscape Ecology da University of Münster e na University Bayreuth, ambas na Alemanha. Foi pesquisador em nível pós-doutoral no Departamento de Engenharia Florestal da Universidade Federal de Viçosa. Também atuou como pesquisador no Department of Vegetation Ecology do Institute of Botany (Czech Academy of Sciences).

    Desde 2018 atua como diretor executivo da empresa Beta Analítica. Nessa empresa, atua como coordenador e também executor de consultorias e cursos em diversas vertentes da estatística e processamentos de dados. Sua linha de pesquisa é focada principalmente em estudos de dinâmica, filogenia ecológica, ecologia funcional, fragmentação e sensoriamento remoto de Florestas Neotropicais. Contato: eciodiniz@gmail.com

    Jan Thiele é graduado em Ecologia da Paisagem pelo Institute of Landscape Ecology da University of Münster (Alemanha), doutor em Ciências Naturais pela Justus-Liebig-Universität Gießen (Alemanha) e foi pós-doutor no Departament of Agriculture and Ecology da University of Copenhagen (Dinamarca) e professor assistente Institute of Landscape Ecology da University of Münster. Atualmente é pesquisador no Thünen Institute for Biodiversity (Alemanha). Suas linhas de pesquisa são focadas em tópicos de Bioestatística, Biogeografia, Ecologia e Evolução e Sensoriamento Remoto.

    4

    Prefácio

    Em tempos de grandes avanços tecnológicos concomitantes às intensas modificações antrópicas nos ecossistemas naturais, as ciências das áreas de meio ambiente e biodiversidade são fundamentais para a conservação, a manutenção e a recuperação desses ecossistemas. Nesse contexto, a Ecologia é uma ciência de suma importância para gerar informações básicas acerca da interação de organismos com o meio em que vivem. Essas informações podem, então, ser aplicadas em criação de planos e em políticas para conservação de ecossistemas naturais. A Ecologia Vegetal desempenha esse papel com relação a todos os tipos de fisionomias e ecossistemas constituídos majoritariamente por plantas.

    Todavia, para conduzir estudos ecológicos robustos e com riqueza de informações sobre seus objetos de investigação, o uso de ferramentas analíticas igualmente eficazes é necessário. Diante disso, o rápido avanço de análises estatísticas nas últimas duas décadas tem sido um proponente fundamental para o avanço e a consolidação da Ecologia como uma área com seus próprios parâmetros científicos. O aprimoramento e o desenvolvimento constante de linguagens de programação computacional em importantes

    softwares’ (p. ex. Python e R) têm ajudado a subsidiar tal avanço. Inclusive, uma subárea surgiu e tem sido referida como Ecologia Computacional.

    Dentre os principais métodos de análises estatísticas, os modelos de regressão (lineares e não lineares) desempenham papel crucial nas mais diversas ciências, auxiliando na busca por respostas sobre a influência ou efeito causal entre variáveis. Muito tem sido alcançado com o desenvolvimento de modelos de regressão cada vez mais precisos e específicos para distintos tipos de distribuição de dados. Uma parte considerável disso tem sido feita para pacotes no ‘ software’ R, que é o mais amplamente difundido e utilizado mundialmente para análises estatísticas, visto ser livre e receber constante atualização de seus pacotes pelos desenvolvedores e contribuições até mesmo de usuários.

    O presente livro traz um compêndio dos métodos de modelagem de regressão no R

    mais comumente utilizados aplicados à Ecologia. O fazemos empregando-os em exercícios práticos, baseados em dados reais de fisionomias de Mata Atlântica do Sudeste e Nordeste do Brasil e de ecossistemas do Sul e Oeste da Alemanha. Justificam o uso de dados dessas regiões para os exemplos de modelagem de regressão a contínua redução da Mata Atlântica a esparsos fragmentos florestais, e; os problemas causados por invasão de planta exótica altamente agressiva nos ecossistemas alemães.

    5

    Os dados reais, que foram randomizados para serem publicados e disponibilizados livremente pelos autores, anteriormente foram utilizados em cursos de modelagem estatística. Diante de uma crescente demanda por um material didático mais consistente e acessível, a proposta prática e direta do presente livro se mostrou atrativa, necessária e viável. Ademais, muito pouco sobre o tema tem sido abordado de forma prática em língua portuguesa, visto que larga parte do conteúdo acerca de estatística, em geral, é publicado em inglês.

    Nessa segunda edição, nós ainda trazemos outras possibilidades para seleções de modelos, modelos ajustados para correlações espaciais e temporais, ajustes não lineares e exemplo de modelo baseado em algoritmo de machine learning. Com este material, esperamos auxiliar na ampliação da disseminação do conhecimento prático e aplicado da estatística na Ecologia e áreas correlatas, rompendo fronteiras e limitações ainda existentes para vários pesquisadores e estudantes de pós-graduação, sobretudo, no Brasil, como também de outros países lusófonos. Por fim, desejamos auxiliar no aumento do intercâmbio entre pesquisadores dessa área do conhecimento através da troca de aprendizado.

    6

    INTRODUÇÃO

    Em diversas áreas científicas como, por exemplo, nas ciências agronômicas, ambientais, biológicas, biomédicas e florestais, é comum o interesse em conhecer o grau de influência de uma variável sobre outra. Isto é, como uma ou mais variáveis podem fazer uma determinada variável aumentar ou diminuir em sua distribuição de valores. Assim, podemos chamar como dependente (ou resposta) a variável da qual desejamos predizer valores a partir da influência de outras variáveis (Gotelli; Ellison, 2011). Já as variáveis influenciadoras da variável dependente são chamadas de independentes ou preditivas (Gotelli; Ellison, 2011). Esse tipo de abordagem analítica é uma técnica estatística denominada regressão, a qual pode seguir uma tendência linear ou não na sua distribuição dos dados na relação entre as variáveis (dependente e preditiva).

    A regressão simples (apenas uma variável dependente e uma preditiva) e, principalmente, a múltipla (mais do que uma variável preditiva) (Freedman, 2009) têm fornecido importante suporte para o avanço na compreensão de relações causais entre fatores, fenômenos e variáveis do mundo natural (Hinkle et al., 2003). Nas áreas da Botânica, Ecologia e Engenharia Florestal, por exemplo, a regressão linear é um método quase obrigatório de uso em grande parte das situações analíticas. Suponha-se que em um estudo há a necessidade de verificar quais dentre um grupo determinado de variáveis preditivas (p. ex., densidade de árvores por hectare, taxa de mortalidade e recrutamento) influenciam o estoque de biomassa de uma floresta. Nesse caso, a regressão múltipla é a ferramenta usual para responder tal questão.

    Devido à importância de modelos de regressão para o rápido desenvolvimento da ciência, diversos avanços têm sido alcançados e propostos para o aumento da robustez desses modelos. Tais avanços permitiram, principalmente nas últimas duas décadas, a elaboração de uma vasta gama de modelos de regressão que atendem à distintas realidades de dados. Há atualmente modelos que comportam dados com distintas distribuições de erros ao invés de abrangerem unicamente a distribuição normal (Bolker et al., 2009; Crawley, 2012; Thiele, Markussen, 2012; Bates et al., 2015). Também existem modelos adequados para tratamento de dados relacionados espacialmente (autocorrelação espacial) (Dormann et al., 2007) e modelos que ajustam tendências não lineares entre as variáveis dependente e preditiva (Turner; Firth, 2015). Todo esse rápido avanço nos modelos de regressão tem permitido responder várias questões de níveis mais superficiais até os mais complexos. Um bom exemplo para destacar a eficiência dos modelos de regressão é a possibilidade que temos de selecionar todas as combinações possíveis entre 7

    as variáveis e elencar o melhor modelo como aquele com a combinação mais parcimoniosa entre elas (Burnham; Anderson, 2002).

    Todavia, uma parcela considerável desse veloz e constante aprimoramento na modelagem de regressão se deve ao esforço de inúmeros e qualificados pesquisadores, os quais se empreendem no desenvolvimento de pacotes para tal tipo de estatística executáveis no software R. O R, por ser um software livre, fornece a cada ano ou a cada parcela de meses várias atualizações que provêm melhorias nos algoritmos computacionais, aumentando a eficiência dos pacotes e de suas funções. Além disso, há centenas de fóruns livres sobre o R na internet nos quais os usuários trocam experiências para solucionar questões analíticas, aumentando ainda mais o leque de possibilidades para o seu uso correto e eficiente.

    O conteúdo a ser abordado nas aplicações práticas deste livro envolverá a aplicação de modelos de regressão no R sobre dados de vegetação. Esses dados de vegetação são aqui investigados num contexto de Ecologia Vegetal. Para tal, utilizamos dados randomizados a partir de dados reais coletados em Floresta Atlântica brasileira e ecossistemas da Alemanha invadidos por espécies de ervas denominadas ‘ Hogweed’, que também são problemáticas em várias outras partes da Europa. Todos os dados fazem parte do script BIOVEG (Diniz; Thiele, 2020) de análises estatísticas no R aplicadas à Ecologia Vegetal. Portanto, ao utilizar essa atual versão do referido script serão abordados os modelos de regressão mais amplamente utilizados não somente nessa, mas em diversas outras áreas cientificas.

    8

    Descrição de dados

    Os dados utilizados para embasar os exemplos práticos para cada método de regressão abordado são oriundos de dados reais da Mata Atlântica brasileira e ecossistemas alemães de vegetação temperada. Os dados originais foram randomizados e tiveram identidades de nomes de áreas de estudos alterados para denominações genéricas.

    Está gostando da amostra?
    Página 1 de 1