E-book295 páginas2 horas

Aprendendo Ciência De Dados

Name: Aprendendo Ciência De Dados
Author: Jideon Francisco Marques

De Jideon Francisco Marques

Nota: 0 de 5 estrelas

()

Ler a amostra

Sobre este e-book

Descrição do livro Como aspirante a cientista de dados, você entende por que as organizações confiam nos dados para decisões importantes, seja para empresas projetando sites, cidades decidindo como melhorar serviços ou cientistas descobrindo como impedir a propagação de doenças. E você quer as habilidades necessárias para destilar uma pilha confusa de dados em insights acionáveis. Chamamos isso de ciclo de vida da ciência de dados: o processo de coletar, discutir, analisar e tirar conclusões dos dados. Learning Data Science é o primeiro livro a abordar habilidades fundamentais em programação e estatística que abrangem todo esse ciclo de vida. É voltado para aqueles que desejam se tornar cientistas de dados ou que já trabalham com cientistas de dados e para analistas de dados que desejam cruzar a divisão técnico/não técnico . Se você tiver um conhecimento básico de programação Python, aprenderá a trabalhar com dados usando ferramentas padrão do setor, como pandas. Refinar uma questão de interesse para uma que possa ser estudada com dados Buscar a coleta de dados que pode envolver processamento de texto, web scraping, etc. Obtenha informações valiosas sobre dados por meio de limpeza, exploração e visualização de dados Aprenda a usar a modelagem para descrever os dados Generalizar descobertas além dos dados

Pular no carrossel

IdiomaPortuguês

EditoraClube de Autores

Data de lançamento13 de nov. de 2022

Autor

Jideon Francisco Marques

Relacionado a Aprendendo Ciência De Dados

Ebooks relacionados

Pular no carrossel

Uso de Técnicas de Data Science na Previsão: de Febre Amarela Utilizando o Twitter
E-book
Uso de Técnicas de Data Science na Previsão: de Febre Amarela Utilizando o Twitter
deVladimir Costa de Alencar
Nota: 0 de 5 estrelas
0 notas
Bíblia De Programação Python Para Iniciantes
E-book
Bíblia De Programação Python Para Iniciantes
deJideon F Marques
Nota: 0 de 5 estrelas
0 notas
A Tomada De Decisão Em Tempos De Big Data
E-book
A Tomada De Decisão Em Tempos De Big Data
deMárcio B. Silveira
Nota: 0 de 5 estrelas
0 notas
Investigação Digital E Rastreamento De Dados
E-book
Investigação Digital E Rastreamento De Dados
deJ. Felipe Pereira
Nota: 0 de 5 estrelas
0 notas
Pandas Python: Data Wrangling para Ciência de Dados
E-book
Pandas Python: Data Wrangling para Ciência de Dados
deEduardo Corrêa
Nota: 0 de 5 estrelas
0 notas
Introdução a Data Science: Algoritmos de Machine Learning e métodos de análise
E-book
Introdução a Data Science: Algoritmos de Machine Learning e métodos de análise
deTatiana Escovedo
Nota: 0 de 5 estrelas
0 notas
Big Data para Executivos e Profissionais de Mercado - Terceira Edição: Big Data
E-book
Big Data para Executivos e Profissionais de Mercado - Terceira Edição: Big Data
deJose Antonio Ribeiro Neto
Nota: 0 de 5 estrelas
0 notas
Governança de TI para as instituições federais de ensino
E-book
Governança de TI para as instituições federais de ensino
deJhordano Malacarne Bravim
Nota: 0 de 5 estrelas
0 notas
Data Visualization: Transforme dados em conhecimento
E-book
Data Visualization: Transforme dados em conhecimento
deRonaldo Braghittoni
Nota: 0 de 5 estrelas
0 notas
Gestão do Conhecimento em Serviços de TI: Guia Prático
E-book
Gestão do Conhecimento em Serviços de TI: Guia Prático
deJuliano Statdlober
Nota: 0 de 5 estrelas
0 notas
Big Data
E-book
Big Data
deCezar Taurion
Nota: 5 de 5 estrelas
5/5
Conceitos sobre Significância Estatística em Biociências: Um Guia para a Interpretação do Valor-P
E-book
Conceitos sobre Significância Estatística em Biociências: Um Guia para a Interpretação do Valor-P
deJean Faber
Nota: 0 de 5 estrelas
0 notas
Publicadores de dados: da gestão estratégica à abertura
E-book
Publicadores de dados: da gestão estratégica à abertura
deOpen Knowledge Brasil
Nota: 0 de 5 estrelas
0 notas
Métodos Ágeis e Gestão de Serviços de TI
E-book
Métodos Ágeis e Gestão de Serviços de TI
deBruno Souza de Oliveira
Nota: 4 de 5 estrelas
4/5
A Economia da produção do conhecimento científico e as bases de dados: a cadeia produtiva do conhecimento científico
E-book
A Economia da produção do conhecimento científico e as bases de dados: a cadeia produtiva do conhecimento científico
deRodolfo Coutinho Moreira Xavier
Nota: 0 de 5 estrelas
0 notas
Fluxos de informação no desenvolvimento de produtos biotecnológicos
E-book
Fluxos de informação no desenvolvimento de produtos biotecnológicos
deDanielly Oliveira Inomata
Nota: 0 de 5 estrelas
0 notas
Análises Ecológicas No R
E-book
Análises Ecológicas No R
deFernando Rodrigues Da Silva; Thiago Gonçalves-souza; Gustavo Brant Paterno; Diogo Borges Provete; Maurício Humberto Vancine
Nota: 0 de 5 estrelas
0 notas
Reconhecimento facial: desenvolvimento de um protótipo de software de tempo real para registro eletrônico de ponto com utilização do dispositivo Kinect
E-book
Reconhecimento facial: desenvolvimento de um protótipo de software de tempo real para registro eletrônico de ponto com utilização do dispositivo Kinect
deRafael Miranda Guimarães
Nota: 0 de 5 estrelas
0 notas
Guia De Validação De Dados Em Visual Basic
E-book
Guia De Validação De Dados Em Visual Basic
deCláudio Ralha
Nota: 0 de 5 estrelas
0 notas
Análise De Sistemas V. 8
E-book
Análise De Sistemas V. 8
deFlavia Reisswitz
Nota: 0 de 5 estrelas
0 notas
A sociedade do conhecimento e suas tecnologias: estudos em Ciências Exatas e Engenharias: - Volume 4
E-book
A sociedade do conhecimento e suas tecnologias: estudos em Ciências Exatas e Engenharias: - Volume 4
deAdailton Azevêdo Araújo Filho
Nota: 0 de 5 estrelas
0 notas
Python Em Poucas Palavras
E-book
Python Em Poucas Palavras
deJideon Francisco Marques
Nota: 0 de 5 estrelas
0 notas
Linguagens De Programação Em Inteligência Artificial
E-book
Linguagens De Programação Em Inteligência Artificial
deJideon Francisco Marques
Nota: 0 de 5 estrelas
0 notas
Machine Learning: metodologia de mineração automatizada com dados das redes sociais e processamento de linguagem natural
E-book
Machine Learning: metodologia de mineração automatizada com dados das redes sociais e processamento de linguagem natural
deFlávio Mosafi
Nota: 0 de 5 estrelas
0 notas
Python - 20% Que Eu Preciso Saber Para Ter 80% De Resultados
E-book
Python - 20% Que Eu Preciso Saber Para Ter 80% De Resultados
deFabricio De Mello Viegas
Nota: 0 de 5 estrelas
0 notas
Fundamentos De Banco De Dados
E-book
Fundamentos De Banco De Dados
deMarcio Porto Feitosa
Nota: 0 de 5 estrelas
0 notas
Algoritmos E Lógica De Programação Com Python
E-book
Algoritmos E Lógica De Programação Com Python
deBruno Luvizotto Carli
Nota: 0 de 5 estrelas
0 notas
Inteligência competitiva: um estudo aplicado à gestão estratégica de instituições de ensino superior privadas
E-book
Inteligência competitiva: um estudo aplicado à gestão estratégica de instituições de ensino superior privadas
deEliane de Oliveira Moreira
Nota: 0 de 5 estrelas
0 notas
Modelagem De Banco De Dados
E-book
Modelagem De Banco De Dados
deCarla Renata Galassi
Nota: 0 de 5 estrelas
0 notas
Conceitos Gerais De Business Intelligence
E-book
Conceitos Gerais De Business Intelligence
deRoberto De Jesus Oliveira
Nota: 0 de 5 estrelas
0 notas

Aplicativos e Software para você

Visualizar mais

Pular no carrossel

Ganhe Dinheiro Criando Um Jogo Para Celular
E-book
Ganhe Dinheiro Criando Um Jogo Para Celular
deRodrigo Barreto
Nota: 0 de 5 estrelas
0 notas
Revit passo a passo volume I
E-book
Revit passo a passo volume I
deJoão Gaspar
Nota: 4 de 5 estrelas
4/5
Desenvolvedor De Back-end Em 30 Dias
E-book
Desenvolvedor De Back-end Em 30 Dias
deJideon Francisco Marques
Nota: 0 de 5 estrelas
0 notas
Excel 2013 Técnicas Avançadas
E-book
Excel 2013 Técnicas Avançadas
deFernando Navarro
Nota: 5 de 5 estrelas
5/5
Excel 2022 O Tutorial Completo Para Iniciantes E Especialistas
E-book
Excel 2022 O Tutorial Completo Para Iniciantes E Especialistas
deJideon Francisco Marques
Nota: 0 de 5 estrelas
0 notas
Photoshop para Iniciantes
E-book
Photoshop para Iniciantes
deHiddenstuff Entertainment
Nota: 0 de 5 estrelas
0 notas
Adobe Photoshop: Tratamento e edição profissional de imagens
E-book
Adobe Photoshop: Tratamento e edição profissional de imagens
deAlexandre Keese
Nota: 0 de 5 estrelas
0 notas
Seo Na Prática
E-book
Seo Na Prática
deNatanael Oliveira
Nota: 0 de 5 estrelas
0 notas
Java O Guia Completo
E-book
Java O Guia Completo
deJideon Francisco Marques
Nota: 0 de 5 estrelas
0 notas
Código Limpo Em Php
E-book
Código Limpo Em Php
deJideon Francisco Marques
Nota: 0 de 5 estrelas
0 notas
Excel De Zero Para Especialista
E-book
Excel De Zero Para Especialista
deJideon F Marques
Nota: 0 de 5 estrelas
0 notas
Como Criar Um Ebook De Alta Conversão
E-book
Como Criar Um Ebook De Alta Conversão
deCésar Ribeiro
Nota: 4 de 5 estrelas
4/5
Apostila Noções De Informática
E-book
Apostila Noções De Informática
deOrganizador: Zélio Cabral
Nota: 0 de 5 estrelas
0 notas
A aprendizagem baseada em problemas (PBL) e a engenharia de software: Formação interdisciplinar para a cidadania
E-book
A aprendizagem baseada em problemas (PBL) e a engenharia de software: Formação interdisciplinar para a cidadania
dePaulo Roberto Córdova
Nota: 0 de 5 estrelas
0 notas
Scratch: Um jeito divertido de aprender programação
E-book
Scratch: Um jeito divertido de aprender programação
deHelton Varela
Nota: 0 de 5 estrelas
0 notas
Pacote Microsoft Office Capacitação
E-book
Pacote Microsoft Office Capacitação
deJoaquim B. De Souza
Nota: 0 de 5 estrelas
0 notas
Funções Financeiras Com Microsoft Excel
E-book
Funções Financeiras Com Microsoft Excel
deJoaquim B. De Souza
Nota: 0 de 5 estrelas
0 notas
Dominando o Podcasting
E-book
Dominando o Podcasting
deAdidas Wilson
Nota: 0 de 5 estrelas
0 notas
Linguagens De Programação Em Inteligência Artificial
E-book
Linguagens De Programação Em Inteligência Artificial
deJideon Francisco Marques
Nota: 0 de 5 estrelas
0 notas
Chatgpt O Roteiro Do Milionário
E-book
Chatgpt O Roteiro Do Milionário
deJideon F Marques
Nota: 0 de 5 estrelas
0 notas
Curso Intensivo De Desenvolvimento Frontend
E-book
Curso Intensivo De Desenvolvimento Frontend
deJideon Francisco Marques
Nota: 0 de 5 estrelas
0 notas
Curso Pdv Passo A Passo Delphi Com Firedac
E-book
Curso Pdv Passo A Passo Delphi Com Firedac
deMaxiwel Eduardo Correa Rodrigues
Nota: 0 de 5 estrelas
0 notas
Microsoft Windows 10
E-book
Microsoft Windows 10
deJoaquim B. De Souza
Nota: 5 de 5 estrelas
5/5
Descomplicado Passo A Passo | Tutoial Anime Studio
E-book
Descomplicado Passo A Passo | Tutoial Anime Studio
deNildo Mello
Nota: 0 de 5 estrelas
0 notas
Guia De Estilo E Cores
E-book
Guia De Estilo E Cores
deGiacomo Nerone, Pseud.prof, Dr. Fernando A.d.piero & Miriam Gonçalves
Nota: 0 de 5 estrelas
0 notas
Excel Definitivo
E-book
Excel Definitivo
deDácio De Castro
Nota: 0 de 5 estrelas
0 notas
Descomplicando Passo A Passo
E-book
Descomplicando Passo A Passo
deNildo Mello
Nota: 0 de 5 estrelas
0 notas
Curso Intensivo De Python
E-book
Curso Intensivo De Python
deJideon F Marques
Nota: 0 de 5 estrelas
0 notas
Curso De Edição De Vídeo + Adobe Premiere Pro
E-book
Curso De Edição De Vídeo + Adobe Premiere Pro
deFernando Magaldi
Nota: 0 de 5 estrelas
0 notas
Excel Para Professores De Matemática
E-book
Excel Para Professores De Matemática
deRubie José Giordani
Nota: 1 de 5 estrelas
1/5

Visualizar mais

Episódios de podcast relacionados

Pular no carrossel

#33 Trabalho de um cientista de dados
Episódio de podcast
#33 Trabalho de um cientista de dados
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil
#32 Vazamento de dados com Letícia Silva
Episódio de podcast
#32 Vazamento de dados com Letícia Silva
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil
#44 Casos de sucesso com o poder dos algoritmos
Episódio de podcast
#44 Casos de sucesso com o poder dos algoritmos
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil
EP12 - OO, Herança e Banco de Dados: Após identificar quais são as principais funciona…
Episódio de podcast
EP12 - OO, Herança e Banco de Dados: Após identificar quais são as principais funciona…
deDevCast - Seu PodCast de Tecnologia
0 notas
0% acharam este documento útil
EP52 - Como você tem usado o comando delete?: Um banco de dados pode armazenar preços, datas e …
Episódio de podcast
EP52 - Como você tem usado o comando delete?: Um banco de dados pode armazenar preços, datas e …
deDevCast - Seu PodCast de Tecnologia
0 notas
0% acharam este documento útil
EP31 - Python no Mundo Real: Aqui você vai ver um pouco de como o Python é rea…
Episódio de podcast
EP31 - Python no Mundo Real: Aqui você vai ver um pouco de como o Python é rea…
deDevCast - Seu PodCast de Tecnologia
0 notas
0% acharam este documento útil
#8 Desenvolvimento de Software, Métodos Ágeis e cultura Lambda3
Episódio de podcast
#8 Desenvolvimento de Software, Métodos Ágeis e cultura Lambda3
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil
#92 Big Data mudando nossas vidas e transformando negócios com Big Data Corp
Episódio de podcast
#92 Big Data mudando nossas vidas e transformando negócios com Big Data Corp
deCafé Debug seu podcast de tecnologia
100%
100% acharam este documento útil
#22 - Bancos de Dados NOSQL
Episódio de podcast
#22 - Bancos de Dados NOSQL
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil
Freelance: modelos de trabalho na carreira dev (feat. Bossabox) - Faladev #43
Episódio de podcast
Freelance: modelos de trabalho na carreira dev (feat. Bossabox) - Faladev #43
dePodcast FalaDev
0 notas
0% acharam este documento útil
#68 Arquitetura Orientada a Eventos, mensageria e outras curiosidades
Episódio de podcast
#68 Arquitetura Orientada a Eventos, mensageria e outras curiosidades
deCafé Debug seu podcast de tecnologia
100%
100% acharam este documento útil
#78 Skills de um Dev Frontend e por onde começar
Episódio de podcast
#78 Skills de um Dev Frontend e por onde começar
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil
#21 - IOT - Internet dos Trem
Episódio de podcast
#21 - IOT - Internet dos Trem
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil
EP44 - Por que adotamos Orientação a Objetos? (PARTE 2): Neste DevCast daremos continuidade ao bate-papo i…
Episódio de podcast
EP44 - Por que adotamos Orientação a Objetos? (PARTE 2): Neste DevCast daremos continuidade ao bate-papo i…
deDevCast - Seu PodCast de Tecnologia
0 notas
0% acharam este documento útil
#3 Devs e Empreendedores com João Carrilho
Episódio de podcast
#3 Devs e Empreendedores com João Carrilho
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil
#23 Toda ideia de produtividade começa com o Trello
Episódio de podcast
#23 Toda ideia de produtividade começa com o Trello
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil
#9 Entrevista Sérgio Gama ChatBots e Watson
Episódio de podcast
#9 Entrevista Sérgio Gama ChatBots e Watson
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil
#57 Design de Software, Patterns Anêmicos e Clean Arquitecture
Episódio de podcast
#57 Design de Software, Patterns Anêmicos e Clean Arquitecture
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil
#43 Conhecendo o Elasticsearch com Eduardo Neves
Episódio de podcast
#43 Conhecendo o Elasticsearch com Eduardo Neves
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil
EP45 - Histórias de Levantamento de Requisitos: Descobrir no dia da entrega que você não adiciono…
Episódio de podcast
EP45 - Histórias de Levantamento de Requisitos: Descobrir no dia da entrega que você não adiciono…
deDevCast - Seu PodCast de Tecnologia
0 notas
0% acharam este documento útil
#96 Como funciona o Machine Learning na Astronomia?
Episódio de podcast
#96 Como funciona o Machine Learning na Astronomia?
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil
#3 QA e Testes com Carol Abdo
Episódio de podcast
#3 QA e Testes com Carol Abdo
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil
Programação Falada - Golang
Episódio de podcast
Programação Falada - Golang
deProgramação Falada - Golang
0 notas
0% acharam este documento útil
#88 Formação tecnológica - O que esperar de uma graduação ou bootcamp para carreira tech
Episódio de podcast
#88 Formação tecnológica - O que esperar de uma graduação ou bootcamp para carreira tech
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil
#73 Skills de um Dev Backend e por onde começar
Episódio de podcast
#73 Skills de um Dev Backend e por onde começar
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil
Low code, mvp e produto com Marcell Almeida da PM3: A PM3 é uma escola online que forma a nova geração de pessoas de produtos no Brasil. Fundada em 2018 por Bruno Coutinho, Dan Mark Printes e Marcell Almeida, a PM3 antes de ser uma empresa, era uma comunidade tech,
Episódio de podcast
Low code, mvp e produto com Marcell Almeida da PM3: A PM3 é uma escola online que forma a nova geração de pessoas de produtos no Brasil. Fundada em 2018 por Bruno Coutinho, Dan Mark Printes e Marcell Almeida, a PM3 antes de ser uma empresa, era uma comunidade tech,
deLike a Boss
0 notas
0% acharam este documento útil
#45 Iniciando na carreira de tecnologia
Episódio de podcast
#45 Iniciando na carreira de tecnologia
deCafé Debug seu podcast de tecnologia
100%
100% acharam este documento útil
Sinapse #28 - Hackers Éticos, Privacidade na Internet e o Backdoor do Greg
Episódio de podcast
Sinapse #28 - Hackers Éticos, Privacidade na Internet e o Backdoor do Greg
deSinapse
0 notas
0% acharam este documento útil
EP03 - Eu preciso aprender SQL?: Para o programador iniciante, o SQL significa uma…
Episódio de podcast
EP03 - Eu preciso aprender SQL?: Para o programador iniciante, o SQL significa uma…
deDevCast - Seu PodCast de Tecnologia
0 notas
0% acharam este documento útil
#70 Perfis de Arquitetos de Software e como trabalham
Episódio de podcast
#70 Perfis de Arquitetos de Software e como trabalham
deCafé Debug seu podcast de tecnologia
0 notas
0% acharam este documento útil

Categorias relacionadas

Pular no carrossel

Avaliações de Aprendendo Ciência De Dados

Nota: 0 de 5 estrelas

0 notas

0 avaliação0 avaliação

Pré-visualização do livro

Aprendendo Ciência De Dados - Jideon Francisco Marques

Aprendendo ciência de dados

Fundamentos de programação e estatística usando python

Por Jideon F. Marques

O conteúdo deste ebook não pode ser reproduzido, duplicado ou transmitido sem permissão direta por escrito do autor ou do editor.

Sob nenhuma circunstância qualquer culpa ou responsabilidade legal será imputada ao editor, ou autor, por quaisquer danos, reparações ou perdas monetárias devido às informações contidas neste ebook, direta ou indiretamente.

Notícia legal:

Este ebook é protegido por direitos autorais. É apenas para uso pessoal. Você não pode alterar, distribuir, vender, usar, citar ou parafrasear qualquer parte ou o conteúdo deste ebook sem o consentimento do autor ou editor.

Aviso de isenção de responsabilidade:

Observe que as informações contidas neste documento são apenas para fins educacionais e de entretenimento. Todo esforço foi feito para apresentar informações precisas, atualizadas, confiáveis e completas. Nenhuma garantia de qualquer tipo é declarada ou implícita. Os leitores reconhecem que o autor não está envolvido na prestação de aconselhamento jurídico, financeiro, médico ou profissional. O conteúdo deste ebook foi derivado de várias fontes. Consulte um profissional médico licenciado antes de tentar este programa ou qualquer técnica descrita neste ebook.

Ao ler este documento, o leitor concorda que em nenhuma circunstância o autor é responsável por quaisquer lesões, morte, perdas, diretas ou indiretas, que sejam incorridas como resultado do uso das informações contidas neste documento, incluindo, mas não limitado a a, erros, omissões ou imprecisões.

Índice

1. Perguntas e Escopo dos Dados

Big Data e novas oportunidades

Exemplo: Google Tendências da Gripe

População Alvo, Quadro de Acesso, Amostra

Instrumentos e Protocolos

Medindo o Fenômeno Natural

Precisão

Tipos de preconceito

Tipos de Variação

Resumo

Exercícios

2. Simulação e Design de Dados

O modelo da urna

Projetos de Amostragem

Distribuição de amostragem de uma estatística

Simulando a Distribuição de Amostragem

O Hipergeométrico

Exemplo: Simulação de Viés e Variação de Pesquisa Eleitoral

O modelo de urna da Pensilvânia

Um modelo de urna com viés

Conduzindo enquetes maiores

Exemplo: Simulando um teste randomizado para uma vacina

Alcance

O modelo de urna para atribuição aleatória

Exemplo: Erro de Medição na Qualidade do Ar

Resumo

Exercícios

3. Modelagem com Estatísticas Resumidas

O modelo constante

Funções de perda

Erro absoluto médio

Erro quadrático médio

Escolhendo funções de perda

Resumo

Exercícios

4. Trabalhando com dataframes usando pandas

Subconjunto

Sobre os dados

DataFrames e Índices

Fatiamento

Filtrando Linhas

Exemplo: Há quanto tempo Luna se tornou um nome popular?

Aprendizado

Agregando

Grupo básico-agregado

Agrupamento em várias colunas

Funções de agregação personalizadas

Exemplo: as pessoas se tornaram mais criativas com nomes de bebês?

Pivotante

Aprendizado

Juntando-se

Junções internas

Junções Esquerda, Direita e Externa

Exemplo: popularidade das categorias de nomes do NYT

Aprendizado

Transformando

Aplicar

Exemplo: popularidade de nomes L

O preço de aplicação

Aprendizado

Como os Dataframes são Diferentes de Outras Representações de Dados?

Dataframes e planilhas

Dataframes e matrizes

Dataframes e Relações

Resumo

Exercícios

5. Trabalhando com relações usando SQL

Subconjunto

Sobre os dados

O que é uma Relação?

Fatiamento

Filtrando Linhas

Exemplo: Há quanto tempo Luna se tornou um nome popular?

Aprendizado

Agregando

Grupo básico-agregado

Agrupamento em várias colunas

Outras funções de agregação

Exemplo: as pessoas se tornaram mais criativas com nomes de bebês?

Aprendizado

Juntando-se

Junções internas

Junções Esquerda, Direita e Externa

Exemplo: popularidade das categorias de nomes do NYT

Aprendizado

Transformando

Funções SQL

Consultas de várias etapas usando uma cláusula WITH

Exemplo: popularidade de nomes L

Aprendizado

Como as relações são diferentes de outras representações de dados?

Relações e planilhas

Relações e Matrizes

Relações e Dataframes

Conclusão

Exercícios

6. Disputando Arquivos

Exemplos de fonte de dados

Pesquisa da Rede de Alerta de Abuso de Drogas (DAWN)

Segurança Alimentar do Restaurante San Francisco

Formatos de arquivo

Formato delimitado

Formato de largura fixa

Formatos hierárquicos

Formatos pouco estruturados

Codificação de arquivo

Tamanho do arquivo

Trabalhando com grandes conjuntos de dados

As ferramentas de shell e linha de comando

Forma e Granularidade da Mesa

Granularidade das Inspeções e Violações de Restaurantes

Forma e granularidade do levantamento DAWN

Resumo

Capítulo 1. Perguntas e Escopo dos Dados

Como cientistas de dados, usamos dados para responder a perguntas, e a qualidade do processo de coleta de dados pode afetar significativamente a validade e a precisão dos dados, a força das conclusões que tiramos de uma análise e as decisões que tomamos. Neste capítulo, descrevemos uma abordagem geral para entender a coleta de dados e avaliar a utilidade dos dados para abordar a questão de interesse. Idealmente, buscamos que os dados sejam representativos do fenômeno que estamos estudando, seja esse fenômeno uma característica populacional, um modelo físico ou algum tipo de comportamento social. Normalmente, nossos dados não contêm informações completas (o escopo é restrito de alguma forma), mas queremos usar os dados para descrever com precisão uma população, estimar uma quantidade científica, inferir a forma de uma relação entre características, ou prever resultados futuros. Em todas essas situações, se nossos dados não forem representativos do objeto de nosso estudo, nossas conclusões podem ser limitadas, possivelmente enganosas ou até erradas.

Para motivar a necessidade de pensar sobre essas questões, começamos com um exemplo do poder do big data e o que pode dar errado [big datas]. Em seguida, fornecemos uma estrutura que pode ajudá-lo a conectar o objetivo do seu estudo (sua pergunta) com o processo de coleta de dados. Nós nos referimos a isso como o escopo de dados1, e fornecem terminologia para ajudar a descrever o escopo dos dados, juntamente com exemplos de pesquisas, dados governamentais, instrumentos científicos e recursos online. Mais adiante neste capítulo, consideraremos o que significa que os dados sejam precisos. Lá, apresentamos diferentes formas de viés e variação e descrevemos as condições em que elas podem surgir. Por toda parte, os exemplos cobrem o espectro dos tipos de dados que você pode estar usando como cientista de dados; esses exemplos são da ciência, eleições políticas, saúde pública e comunidades online.

Big Data e novas oportunidades

O tremendo aumento de dados disponíveis abertamente criou novos papéis e oportunidades na ciência de dados. Por exemplo, os jornalistas de dados procuram histórias interessantes nos dados, da mesma forma que os repórteres tradicionais procuram notícias. O ciclo de vida de dados para o jornalista de dados começa com a busca de dados existentes que possam ter uma história interessante, em vez de começar com uma questão de pesquisa e procurar como coletar dados novos ou usar dados existentes para abordar a questão.

Projetos de ciência cidadã são outro exemplo. Eles envolvem muitas pessoas (e instrumentos) na coleta de dados. Coletivamente, esses dados são frequentemente disponibilizados aos pesquisadores que organizam o projeto e muitas vezes são disponibilizados em repositórios para que o público em geral possa investigar melhor.

A disponibilidade de dados administrativos/organizacionais cria outras oportunidades. Os pesquisadores podem vincular dados coletados de estudos científicos com, digamos, dados médicos coletados para fins de saúde; em outras palavras, dados administrativos coletados por motivos que não decorrem diretamente da questão de interesse podem ser úteis em outros contextos. Essas ligações podem ajudar os cientistas de dados a expandir as possibilidades de suas análises e verificar a qualidade de seus dados. Além disso, os dados encontrados podem incluir rastros digitais, como sua atividade de navegação na web, postagens em mídias sociais e rede online de amigos e conhecidos, e podem ser bastante complexos.

Quando temos grandes quantidades de dados administrativos ou rastros digitais expansivos, pode ser tentador tratá-los como mais definitivos do que os dados coletados de pesquisas tradicionais menores. Podemos até considerar esses grandes conjuntos de dados como um substituto para estudos científicos ou essencialmente um censo. Esse excesso de alcance é chamado de hubris do big data (Lazer et al. 2014). Dados com um escopo grande não significam que podemos ignorar questões fundamentais de quão representativos são os dados, nem podemos ignorar questões de medição, dependência e confiabilidade. Um exemplo bem conhecido é o sistema de rastreamento Google Flu Trends.

Exemplo: Google Tendências da Gripe

A epidemiologia digital, um novo subcampo da epidemiologia, aproveita dados gerados fora do sistema público de saúde para estudar padrões de doenças e dinâmicas de saúde em populações2O sistema de rastreamento Google Flu Trends (GFT) foi um dos primeiros exemplos de epidemiologia digital. Em 2007, os pesquisadores descobriram que contar as pesquisas que as pessoas faziam por termos relacionados à gripe poderia estimar com precisão o número de casos de gripe. Ele ganhou as manchetes e ajudou a deixar os pesquisadores empolgados com as possibilidades do big data. No entanto, a GFT não correspondeu às expectativas e foi abandonada em 2015.

O que deu errado com a GFT? Afinal, ele usou milhões de rastros digitais de consultas on-line para termos relacionados à gripe para prever a atividade da gripe. Apesar do sucesso inicial, na temporada de gripe de 2011-2012, os cientistas de dados do Google descobriram que a GFT não era um substituto para dados mais tradicionalmente coletados dos relatórios de vigilância dos Centros de Controle de Doenças (CDC), coletados de laboratórios nos Estados Unidos. Em comparação, a GFT superestimou os números do CDC em 100 das 108 semanas (verFigura 1-1). Semana após semana, a GFT ficou muito alta para os casos de gripe, embora fosse baseada em big data.

Images/GFTseries.png

Figura 1-1. Estimativas semanais do Google Flu Trend (GFT) para doenças semelhantes à gripe. Por 108 semanas, a GFT (linha contínua) estimou os relatórios reais do CDC (linha tracejada) 100 vezes. Também são plotadas as previsões de um modelo baseado em dados do CDC de 3 semanas e tendências sazonais (linha pontilhada).

Os cientistas de dados descobriram que a GFT não era um substituto para dados mais tradicionalmente coletados do CDC. Um modelo simples construído a partir de relatórios anteriores do CDC que usaram dados do CDC de 3 semanas e tendências sazonais fez um trabalho melhor de prever a prevalência da gripe do que a GFT. Ou seja, a GFT ignora informações consideráveis que poderiam ser extraídas por métodos estatísticos básicos. Isso não significa que o big data capturado da atividade online seja inútil. De fato, os pesquisadores mostraram que a combinação de dados de GFT com dados de CDC pode melhorar substancialmente tanto nas previsões de GFT quanto no modelo baseado em CDC (Lazer 2015). Muitas vezes, a combinação de diferentes abordagens leva a melhorias em relação aos métodos individuais.

O exemplo da GFT nos mostra que, mesmo quando temos enormes quantidades de informações, as conexões entre os dados, o tópico da investigação e a pergunta que está sendo feita são primordiais. Compreender essa estrutura pode nos ajudar a evitar responder à pergunta errada, aplicar métodos inadequados aos dados e exagerar nossas descobertas.

Na era do big data, somos tentados a coletar cada vez mais dados. Afinal, um censo nos dá informações perfeitas, então o big data não deveria ser quase perfeito? Um fator-chave a ter em mente é o escopo dos dados. Que população queremos estudar? Como podemos acessar informações sobre essa população? Quem ou o que estamos realmente estudando? As respostas a essas perguntas nos ajudam a ver possíveis lacunas em nossa abordagem. Este é o tema da próxima seção.

População Alvo, Quadro de Acesso, Amostra

Um passo inicial importante no ciclo de vida dos dados é expressar a pergunta de interesse no contexto da área de assunto e considerar

Está gostando da amostra?

Página 1 de 1

Aprendendo Ciência De Dados

Sobre este e-book

Jideon Francisco Marques

Leia mais títulos de Jideon Francisco Marques

Autores relacionados

Relacionado a Aprendendo Ciência De Dados

Ebooks relacionados

Aplicativos e Software para você

Episódios de podcast relacionados

Artigos relacionados

Categorias relacionadas

Avaliações de Aprendendo Ciência De Dados

O que você achou?

Pré-visualização do livro

Aprendendo Ciência De Dados - Jideon Francisco Marques

Aprendendo ciência de dados

Aprendendo ciência de dados

Fundamentos de programação e estatística usando python

Capítulo 1. Perguntas e Escopo dos Dados

Big Data e novas oportunidades

Exemplo: Google Tendências da Gripe

População Alvo, Quadro de Acesso, Amostra