Guia Prático para Publicação de Dados Abertos Conectados na Web
De Sandro Rautenberg, Lucélia de Souza, Josiane Michalak Hauagge Dall'Agnol e Gisane Aparecida Michelon
()
Sobre este e-book
Relacionado a Guia Prático para Publicação de Dados Abertos Conectados na Web
Ebooks relacionados
Dados Abertos Governamentais conectados em Big Data: framework conceitual Nota: 0 de 5 estrelas0 notasGovernança de TI para as instituições federais de ensino Nota: 0 de 5 estrelas0 notasSegurança Da Informação Nota: 0 de 5 estrelas0 notasBíblia De Programação Python Para Iniciantes Nota: 0 de 5 estrelas0 notasGestão Na Tecnologia Da Informação Nota: 0 de 5 estrelas0 notasBanco De Dados Para Arquivistas Nota: 0 de 5 estrelas0 notasInternet das Coisas: uma análise sobre o impacto da tecnologia nos cuidados com animais domésticos Nota: 0 de 5 estrelas0 notasUso de Técnicas de Data Science na Previsão: de Febre Amarela Utilizando o Twitter Nota: 0 de 5 estrelas0 notasPHP: programe de forma rápida e prática Nota: 0 de 5 estrelas0 notasAnálise De Sistemas V. 4 Nota: 0 de 5 estrelas0 notasCryptex da Preservação Digital Nota: 0 de 5 estrelas0 notasSistemas de Informação e a Teoria do Caos Nota: 0 de 5 estrelas0 notasPublicadores de dados: da gestão estratégica à abertura Nota: 0 de 5 estrelas0 notasDados Abertos: O que o Cidadão mais Busca das Instituições Públicas Nota: 0 de 5 estrelas0 notasIntegrando Sistemas de Reconhecimento Automático de Fala em Aplicações Web Nota: 0 de 5 estrelas0 notasEnsino de Pirâmides na Construção de Aplicativos para Smartphones Nota: 0 de 5 estrelas0 notasGoogle App Engine: Construindo serviços na nuvem Nota: 0 de 5 estrelas0 notasApache Lucene: Sistemas de busca com técnicas de Recuperação de Informação Nota: 0 de 5 estrelas0 notasJornalismo Estruturado por Metadados Nota: 0 de 5 estrelas0 notasUm Guia para Segurança Cibernética, Segurança na Internet Nota: 0 de 5 estrelas0 notasOpen Web Platform Nota: 0 de 5 estrelas0 notasCloud computing: framework para seleção de provedor de serviços em nuvem Nota: 0 de 5 estrelas0 notasRedes De Computadores Descomplicadas Nota: 0 de 5 estrelas0 notasCrimes informáticos: estudos a partir da vítima Nota: 0 de 5 estrelas0 notasCrimes Cibernéticos Nota: 0 de 5 estrelas0 notasOperador do direito Nota: 5 de 5 estrelas5/5Trabalho E Software No Capitalismo Cognitivo Nota: 0 de 5 estrelas0 notas
Métodos e Materiais de Ensino para você
Massagem Erótica Nota: 4 de 5 estrelas4/5Aprender Inglês - Textos Paralelos - Histórias Simples (Inglês - Português) Blíngüe Nota: 4 de 5 estrelas4/5Ensine a criança a pensar: e pratique ações positivas com ela! Nota: 5 de 5 estrelas5/5Como Escrever Bem: Projeto de Pesquisa e Artigo Científico Nota: 5 de 5 estrelas5/5Raciocínio lógico e matemática para concursos: Manual completo Nota: 5 de 5 estrelas5/5A Bíblia e a Gestão de Pessoas: Trabalhando Mentes e Corações Nota: 5 de 5 estrelas5/5Pedagogia do oprimido Nota: 4 de 5 estrelas4/5Ludicidade: jogos e brincadeiras de matemática para a educação infantil Nota: 5 de 5 estrelas5/54000 Palavras Mais Usadas Em Inglês Com Tradução E Pronúncia Nota: 5 de 5 estrelas5/5Como Estudar Eficientemente Nota: 4 de 5 estrelas4/5Temperamentos Nota: 5 de 5 estrelas5/5Guia Prático Mindfulness Na Terapia Cognitivo Comportamental Nota: 0 de 5 estrelas0 notasTécnicas de Invasão: Aprenda as técnicas usadas por hackers em invasões reais Nota: 5 de 5 estrelas5/5A arte de convencer: Tenha uma comunicação eficaz e crie mais oportunidades na vida Nota: 4 de 5 estrelas4/5Cérebro Turbinado Nota: 5 de 5 estrelas5/5Sexo Sem Limites - O Prazer Da Arte Sexual Nota: 4 de 5 estrelas4/5Jogos e Brincadeiras para o Desenvolvimento Infantil Nota: 3 de 5 estrelas3/5Piaget, Vigotski, Wallon: Teorias psicogenéticas em discussão Nota: 4 de 5 estrelas4/5BLOQUEIOS & VÍCIOS EMOCIONAIS: COMO VENCÊ-LOS? Nota: 5 de 5 estrelas5/5A Vida Intelectual: Seu espírito, suas condições, seus métodos Nota: 5 de 5 estrelas5/5Manual Da Psicopedagogia Nota: 5 de 5 estrelas5/5Mulheres Que Correm Com Os Lobos Nota: 0 de 5 estrelas0 notasPor que gritamos Nota: 5 de 5 estrelas5/5Pense Como Um Gênio: Os Sete Passos Para Encontrar Soluções Brilhantes Para Problemas Comuns Nota: 4 de 5 estrelas4/5
Avaliações de Guia Prático para Publicação de Dados Abertos Conectados na Web
0 avaliação0 avaliação
Pré-visualização do livro
Guia Prático para Publicação de Dados Abertos Conectados na Web - Sandro Rautenberg
COMITÊ CIENTÍFICO DA COLEÇÃO EDUCAÇÃO, TECNOLOGIAS E TRANSDISCIPLINARIDADE
AGRADECIMENTOS
Esta obra é uma realização do Grupo de Pesquisa Laboratório de Aplicações Semânticas e Distribuídas (LASeD¹) da Universidade Estadual do Centro-Oeste (Unicentro²). Também é fruto de um trabalho de pesquisa preliminar realizado junto ao Instituto Agile Knowledge and Semantic Web (AKSW³).
Por isso, algumas entidades merecem menção de agradecimento.
Primeiramente, à Comissão de Aperfeiçoamento de Pessoal do Nível Superior (Capes) pelo incentivo financeiro despendido para realização de um estágio de pós-doutoramento, na Universidade de Leipzig - Alemanha (processo número 18228-12-7).
Ao AKSW, em especial, aos professores Dr. Sören Auer, Dr. Jens Lehmann, Dr. Axel-C. Ngonga Ngomo, pelos valiosos ensinamentos e disponibilidade/desenvolvimento das ferramentas utilizadas neste livro.
À Fundação Araucária⁴ pelo suporte financeiro no projeto de pesquisa Modelo para Compartilhamento de Informações sobre Pesquisas baseado em Linked Open Data para Estudos Cientométricos
(processo número FA 601/2014).
À Unicentro e ao Departamento de Ciência da Computação pelo apoio ao Grupo LASeD por acreditar que esta obra seria possível.
Especialmente agradecemos a Deus, por estar sempre iluminando nossos caminhos e nos apoiando nos momentos difíceis.
E às nossas famílias e amigos, que nos deram todo apoio necessário, nos momentos em que abdicamos deles, para nos dedicarmos à elaboração deste livro.
APRESENTAÇÃO
Este livro tem como objetivo principal apoiar o leitor nas principais atividades e tarefas para publicação de Dados Abertos Conectados (Linked Open Data – LOD) na web segundo a metodologia Ciclo de Vida de Dados Conectado (Linked Data Lifecycle), abordando de forma prática desde a geração até a publicação dos dados na web. Este material destaca-se na literatura porque faz uso de uma metodologia bastante utilizada e apresenta, passo a passo, cada uma de suas principais atividades e tarefas. São feitas demonstrações em um estudo de caso real envolvendo a geração e a publicação de dados abertos, o qual pode ser tomado como base para geração e publicação de outros conjuntos de dados na Web Semântica. Este estudo de caso real baseia-se em um conjunto de dados abertos intitulado Aeroportos Brasil. Com propósito de instrução, os dados foram obtidos a partir do sítio do Centro de Previsão do Tempo e Estudos Climáticos - CPTEC/INPE em (http://bancodedados.cptec.inpe.br/). Esses são utilizados somente como massa de dados para publicação na web e desenvolvimento de consultas.
O livro encontra-se dividido em duas partes. A primeira parte contém três capítulos descrevendo sobre dados abertos conectados e suas tecnologias, conforme descrito na sequência.
O primeiro capítulo apresenta uma introdução sobre dados abertos conectados, abordando: i) as motivações para publicar dados abertos conectados; ii) a terminologia e classificação 5 Estrelas (5Star); iii) as tecnologias usadas na web de dados, descrevendo a linguagem usada para descrição de recursos na web intitulada Resource Description Framework (RDF); iv) as notações RDF/XML, Turtle e N-Triples, abordando também sobre a Linguagem de Ontologia da Web (OWL) e a linguagem de desenvolvimento de consultas na forma de triplas RDF (SPARQL Protocol and RDF Query Language - SPARQL); e v) as Melhores Práticas (MPs) propostas pelo Consórcio World Wide Web - W3C para publicação de dados na web.
O segundo capítulo aborda as principais metodologias para publicação de dados abertos conectados, descrevendo as seguintes: i) Diretrizes metodológicas para publicação de dados conectados governamentais
; ii) Dados abertos da Irlanda
; e iii) Modelo refinado de ciclo de vida para dados abertos conectados
.
O terceiro capítulo descreve, especificamente, a metodologia seguida neste livro, intitulada Ciclo de Vida de Dados Conectados, contemplando oito estágios e um conjunto de ferramentas para uso em cada uma das atividades do ciclo de vida de dados conectados.
A segunda parte contém sete capítulos (capítulo 4 ao capítulo 10), descrevendo sobre a publicação na web de dados. Os capítulos exploram um estudo de caso para publicação de dados a respeito dos aeroportos brasileiros e suas estações meteorológicas, permitindo um aproveitamento mais intuitivo. Os capítulos são descritos na sequência.
O quarto capítulo descreve sobre as Melhores Práticas e os benefícios obtidos com seu uso. O quinto capítulo descreve a extração de dados na web. O sexto capítulo aborda a evolução dos dados com o uso da ferramenta OpenRefine. O sétimo capítulo descreve sobre o armazenamento dos dados e a geração do grafo RDF no Triple Store OpenLink Virtuoso. O oitavo capítulo aborda a Linguagem de Consulta SPARQL, sendo este capítulo mais extenso, pois apresenta um vasto conjunto de exemplos codificados, explorando as características da linguagem, como o uso de filtros com operadores lógicos e relacionais para adicionar restrições. Envolve a descrição de exemplos de consultas, desde as mais simples até algumas mais avançadas. O nono capítulo aborda a interligação dos dados com outros dados na web fazendo uso da ferramenta LIMES (acrônimo de Link Discovery Framework for Metric Spaces). E, por fim, o décimo capítulo apresenta a criação de uma interface no padrão Model View Controller - MVC, utilizando a API Jena.
Além dos 10 capítulos, este livro apresenta quatro apêndices. O primeiro apêndice enumera o material de apoio do livro, descrevendo os arquivos auxiliares utilizados durante o desenvolvimento do estudo de caso. Os apêndices 2, 3 e 4 contêm informações a respeito da instalação das ferramentas OpenRefine, OpenLink Virtuoso e LIMES no sistema operacional Linux Ubuntu 12.04.
Esperamos que este livro seja útil a todos que estejam trabalhando com dados abertos conectados no contexto da Web Semântica.
Boa leitura a todos!
Os autores
PREFÁCIO
Como previsto por Jim Gray em 2007, o quarto paradigma da ciência se faz cada dia mais presente nas ações do mundo atual. A maneira de se fazer ciência já foi empírica, posteriormente utilizou-se de modelos teóricos. Mais recentemente, recorreu a simulações computacionais, chegando definitivamente ao uso de dados, no que pode representar novos caminhos para tomadas de decisões, rearranjo das pesquisas e novas perspectivas no desenvolvimento da humanidade.
A humanidade passou a gerar dados em grande volume e com velocidade antes inimaginável, e é justamente no contexto do uso desses dados que se vislumbra entender melhor como as pessoas executam suas ações e tomam suas decisões, de forma que possamos melhorar a maneira de se viver, resolvendo problemas antes não compreendidos.
Se a Internet na palma da mão, o acesso fácil a dispositivos eletrônicos, a evolução e o aumento de uso de sensores dos mais variados têm facilitado a geração de dados, há uma latente necessidade de se organizar esses dados, melhorando o entendimento sobre eles, criando significado, interligando e, principalmente, disponibilizando-os de forma aberta e semântica, para que possam ser consumidos com aproveitamento de todo seu valor.
Tim Berners-Lee em 2001, com conceitos e técnicas para Web Semântica, e depois em 2006, com a proposta do Linked Data, já previa a necessidade de interoperabilidade, interligação e atribuição de significado aos dados, constituindo uma nova web.
Por isso, Sandro Rautenberg, Lucélia de Souza, Josiane M. H. Dall’Agnol e Gisane Aparecida Michelon, todos eles integrantes do Grupo de Pesquisa Laboratório de Aplicações Semânticas e Distribuídas (LASeD) e professores da Universidade Estadual do Centro-Oeste (Unicentro), apresentam-nos esta obra: Guia prático para publicação de dados abertos conectados na web, na qual descrevem e mostram os melhores caminhos para interligar e publicar dados, de forma aberta e semântica.
Os autores apresentam esta obra logo após receberem premiação de melhor trabalho científico no GT8 (Informação e Tecnologia) do XVIII Encontro nacional de pesquisa em ciência da informação (2017), com trabalho de tema semelhante.
Os capítulos do livro permitem-nos conhecer mais profundamente procedimentos, processos e tecnologias como RDF, OWL e Sparql, além de ferramentas como LIMES, Virtuoso e OpenRefine.
O primeiro capítulo – Dados abertos conectados
– faz uma introdução ao tema, apresentando as principais tecnologias e abordando as Melhores Práticas para publicação e consumo de dados.
O segundo capítulo – Metodologias para dados abertos conectados
– aborda as principais metodologias utilizadas para publicar dados na web. As metodologias são constituídas a partir de um conjunto de tarefas e atividades que modelam o ciclo de desenvolvimento de dados abertos conectados.
O terceiro capítulo – O ciclo de vida de dados conectados e suas ferramentas
– compreende uma explanação sobre o Linked Data Lifecycle, um processo metodológico (e suas ferramentas) difundido pelo Instituto de Pesquisa Agile Knowledge and Semantic Web.
O capítulo seguinte – Adoção de Melhores Práticas
– abre a segunda parte do livro, com uma abordagem mais prática sobre a adoção das 35 Melhores Práticas para Publicação e Consumo de Dados na Web
do W3C.
O quinto e sexto capítulos – Extraindo dados da web
e Evoluindo os Dados
– apresentam os esforços para captura de dados na web e os procedimentos para elevar esses dados às terceira e quarta estrelas do esquema de Classificação de 5 Estrelas de Tim Berners-Lee. Destaca-se aqui uma completa abordagem sobre a ferramenta OpenRefine.
O sétimo capítulo – Armazenando os dados
– disserta sobre as questões de armazenamento do Ciclo de Vida dos Dados Conectados, dando ênfase e apresentando o Triple Store Virtuoso, que tem sua versão gratuita, o OpenLink Virtuoso.
No oitavo capítulo – Consumindo os dados
–, os autores apresentam uma detalhada abordagem sobre a Linguagem Sparql, realizando uma incursão sobre seu uso e suas particularidades, que levam o leitor a entender os vários tipos de consultas a tipos variados de datasets.
O nono capítulo – Interligando dados
– explica sobre os processos para elevar os dados à quinta estrela do esquema Berners-Lee, fortalecendo a ideia de contextos mais ampliados. Nesse capítulo destaca-se o uso da ferramenta LIMES (acrônimo de Link Discovery Framework for Metric Spaces) para descoberta de ligações entre recursos em fontes de dados distintas.
O último capítulo – Criando uma interface aos dados
– destina-se a realizar uma abordagem sobre como facilitar o consumo de dados abertos conectados. Utilizando-se de ferramentas como Eclipse, Apache Jena e Primefaces, os autores mostram como construir uma interface para o consumo dos dados.
Como presente aos leitores, o livro ainda é composto no apêndice por procedimentos e dicas de como instalar as ferramentas OpenRefine e LIMES e o sistema OpenLink Virtuoso.
Prof. Dr. José Eduardo Santarem Segundo
santarem@usp.br
USP/Ribeirão Preto
Sumário
DADOS ABERTOS CONECTADOS 19
1.1 MOTIVAÇÕES PARA PUBLICAR DADOS ABERTOS CONECTADOS NA WEB 19
1.2 TERMINOLOGIA E CLASSIFICAÇÃO 5 ESTRELAS 21
1.2.1 Dados 23
1.2.2 Dados abertos 23
1.2.3 Dados conectados 24
1.2.4 Dados abertos conectados 25
1.3 TECNOLOGIAS USADAS NA WEB DE DADOS 25
1.3.1 RDF - Linguagem para descrição de dados na web 25
1.3.2 Notações para RDF 27
1.3.3 O desenvolvimento de ontologias e as linguagens OWL e SPARQL 29
1.4 MELHORES PRÁTICAS PARA PUBLICAÇÃO E CONSUMO DE DADOS NA WEB 30
1.4.1 Metadados - Como fornecê-los para humanos e máquinas? 32
1.4.2 Licença dos dados - Como permitir e restringir o acesso? 34
1.4.3 Proveniência dos dados - Como adicionar confiança aos dados? 36
1.4.4 Qualidade dos dados - Como adicionar qualidade aos dados? 37
1.4.5 Versionamento dos dados - Como controlar versões e séries? 37
1.4.6 Identificação dos dados - Como identificar conjuntos de dados e distribuições? 39
1.4.7 Formatos de dados - Quais formatos de dados devem ser usados? 42
1.4.8 Vocabulários de dados - Como melhorar a interoperabilidade dos dados? 44
1.4.9 Acesso aos dados - Como fornecer opções de acesso? 47
1.4.10 Preservação dos dados - Como os dados podem ser arquivados? 53
1.4.11 Feedback - Como é possível envolver usuários? 54
1.4.12 Enriquecimento dos dados - Como adicionar valor aos dados? 55
1.4.13 Republicação - Como reusar dados com responsabilidade? 57
1.5 OUTRAS FONTES DE INFORMAÇÃO 58
1.6 RESUMO DESTE CAPÍTULO 59
REFERÊNCIAS 60
METODOLOGIAS PARA DADOS ABERTOS CONECTADOS 65
2.1 O QUE IREMOS APRENDER NESTE CAPÍTULO? 65
2.2 DIRETRIZES METODOLÓGICAS PARA PUBLICAÇÃO DE DADOS CONECTADOS GOVERNAMENTAIS 65
2.3 DADOS ABERTOS DA IRLANDA 66
2.4 MODELO REFINADO DE CICLO