Encontre milhões de e-books, audiobooks e muito mais com um período de teste gratuito

Apenas $11.99/mês após o término do seu período de teste gratuito. Cancele a qualquer momento.

Guia Prático para Publicação de Dados Abertos Conectados na Web
Guia Prático para Publicação de Dados Abertos Conectados na Web
Guia Prático para Publicação de Dados Abertos Conectados na Web
E-book370 páginas2 horas

Guia Prático para Publicação de Dados Abertos Conectados na Web

Nota: 0 de 5 estrelas

()

Ler a amostra

Sobre este e-book

O livro Guia Prático para Publicação de Dados Abertos Conectados na Web é resultado de estudos realizados durante um estágio pós-doutoral, na Alemanha, e de práticas aplicadas em disciplinas de graduação, projetos de pesquisa e projetos de iniciação científica. O livro é dividido em duas partes. Os três primeiros capítulos discorrem a respeito dos Dados Abertos Conectados, melhores práticas, metodologias e tecnologias empregadas para a disseminação de seus recursos na Web de Dados. Os demais sete capítulos têm um enfoque prático e exploram um estudo de caso de publicação de dados na Web de Dados, baseando-se na metodologia Linked Data Lifecycle e em tecnologias do Linked Data Stack. A cada capítulo, tecnologias são apresentadas e empregadas, de modo a realizar: (i) a aquisição e a limpeza de dados primários; (ii) a conversão dos dados tratados em recursos conforme as melhores práticas da Web Semântica; (iii) a publicação dos recursos de dados na Web de Dados; (iv) a interligação dos dados publicados com outros dados oriundos da Wikipedia; e (v) a exploração/visualização dos recursos publicados. Com uma abordagem metodológica e tecnológica, este guia é uma obra indicada a cientistas da informação, cientistas da computação e demais profissionais que almejam aprofundar seus conhecimentos sobre temas relacionados a Web Semântica, Web 2.0 e Web de Dados.
IdiomaPortuguês
Data de lançamento4 de fev. de 2019
ISBN9788547320164
Guia Prático para Publicação de Dados Abertos Conectados na Web

Relacionado a Guia Prático para Publicação de Dados Abertos Conectados na Web

Ebooks relacionados

Métodos e Materiais de Ensino para você

Visualizar mais

Artigos relacionados

Avaliações de Guia Prático para Publicação de Dados Abertos Conectados na Web

Nota: 0 de 5 estrelas
0 notas

0 avaliação0 avaliação

O que você achou?

Toque para dar uma nota

A avaliação deve ter pelo menos 10 palavras

    Pré-visualização do livro

    Guia Prático para Publicação de Dados Abertos Conectados na Web - Sandro Rautenberg

    COMITÊ CIENTÍFICO DA COLEÇÃO EDUCAÇÃO, TECNOLOGIAS E TRANSDISCIPLINARIDADE

    AGRADECIMENTOS

    Esta obra é uma realização do Grupo de Pesquisa Laboratório de Aplicações Semânticas e Distribuídas (LASeD¹) da Universidade Estadual do Centro-Oeste (Unicentro²). Também é fruto de um trabalho de pesquisa preliminar realizado junto ao Instituto Agile Knowledge and Semantic Web (AKSW³).

    Por isso, algumas entidades merecem menção de agradecimento.

    Primeiramente, à Comissão de Aperfeiçoamento de Pessoal do Nível Superior (Capes) pelo incentivo financeiro despendido para realização de um estágio de pós-doutoramento, na Universidade de Leipzig - Alemanha (processo número 18228-12-7).

    Ao AKSW, em especial, aos professores Dr. Sören Auer, Dr. Jens Lehmann, Dr. Axel-C. Ngonga Ngomo, pelos valiosos ensinamentos e disponibilidade/desenvolvimento das ferramentas utilizadas neste livro.

    À Fundação Araucária⁴ pelo suporte financeiro no projeto de pesquisa Modelo para Compartilhamento de Informações sobre Pesquisas baseado em Linked Open Data para Estudos Cientométricos (processo número FA 601/2014).

    À Unicentro e ao Departamento de Ciência da Computação pelo apoio ao Grupo LASeD por acreditar que esta obra seria possível.

    Especialmente agradecemos a Deus, por estar sempre iluminando nossos caminhos e nos apoiando nos momentos difíceis.

    E às nossas famílias e amigos, que nos deram todo apoio necessário, nos momentos em que abdicamos deles, para nos dedicarmos à elaboração deste livro.

    APRESENTAÇÃO

    Este livro tem como objetivo principal apoiar o leitor nas principais atividades e tarefas para publicação de Dados Abertos Conectados (Linked Open Data – LOD) na web segundo a metodologia Ciclo de Vida de Dados Conectado (Linked Data Lifecycle), abordando de forma prática desde a geração até a publicação dos dados na web. Este material destaca-se na literatura porque faz uso de uma metodologia bastante utilizada e apresenta, passo a passo, cada uma de suas principais atividades e tarefas. São feitas demonstrações em um estudo de caso real envolvendo a geração e a publicação de dados abertos, o qual pode ser tomado como base para geração e publicação de outros conjuntos de dados na Web Semântica. Este estudo de caso real baseia-se em um conjunto de dados abertos intitulado Aeroportos Brasil. Com propósito de instrução, os dados foram obtidos a partir do sítio do Centro de Previsão do Tempo e Estudos Climáticos - CPTEC/INPE em (http://bancodedados.cptec.inpe.br/). Esses são utilizados somente como massa de dados para publicação na web e desenvolvimento de consultas.

    O livro encontra-se dividido em duas partes. A primeira parte contém três capítulos descrevendo sobre dados abertos conectados e suas tecnologias, conforme descrito na sequência.

    O primeiro capítulo apresenta uma introdução sobre dados abertos conectados, abordando: i) as motivações para publicar dados abertos conectados; ii) a terminologia e classificação 5 Estrelas (5Star); iii) as tecnologias usadas na web de dados, descrevendo a linguagem usada para descrição de recursos na web intitulada Resource Description Framework (RDF); iv) as notações RDF/XML, Turtle e N-Triples, abordando também sobre a Linguagem de Ontologia da Web (OWL) e a linguagem de desenvolvimento de consultas na forma de triplas RDF (SPARQL Protocol and RDF Query Language - SPARQL); e v) as Melhores Práticas (MPs) propostas pelo Consórcio World Wide Web - W3C para publicação de dados na web.

    O segundo capítulo aborda as principais metodologias para publicação de dados abertos conectados, descrevendo as seguintes: i) Diretrizes metodológicas para publicação de dados conectados governamentais; ii) Dados abertos da Irlanda; e iii) Modelo refinado de ciclo de vida para dados abertos conectados.

    O terceiro capítulo descreve, especificamente, a metodologia seguida neste livro, intitulada Ciclo de Vida de Dados Conectados, contemplando oito estágios e um conjunto de ferramentas para uso em cada uma das atividades do ciclo de vida de dados conectados.

    A segunda parte contém sete capítulos (capítulo 4 ao capítulo 10), descrevendo sobre a publicação na web de dados. Os capítulos exploram um estudo de caso para publicação de dados a respeito dos aeroportos brasileiros e suas estações meteorológicas, permitindo um aproveitamento mais intuitivo. Os capítulos são descritos na sequência.

    O quarto capítulo descreve sobre as Melhores Práticas e os benefícios obtidos com seu uso. O quinto capítulo descreve a extração de dados na web. O sexto capítulo aborda a evolução dos dados com o uso da ferramenta OpenRefine. O sétimo capítulo descreve sobre o armazenamento dos dados e a geração do grafo RDF no Triple Store OpenLink Virtuoso. O oitavo capítulo aborda a Linguagem de Consulta SPARQL, sendo este capítulo mais extenso, pois apresenta um vasto conjunto de exemplos codificados, explorando as características da linguagem, como o uso de filtros com operadores lógicos e relacionais para adicionar restrições. Envolve a descrição de exemplos de consultas, desde as mais simples até algumas mais avançadas. O nono capítulo aborda a interligação dos dados com outros dados na web fazendo uso da ferramenta LIMES (acrônimo de Link Discovery Framework for Metric Spaces). E, por fim, o décimo capítulo apresenta a criação de uma interface no padrão Model View Controller - MVC, utilizando a API Jena.

    Além dos 10 capítulos, este livro apresenta quatro apêndices. O primeiro apêndice enumera o material de apoio do livro, descrevendo os arquivos auxiliares utilizados durante o desenvolvimento do estudo de caso. Os apêndices 2, 3 e 4 contêm informações a respeito da instalação das ferramentas OpenRefine, OpenLink Virtuoso e LIMES no sistema operacional Linux Ubuntu 12.04.

    Esperamos que este livro seja útil a todos que estejam trabalhando com dados abertos conectados no contexto da Web Semântica.

    Boa leitura a todos!

    Os autores

    PREFÁCIO

    Como previsto por Jim Gray em 2007, o quarto paradigma da ciência se faz cada dia mais presente nas ações do mundo atual. A maneira de se fazer ciência já foi empírica, posteriormente utilizou-se de modelos teóricos. Mais recentemente, recorreu a simulações computacionais, chegando definitivamente ao uso de dados, no que pode representar novos caminhos para tomadas de decisões, rearranjo das pesquisas e novas perspectivas no desenvolvimento da humanidade.

    A humanidade passou a gerar dados em grande volume e com velocidade antes inimaginável, e é justamente no contexto do uso desses dados que se vislumbra entender melhor como as pessoas executam suas ações e tomam suas decisões, de forma que possamos melhorar a maneira de se viver, resolvendo problemas antes não compreendidos.

    Se a Internet na palma da mão, o acesso fácil a dispositivos eletrônicos, a evolução e o aumento de uso de sensores dos mais variados têm facilitado a geração de dados, há uma latente necessidade de se organizar esses dados, melhorando o entendimento sobre eles, criando significado, interligando e, principalmente, disponibilizando-os de forma aberta e semântica, para que possam ser consumidos com aproveitamento de todo seu valor.

    Tim Berners-Lee em 2001, com conceitos e técnicas para Web Semântica, e depois em 2006, com a proposta do Linked Data, já previa a necessidade de interoperabilidade, interligação e atribuição de significado aos dados, constituindo uma nova web.

    Por isso, Sandro Rautenberg, Lucélia de Souza, Josiane M. H. Dall’Agnol e Gisane Aparecida Michelon, todos eles integrantes do Grupo de Pesquisa Laboratório de Aplicações Semânticas e Distribuídas (LASeD) e professores da Universidade Estadual do Centro-Oeste (Unicentro), apresentam-nos esta obra: Guia prático para publicação de dados abertos conectados na web, na qual descrevem e mostram os melhores caminhos para interligar e publicar dados, de forma aberta e semântica.

    Os autores apresentam esta obra logo após receberem premiação de melhor trabalho científico no GT8 (Informação e Tecnologia) do XVIII Encontro nacional de pesquisa em ciência da informação (2017), com trabalho de tema semelhante.

    Os capítulos do livro permitem-nos conhecer mais profundamente procedimentos, processos e tecnologias como RDF, OWL e Sparql, além de ferramentas como LIMES, Virtuoso e OpenRefine.

    O primeiro capítulo – Dados abertos conectados – faz uma introdução ao tema, apresentando as principais tecnologias e abordando as Melhores Práticas para publicação e consumo de dados.

    O segundo capítulo – Metodologias para dados abertos conectados – aborda as principais metodologias utilizadas para publicar dados na web. As metodologias são constituídas a partir de um conjunto de tarefas e atividades que modelam o ciclo de desenvolvimento de dados abertos conectados.

    O terceiro capítulo – O ciclo de vida de dados conectados e suas ferramentas – compreende uma explanação sobre o Linked Data Lifecycle, um processo metodológico (e suas ferramentas) difundido pelo Instituto de Pesquisa Agile Knowledge and Semantic Web.

    O capítulo seguinte – Adoção de Melhores Práticas – abre a segunda parte do livro, com uma abordagem mais prática sobre a adoção das 35 Melhores Práticas para Publicação e Consumo de Dados na Web do W3C.

    O quinto e sexto capítulos – Extraindo dados da web e Evoluindo os Dados – apresentam os esforços para captura de dados na web e os procedimentos para elevar esses dados às terceira e quarta estrelas do esquema de Classificação de 5 Estrelas de Tim Berners-Lee. Destaca-se aqui uma completa abordagem sobre a ferramenta OpenRefine.

    O sétimo capítulo – Armazenando os dados – disserta sobre as questões de armazenamento do Ciclo de Vida dos Dados Conectados, dando ênfase e apresentando o Triple Store Virtuoso, que tem sua versão gratuita, o OpenLink Virtuoso.

    No oitavo capítulo – Consumindo os dados –, os autores apresentam uma detalhada abordagem sobre a Linguagem Sparql, realizando uma incursão sobre seu uso e suas particularidades, que levam o leitor a entender os vários tipos de consultas a tipos variados de datasets.

    O nono capítulo – Interligando dados – explica sobre os processos para elevar os dados à quinta estrela do esquema Berners-Lee, fortalecendo a ideia de contextos mais ampliados. Nesse capítulo destaca-se o uso da ferramenta LIMES (acrônimo de Link Discovery Framework for Metric Spaces) para descoberta de ligações entre recursos em fontes de dados distintas.

    O último capítulo – Criando uma interface aos dados – destina-se a realizar uma abordagem sobre como facilitar o consumo de dados abertos conectados. Utilizando-se de ferramentas como Eclipse, Apache Jena e Primefaces, os autores mostram como construir uma interface para o consumo dos dados.

    Como presente aos leitores, o livro ainda é composto no apêndice por procedimentos e dicas de como instalar as ferramentas OpenRefine e LIMES e o sistema OpenLink Virtuoso.

    Prof. Dr. José Eduardo Santarem Segundo

    santarem@usp.br

    USP/Ribeirão Preto

    Sumário

    DADOS ABERTOS CONECTADOS 19

    1.1 MOTIVAÇÕES PARA PUBLICAR DADOS ABERTOS CONECTADOS NA WEB 19

    1.2 TERMINOLOGIA E CLASSIFICAÇÃO 5 ESTRELAS 21

    1.2.1 Dados 23

    1.2.2 Dados abertos 23

    1.2.3 Dados conectados 24

    1.2.4 Dados abertos conectados 25

    1.3 TECNOLOGIAS USADAS NA WEB DE DADOS 25

    1.3.1 RDF - Linguagem para descrição de dados na web 25

    1.3.2 Notações para RDF 27

    1.3.3 O desenvolvimento de ontologias e as linguagens OWL e SPARQL 29

    1.4 MELHORES PRÁTICAS PARA PUBLICAÇÃO E CONSUMO DE DADOS NA WEB 30

    1.4.1 Metadados - Como fornecê-los para humanos e máquinas? 32

    1.4.2 Licença dos dados - Como permitir e restringir o acesso? 34

    1.4.3 Proveniência dos dados - Como adicionar confiança aos dados? 36

    1.4.4 Qualidade dos dados - Como adicionar qualidade aos dados? 37

    1.4.5 Versionamento dos dados - Como controlar versões e séries? 37

    1.4.6 Identificação dos dados - Como identificar conjuntos de dados e distribuições? 39

    1.4.7 Formatos de dados - Quais formatos de dados devem ser usados? 42

    1.4.8 Vocabulários de dados - Como melhorar a interoperabilidade dos dados? 44

    1.4.9 Acesso aos dados - Como fornecer opções de acesso? 47

    1.4.10 Preservação dos dados - Como os dados podem ser arquivados? 53

    1.4.11 Feedback - Como é possível envolver usuários? 54

    1.4.12 Enriquecimento dos dados - Como adicionar valor aos dados? 55

    1.4.13 Republicação - Como reusar dados com responsabilidade? 57

    1.5 OUTRAS FONTES DE INFORMAÇÃO 58

    1.6 RESUMO DESTE CAPÍTULO 59

    REFERÊNCIAS 60

    METODOLOGIAS PARA DADOS ABERTOS CONECTADOS 65

    2.1 O QUE IREMOS APRENDER NESTE CAPÍTULO? 65

    2.2 DIRETRIZES METODOLÓGICAS PARA PUBLICAÇÃO DE DADOS CONECTADOS GOVERNAMENTAIS 65

    2.3 DADOS ABERTOS DA IRLANDA 66

    2.4 MODELO REFINADO DE CICLO

    Está gostando da amostra?
    Página 1 de 1