Qualidade de dados na web

Slides:



Advertisements
Apresentações semelhantes
Prof. Stavros P. Xanthopoylos
Advertisements

Open Archives Initiative Algumas definições ( Trata-se de uma iniciativa para desenvolver e promover padrões de interoperabilidade.
Open Archives Iniciative: o novo paradigma do acesso livre à informação e acesso democrático ao conteúdo Salvador, BA Setembro, ª Reunião de Coordenação.
ISO Processos do Ciclo de Vida do Software
Por Marcio Belo Mestrado em Computação PGCC/IC/UFF
Validação de Requisitos
Ferramentas da Qualidade 5 Sensos PDCA/MASP
Garantia de Qualidade do software
INFORMAÇÕES INFORMAIS NA MONITORAÇÃO DO AMBIENTE ORGANIZACIONAL:
Parte III – Engenharia de Software para Autonomic Computing Seminários 2007 – 2º Semestre Maíra Gatti.
CK 119: Engenharia de Software DC/CC/UFC © Rossana Andrade, Setembro CK119: Engenharia de Software Rossana Andrade Ph.D, SITE, University of Ottawa,
21-jun-2007Fórum de Documentos Digitais: Gestão x Legislação1 Novos caminhos para a preservação de documentos digitais: repositórios digitais confiáveis.
Arquitetura de Aplicações Web
Sistemas de Informação Gerencial para microfinanças
Ontologia para Sistemas Configurarionais Urbanos
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Sistemas de Computação Desenvolvimento e Avaliação de Algoritmos.
Reutilização de Software
- GQM – Goal/Question/Metric
Filipe Ferraz Salgado Orientador: Francisco Reverbel Tipo de Trabalho: Estágio Supervisionado Após a criação do pacote com a versão 3.1 do jBPM, surgiu.
Práticas da Gestão do Conhecimento e Ferramentas Computacionais aplicadas aos Processos da Comunicação Científica Domingos Bernardo Gomes Santos, Josemir.
FERRAMENTA PARA ANÁLISE DE IMPACTO BASEADO EM RASTREABILIDADE DE
Visão Geral do Desenvolvimento de Sistemas e Papéis no Desenvolvimento de Software Marcely Dias
Gerenciamento de Requisitos com Casos de Uso
Engenharia de Software
UFRPE – Modelos de Qualidade Teresa Maciel
JONAS MENDES CONSTANTE
Qualidade de Produto de Software
RUPinho Qualidade de Software
Planejamento Integrado de Sistemas de Infraestrutura Urbana
Universidade São Marcos Curso: Gestão de Negócios Internacionais
Treinamento do Microsoft® Access® 2010
IEEE Std IEEE Melhores Práticas para Especificações de Requisitos de Software (ERS)
Metolodogia de Desenvolvimento de Data Warehouse
Algoritmos 1º Semestre Materia: Informática Profº: Cristiano.
MapReduce Conceitos e Aplicações
Análise e Projeto de Sistemas
Introdução à Qualidade
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
Prof. Alexandre Vasconcelos
Modelos de Maturidade de Processos de Software
1 My GRID: Bio-informática personalizada em uma grade de informação. Francisco Silva
Apresentação para grupo do ISEG
Comunidades Virtuais de Aprendizagem
Porque um novo ambiente?. Interação inter-grupos  A maioria das ferramentas existentes provê interação dentro do grupo. Na concepção adotada nessa proposta.
TVDesigner Uma Ferramenta para Criação de Aplicações MHP Interativas para TV Digital Orientador: Prof. Ph.D. Carlos André Guimarães Ferraz Aluno: Djaci.
Teste de Software Conceitos iniciais.
ISO Processos do Ciclo de Vida do Software
Qualidade de Software Aula 4
Objetivos do Capítulo Explicar a importância da implementação de processos e tecnologias de gerenciamento de dados numa organização. Explicar as vantagens.
Engenharia de Software
Requisitos de Software
Sumarização Ontologias Paulo Orlando V. Q. Sousa.
Documento de Visão do Data WareHouse
IEEE Melhores Práticas para Descrições de Projeto de Software (DPS)
AVALIAÇÃO DE PROCESSOS DE SOFTWARE
Uso de Ontologias em Data Warehousing
Qualidade de Produtos de Software
Gestão da Produção e Logística
RESPOSTAS A INCIDENTES E PLANO DE CONTINUIDADE DE NEGÓCIOS
Análise e Projeto de Sistemas Análise e Projeto de Sistemas Aula 2 Professor: Italo Rodrigues Castro.
Janeiro/2013 Ceça Moraes Data Warehouse Janeiro/2013 Ceça Moraes
Lenylda Albuquerque ISO Processos de Ciclo de Vida de Software Universidade Federal de Pernambuco.
Prof. Paulo Barreto  O gerenciamento da informação, segundo Davenport (1997), é um conjunto estruturado de atividades que espelha.
ISO A ISO é uma evolução das série de normas ISO/IEC 9126 e e tem com objetivo principal fornecer uma visão geral do produto de software.
GESTÃO DA QUALIDADE TOTAL
Processos de Software Ludimila Monjardim Casagrande 1º Semestre Desenvolvimento e Qualidade.
AULA 04 PRODUÇÃO DE CONHECIMENTO. Um desafio empresarial crítico com o qual nossos clientes se defrontam é a necessidade de melhorar significativamente.
INTELIGÊNCIA EMPRESARIAL Aula 8 - Metadados e Operações OLAP.
ONTOLOGIAS NO CONTROLE DA ADAPTAÇÃO AO CONTEXTO EM ESPAÇO UBÍQUO ONTOLOGIAS NO CONTROLE DA ADAPTAÇÃO AO CONTEXTO EM ESPAÇO UBÍQUO Nelsi Warken, Luiz A.
QUALIDADE DE DADOS EM SISTEMAS DE INTEGRAÇÃO DE DADOS VÍTOR ARRAIS DE SÁ SEMINÁRIO IDW– Cin/UFPE
Transcrição da apresentação:

Qualidade de dados na web Filipe Fernando Cabral de Melo Souza

Roteiro Qualidade Qualidade de dados Qualidade de dados na web Critérios da qualidade de dados Qualidade de dados na web Aspectos específicos Proveniência de dados Importância da proveniência na qualidade de dados Modelos de proveniência de dados

Qualidade Segundo Burgess et al. (2004) quase todo mundo sabe o que é, mas poucos conseguem definir Conceito abstrato Diferentes interpretações em diferentes ocasiões

Principais definições de qualidade na literatura JURAN (1990) define qualidade como satisfação do cliente e ausência de defeitos. Ou seja, qualidade não se resume a falta de defeitos, qualidade depende também das necessidades do cliente e da adequação do produto ao uso.

Principais definições de qualidade na literatura “Qualidade é tudo aquilo que melhora o produto do ponto de vista do cliente” (DEMING, 1993). Então, a percepção que o cliente tem do produto também interfere na qualidade.

Principais definições de qualidade na literatura “Qualidade é a conformidade do produto com as especificações” (CROSBY, 1979). Isso significa que as necessidades devem ser especificadas, e a qualidade é possível quando essas especificações são obedecidas.

Principais definições de qualidade na literatura “Qualidade é uma característica intrínseca e multifacetada de um produto. A relevância de cada faceta pode variar com o contexto e ao longo do tempo, pois as pessoas podem mudar seus posicionamentos e atualizar seus referenciais, com relação a um objeto ou a uma questão. Portanto, a qualidade não é absoluta e depende da perspectiva do avaliador” (BELCHIOR, 1992).

Qualidade de dados O conceito de qualidade de dados indica o quanto as fontes de dados atendem às demandas de informação das áreas de negócio. Isso envolve conhecer a qualidade atual de dados, determinar a qualidade desejada de dados e ajustar a qualidade atual em função da desejada (FILHO, 2003).

Qualidade de dados Área de estudo recente que vem crescendo consideravelmente Conceito multidimensional Muito importante atualmente Grande volume de dados Frequência de atualização da informação Diversas fontes

Qualidade de dados É um conceito complexo Varias definições para expressar este conceito Não se chegou a um consenso sobre um conjunto de critérios Os critérios usadas para avaliar qualidade variam com o contexto Fontes de dados Necessidade e percepção do usuário Formato dos dados Aplicação dos dados Isso dificulta a definição de um conjunto de características gerais para definir qualidade de dados e faz com que seja necessário analisar cada caso Mas ainda é importante conhecer as características gerais

Critérios de qualidade de dados Primeira etapa na avaliação da qualidade é a seleção dos critérios Os critérios mais citados na literatura são: Acurácia Completude Consistência Confiabilidade Corretude Relevância Atualidade

Critérios da qualidade de dados sob a visão dos principais autores WAND & WANG (1996) dividem o conjunto de critérios de qualidade em dois grupos: Visão interna: confiabilidade, temporalidade, completude, atualidade, consistência e precisão Visão externa: relevância, conteúdo, importância, temporalidade, suficiência, facilidade de uso, utilidade, concisão, clareza, nível de detalhe

Critérios da qualidade de dados sob a visão dos principais autores Para ECKERSON (2002), os dados não precisam estar completamente livres de erros, ele precisa apenas atender aos requisitos do usuário. Os principais critérios para ele são: Acurácia Integridade Consistência Completude Disponibilidade Acessibilidade Relevância

Critérios da qualidade de dados sob a visão dos principais autores Wang e Strong (1996) definiu uma tabela contendo os critérios de qualidade de dados segundo os consumidores: Categoria Critérios Intrínseca Acurácia, objetividade, confiabilidade e reputação Acessibilidade Acessibilidade e segurança Contextual Relevância, valor agregado, temporalidade, completude e quantidade apropriada Representacional Facilidade de interpretação, facilidade de entendimento, consistência e concisão

Qualidade de dados na web Por causa da natureza diferente da web, é importante analisar com mais cuidado algumas características, pois elas podem tornar necessário modificações no conjunto geral de critérios

Aspectos específicos Grande volume de dados Facilidade de prove dados Diversas fontes Falta de revisão nos dados publicados Dinâmica de atualização Disponibilidade dos dados

Proveniência Termo usado em diversas áreas Diz respeito a origem ou procedência Agrega valor e autenticidade ao objeto Permite compreensão e avaliação com maior precisão a importância do objeto Tem como principal fundamento recolher e armazenar informações sobre o objeto

Proveniência de dados Proveniência de dados é documentação complementar de um determinado dado que contem a descrição de como, quando, onde e porque ele foi obtido e quem o obteve. (BUNEMAN et al, 2000)

Proveniência de dados Vai muito além da origem do dado Documentação histórica do dado Criador do dado Origem do dado Objetivo do dado Processo de criação Histórico de modificações Dados de origem Histórico de movimentação entre bancos de dados

Importância e aplicação da proveniência de dados A proveniência é uma métrica de qualidade importante, pois além de se garantir maior confiança por saber onde e quem produziu o dado, ainda informa como foi o processo de produção, manutenção e por onde o dado passou. Fica mais fácil de verificar Erros nos dados Contexto da criação do dado Processo para obter o dado É uma ferramenta importante Qualidade de dados Replicação de dados Investigação de origem

Modelos de Proveniência de dados Existem vários modelos Cada um com objetivos e focos diferentes Tem como objetivo Nem sempre dados tem informações históricas vinculadas Fornecer estrutura pra armazenar e recuperar metadados

Modelos de Proveniência de dados Exemplos de Modelos de proveniência Provenance Vocabulary Provenir Ontology Open Provenance Model (OPM)

Provenance Vocabulary Descrito por Hartig e Zhao (2010) Tem como foco proveniência de dados publicados na web Leva em consideração o caráter aberto da web Fornece propriedades armazenar e acessar metadados de dados publicados Flexível Núcleo central expansível Possibilidade de se adaptar a diferentes áreas Possui os elementos básicos de proveniência Ator Processo Dado Expresso em forma de grafos Voltado para rastreamento de dados e na web e avaliação de qualidade desses dados

Provenir Ontology Proposto por Sahoo e Sheth (2009) Modelo de proveniência de dados genérico Tem como objetivos principais Interoperabilidade entre diferentes sistemas Adaptação para qualquer aplicação Flexível Expresso em forma de grafos

Open Provenance Model (OPM) Open Source Resultado de uma série de encontros chamados Provenance Challenge Voltado para proveniência de qualquer objeto Tem como objetivo principal Interoperabilidade entre diferentes sistemas Definir de forma precisa proveniência Fornecer representação digital de proveniência Permitir o acesso a essa representação Expresso através de grafos Base para outros modelos PROV-DM

Considerações finais Qualidade de dados é um tema recente Cada vez mais surge a necessidade de obter dados de qualidades para embasar decisões Empresa Academia Usuários Não se tem uma definição padronizada ainda Dificuldade devido a variação de qualidade de acordo com o contexto Características como a da web devem ser levada em conta na hora de definir critérios de qualidade

Considerações finais Proveniência de dados é toda uma documentação histórica sobre o dado Tem como objetivo Agregar valor e autenticidade ao dado Garantir replicabilidade Rastrear origem Analise de qualidade de dados Modelos de proveniência fornecem uma estrutura pra a analise de qualidade de dados

Referências Almeida, F. Descrição da Proveniência de Dados para Extração de Conhecimentos em Sistemas de Informação de Hemoterapia. Tese apresentada ao Programa Interunidades em Bioinformática. USP, São Paulo, 2012. Amaral, G. AQUAWARE: Um Ambiente de Suporte à Qualidade de Dados em Data Warehouse. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 2003. Batini, C.,Scannapieco, M. Data Quality Concepts, Methodologies and Techniques. New York, Springer, 2006. Barros, R. Qualidade de Informação na Web: Um Prognóstico Fuzzy Baseado em Metadados. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 2009. Belchior, A. Controle da Qualidade de Software Financeiro. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 1992. Buneman, P., Khanna, S., Tan, W. Data Provenance: Some Basic Issues. In FST TCS 2000: Proceedings of the 20th Conference on Foundations of Software Technology and Theoretical Computer Science, 2000.

Referências Burgess, M., Gray, W., Fiddian, N. Quality measures and the information consumer. International Conference on Information Quality, 2004, MIT. Proceedings. Cambridge: MIT, 2004. Crosby, P. Quality is free. New York: Mcgraw-Hill, 1979. Filho, J. Transformando Dados Corporativos em Inteligência Competitiva, 1999. Disponível em: http://www.crdshop.com.br/files/artigo131.pdf. Ultimo acesso: 23/11/2014. Hartig, O., Zhao, J. Publishing and consuming provenance metadata on the web of linked data. Provenance and Annotation of Data and Processes, Springer Berlin Heidelberg, 2010. Juran, J. Planejando para a qualidade. São Paulo: Pioneira, 1990. Moreau, L., Groth, P., Miles, S., Vazquez-Salceda, J., Ibbotson, J., Jiang, S., Munroe, S., Rana, O., Schereiber, A., Tan, V., Varga, L. The Provenance of eletronic data. Communications of the ACM 2007, 2007. NBR ISO 8402: Gestão da qualidade e garantia da qualidade, 1994. Paula, R. Proveniência de Dados em Workflows de Bioinformática. Dissertação de Mestrado. UnB, Brasília, 2012.

Referências Sahoo, S., Sheth, A. Provenir ontology: Towards a framework for escience provenance management. Microsoft eScience Workshop, Microsoft Research, v. 1, 2009. Santos, I. Uma proposta de governança de dados baseada em um método de desenvolvimento de arquitetura empresarial. Dissertação de Mestrado. UFRJ, Rio de Janeiro, 2010. Simmhan, YL., Plate, B., Gannon, D. A Survey of Data Provenance Techniques. Em Technical Reports TR-618: Computer Science Department; Indiana University, 2005. Tillman, H. Evaluating Quality on the Net, 2003. Disponível em: http://www.hopetillman.com/findqual.php. Ultimo acesso: 23/11/2014. Veregin, H., Lanter, D. Data Quality Enhancement Techniques in Layer-Based Geographic Information Systems. Computers, Environment and Urban Systems, 1995. Wand, Y., Wang, R. Data Quality Dimensions in Ontological Foundations. Communications of the ACM. v. 39, n. 11. November, 1996. Wang, R., Strong, D. Beyond accuracy: what data quality means to data consumers, Journal of Management Information Systems, 1996.