Gestão e Tratamento de Informação Helena Galhardas DEI IST.

Slides:



Advertisements
Apresentações semelhantes
Integração de informação proveniente da Web
Advertisements

Computação Móvel (LEEC, MEEC, LEIC, MEIC)
Redes Móveis e Sem FiosComputação Móvel
Sistemas de Informação
Tópicos Avançados em Banco de Dados
Linguagens Formais e Autómatos
Novas Tecnologias ao Serviço da PORBASE Jornadas Porbase 11 de Dezembro de 2003.
Laboratório de Informática Introdução à Linguagem HTML
BD em.NET: Passo a passo conexão com SQL Server 1º Semestre 2010 > PUCPR > BSI Bruno C. de Paula.
Laboratório de Informática Imagens 1º Semestre 2010 > PUCPR > BSI Bruno C. de Paula.
Iniciando na plataforma Eclipse
Helena Galhardas DEI IST
Sistemas de Apoio à Decisão (SAD) Helena Galhardas
Microelectrónica Digital Ano lectivo Carlos Beltrán Almeida
Gestão de Redes e Sistemas Distribuídos Teresa Maria Vazão Julho 2005 Apresentação da disciplina IST/INESC-ID Contactos: IST/Tagus-Park
Métodos de Decisão 2008/2009 José Fernando Oliveira Maria Antónia Carravilla Mestrado Integrado em Engenharia.
XSLT e recursividade estrutural
Controlo e Aprendizagem (Ciências do Desporto e E.Especial e Reabilitação) Aula teórica 1/1 Aprendizagem e Performance Corpo Docente Mário Godinho ( Turmas.
1 Teoria da Computação 2007 / 2008 © DEI / IST 2007/2008.
XML (eXtensible Markup Language) W3C - World Wide Web Consortium Documentos TXT estruturados? Por que XML? XML, ou eXtensible Markup Language, é uma linguagem.
Introdução aos Sistemas Gerenciadores de Banco de Dados
Teoria da Computação Profa. Sandra de Amo Mestrado em Ciência da Computação 2010 – 1.
2/18/2014Mestrado em Ciencia da Computacao Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade.
Teoria da Computação Profa. Sandra de Amo Bacharelado em CC Mestrado em CC 2008 – 1.
Introdução aos Serviços Web
April 05 Prof. Ismael H. F. Santos - 1 Modulo II CheckStyle Professor Ismael H F Santos –
April 05 Prof. Ismael H. F. Santos - 1 Módulo VI – J ava Standard Template Library (JSTL) Prof. Ismael H F Santos.
April 05 Prof. Ismael H. F. Santos - 1 Módulo II Introdução a XML DTD Prof. Ismael H F Santos.
April 05 Prof. Ismael H. F. Santos - 1 Módulo II XML Processing: XSLT, SAX e DOM Prof. Ismael H F Santos.
Alunos: Benedito Jr, Douglas Bertol, Robson Costa
Fundamento de Electrónica Docente: Paulo Lopes. 2 Contacto Gabinete D637 Cacifo309.
Paulo J Azevedo Departamento de Informática
SEDNA SGBD XML NATIVO.
Arquitetura de Computadores 2011/2012 LEIC, LERC, LEE IST – Taguspark José Delgado, DEI (LEIC) Rui Neves, DEEC (LERC+LEE) José Delgado © 2012.
Métodos de Decisão 2010/2011 Maria Antónia Carravilla José Fernando Oliveira Marta Soares Rocha.
April 05 Prof. Ismael H. F. Santos - 1 Módulo IVb - JSP Prof. Ismael H F Santos.
Adicionando Escalabilidade ao Framework de Recomendação IRF
Apresentação Semestre de Inverno 2010/2011
© Introdução à programação Ano lectivo 2006/2007.
Recapitular XML... Gestão e Tratamento de Informação DEI IST.
Linguagens de interrogação de dados XML XPath
Gestão e Tratamento de Informação Helena Galhardas DEI IST.
Análise e Síntese de Algoritmos
Gestão e Tratamento de Informação 1º Semestre 2009/2010 DEI IST.
A S TECNOLOGIAS FAZEM A DIFERENÇA ? As Tecnologias e a Aprendizagem 1.
Apresentação da plataforma / LMS Moodle Vitor M. N
Encontro de Coordenadores de BE EB 2,3 e ES - Concelho de Sintra
Apresentação Semestre de Inverno 2010/2011
PETER ANTONY RAUSCH JOYCE MARTINS
Gerência de Banco de Dados 1
Modular Object-Oriented Dynamic Learning Environment
Introdução ao Hibernate
IF696 - Integração de Dados e DW
Artur Jorge da Silva Rocha – INESC Porto.  Local:  CERN – European Laboratory for High Energy Physics  Departamento:  World Wide Web Office  Divisão:
Inteligência Artificial Web Semântica
Universidade do Estado do Rio de Janeiro Instituto de Matemática e Estatística XML: Extensible Markup Language EquipeEquipe: Adriana Cristina de Oliveira.
Campus de Caraguatatuba Aula 1: Orientações Gerais
XML – Extensible Markup Language [Introdução] Renata Pontin de Mattos Fortes SCE-225 Hipermídia 2°Semestre 2003 Material elaborado por Lisandra Cazassa.
TagusPark (Carla Ferreira - TagusPark (Carla Ferreira - Apresentação Análise e Concepção de.
M e 5633-M1 Análise e Propostas (Fénix) Concepção Centrada no Utilizador 30 de Outubro de 2003 Alexandre Carvalho, 5501-M
Tópicos em Bancos de Dados: Gerência de Dados da Web Plano de Aulas 2o. Semestre de 2004.
Sistemas de Apoio à Decisão (SAD) Decision Support Systems
Apresentação de Bases de Dados Programa Bibliografia Planeamento teóricas e práticas Avaliação Corpo docente.
H. GalhardasBD 2004/05 Apresentação de Bases de Dados Programa Bibliografia Planeamento teóricas e práticas Avaliação Corpo docente.
XSLT e recursividade estrutural Helena Galhardas DEI IST.
BD05/06 Apresentação de Bases de Dados  Enquadramento  Programa  Bibliografia  Planeamento teóricas e práticas  Avaliação  Corpo docente.
Departamento de Engenharia Informática 8/28/2003José Alves Marques Sistemas Distribuídos
Java e XML Eduardo Aranha. Slogans de Java e de XML Java – “Portabilidade de Código” XML – “Portabilidade de Dados” Java e XML – “Portabilidade de Código.
INTEGRAÇÃO DE DADOS: UMA PERSPECTIVA TEÓRICA Guilherme P. K. Caminha Disciplina: IF696.
QUALIDADE DE DADOS EM SISTEMAS DE INTEGRAÇÃO DE DADOS VÍTOR ARRAIS DE SÁ SEMINÁRIO IDW– Cin/UFPE
Transcrição da apresentação:

Gestão e Tratamento de Informação Helena Galhardas DEI IST

Corpo docente Helena Galhardas (responsável e aulas teóricas) Pável Calado (aulas teóricas) Bruno Martins (laboratórios)

Organização das aulas Aulas teóricas Aulas de laboratório Grupos de três elementos inscrições na página da cadeira no Fénix iniciam-se hoje Apoio no software a ser utilizado SW open-source Apoio na resolução dos mini-projectos

Avaliação Exame (52%) 22/1/2009 5/2/ Mini-Projectos (48%), cada um vale12% Enunciado é distribuído na aula teórica Alunos têm cerca de 2/3 semanas para resolver Entrega dos alunos feita na aula teórica Solução e correcções mostradas na aula teórica Conteúdo: uma parte teórica/prática e outra de SW

Calendário Mini-Projectos MP1 Entrega enunciado: 26/9 Entrega alunos: 17/10 MP2 Entrega enunciado: 17/10 Entrega alunos: 7/11 MP3 Entrega enunciado: 7/11 Entrega alunos: 28/11 MP4 Entrega enunciado: 28/11 Entrega alunos: 11/12

Programa Gestão de dados XML Linguagens de interrogação e modificação: XPath, XSLT, XQuery, XQuery Update Armazenamento de dados XML Extracção de Informação Extracção de dados da Web Técnicas de extracção de informação a partir de texto Hidden Markov Models Ferramentas: Mallet, GATE, MinorThird, UIMA Integração de dados e esquema Global-as-view vs local-as-view Mediadores e wrappers Systems: LSD, TSIMMIS, Information Manifold Transformação e limpeza de dados Discrepâncias de esquemas e dados Detecção e eliminação de duplicados Fusão de informação

Extracção de informação 1. Extracção de dados estruturados a partir da Web (docs HTML, XML) 2. Extracção de dados estruturados a partir de texto Tb. conhecido por prospecçãod e texto (text mining) Desafios da Web: Número grande de fontes de dados Páginas Web devem ser transformadas em dados estruturados Falta de controlo sobre os dados Fontes têm restrições de entrada e saída Natureza distribuída da Web pode tornar a integração de dados mto lenta

Extracção de dados estruturados a partir de texto Como descobrir estrutura em dados não estruturados Exemplo ( Elegant redhead Nicole Kidman, known as one of Hollywood's top Australian imports, was actually born in Honolulu, Hawaii, to Anthony (a biochemist and clinical psychologist) and Janelle (a nursing instructor) Kidman.... Algumas técnicas de aprendizagem automática (Machine Learning) podem ser usadas

Gestão de dados XML XML é vastamente utilizada como linguagem de troca de dados na Internet DTD, XMLSchema, XPath, XSLT são assuntos já conhecidos A linguagem XQuery é a linguagem de interrogação de dados XML que vamos estudar aqui

Integração de dados e esquema Integrar dados oriundos de múltiplas fontes de dados heterógeneas Desafios: Acesso aos dados Resolver as diferenças existentes ao nível de esquema e dados Executar a integração de forma eficiente

Transformação e limpeza de dados Durante e após a integração, alguns problemas com os dados precisam de ser resolvidos Exemplo: Filmes (id, título, realizador, ano, ano_ult_remake) (1|Casablanca|Weir|1942|1940) (2|Dead Poets Society|Curtiz|1989|-) (3|Rman Holiday|Wylder|1953|-) (4|Casblanca|Weir|1940|1950) Detecção e eliminação de duplicados é um dos aspectos que vamos estudar

Software utilizado Pacotes de SW open source: Interrogação de dados XML, integração e limpeza de dados Saxon - Java API for XML processing, supporting SAX, DOM, XPath 2.0, XSLT 2.0 and XQuery SimPack - Java Library of similarity functions Extracção de dados da Web RoadRunner - Java Library for Automated Web Data Extraction Extracção de dados a partir de texto Minorthird - Java Library for ML-based Text Annotation and Classification LingPipe - Java Framework for General Text Mining

Bibliografia Não há um livro único Algumas partes da matéria cobertas por artigos Livros: Data on the Web: From Relations to Semistructured Data and XML Serge Abiteboul, Peter Buneman, Dan Suciu Morgan Kaufmann Publishers 2000 (4 ex. Bib IST Tagus) XQuery from the Experts: A Guide to the W3C XML Query Language Howard Katz, Don Chamberlin, Denise Draper, Mary Fernandez, Michael Kay, Jonathan Robie, Michael Rys, Jerome Simeon, Jim Tivy, Philip Wadler Addison-Wesley 2004 Data Quality: Concepts, Methodologies and Techniques Carlo Batini, Monica Scannapieco Springer 2006 (4 ex. Bib. IST Tagus)

Outras informações interessantes

Investigação na área de Gestão de Dados e Tratamento de Informação no Tagus Park/Alameda Se estiverem interessados: Grupo