A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008.

Apresentações semelhantes


Apresentação em tema: "Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008."— Transcrição da apresentação:

1 Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008

2 2 Agenda Tema Sistema classificação ACM Objectivos Cronograma Tese Cronograma Tese – Detalhes Sistema de recolha automática de documentos Lista Referências mais relevantes Reuniões Acompanhamento Fim & Perguntas 9/6/2015

3 3 Tema Sistema para classificação automática de documentos segundo a ontologia ACM Tese integrada no projecto: Abordagem Computacional para Definição de Perfis de Organizações de Investigação Científica a partir de Ontologias, PTDC/EIA/69988/2006 9/6/2015

4 4 Sistema classificação ACM 9/6/2015 Nível 4Nível 3Nível 2Nível 1Raiz CCS98A. General LiteratureA.0 GENERAL Biographies / autobiographies Conference proceedingsGeneral literary works A.1 INTRODUCTORY AND SURVEY A.2 REFERENCEA.m MISCELLANEOUSB. HardwareB.0 GENERAL B.1 CONTROL STRUCTURES AND MICROPROGRAMMING B.1.0 General B.1.1 Control Design Styles Hardwired control [**] Microprogrammed logic arrays [**] Writable control store [**]... Figura 1 – Extracto do Sistema de classificação ACM versão 1998

5 5 Objectivos 9/6/2015 Desenvolvimento de sistema de recolha automática de documentos classificados segundo a ontologia ACM Estudo de alguns algoritmos de classificação automática de textos e métricas de avaliação Desenvolvimento de um sistema de classificação automática de documentos Aplicação do sistema desenvolvido a publicações de organizações de investigação científica

6 6 Cronograma Tese 9/6/2015 1 Março Início 1 Março - 15 Abril Recolha Documentos 15 Abril – 30 Abril Escrita Relatório 1 Maio – XX Julho Estudo, experimentação, avaliação algoritmos classificação automática

7 7 Cronograma Tese - Detalhes 9/6/2015 1 semanaPesquisa e elaboração de estratégia para atingir os objectos da tese 5 semanas Implementação do sistema que permite a recolha de documentos classificados segundo o sistema de classificação ACM 2 semanasEscrita relatório relacionado com as actividades anteriores 2 semanasLevantamento bibliográfico sobre algoritmos de classificação automática de textos 3 semanas Implementação de alguns algoritmos de classificação automática de textos estudados no ponto anterior e aplicação 1 semanas Levantamento bibliográfico sobre medidas de avaliação de textos classificados automaticamente 2 semanas Implementação de algumas medidas de avaliação aplicadas aos resultados da classificação automática 3 semanasEscrita de Relatório TOTAL: 19 semanas

8 Trabalho já Realizado

9 9 Sistema de recolha automática de documentos 9/6/2015 URLServer Lista Páginas docId,URL Crawler Archiver Cópia em disco Página Meta dados Extractor URLResolver Anchors Ancoras URLs Ancoras Palavras- chave Nomes próprios Status docID URL docID URL Web URL Página docID URL Page docID URL Page docID URL Page docID URL Page Status Proceedings

10 10 Trabalhos Científicos & Lista Referências 9/6/2015 Brin, S., & Page, L. (1998). The Anatomy of a Large-Scale Hypertextual Web Search Engine. In Proceedings of the seventh international conference on World Wide Web 7 WWW7 / Computer Networks, 30, pp. 107-117. Hongkun Zhao, Weiyi Meng, Clement Yu; Automatic Extraction of Dynamic Record Sections From Search Engine Result Pages; VLDB ‘06, September 12–15, 2006, Seoul, Korea. Cordeiro, J. P. (2003). Extracção de Elementos Relevantes em Texto/Páginas da World Wide Web. Tese para obtenção do grau de Mestre, Faculdade de Ciências da Universidade do Porto, Porto. Bastos, V. M. (2006). KNOWLEDGE DISCOVERY ENVIRONMENT IN THE WEB. Tese para obtenção do grau de Doutor em Ciências, Universidade Federal do Rio de Janeiro, COPPE, Rio de Janeiro.

11 11 Reuniões Acompanhamento 9/6/2015 DataAssunto 21 de Abril de 2008 Estado da recolha dos dados dos proceedings Pontos relacionados com o inicio da escrita do relatório referente à 1º fase do projecto 11 de Abril de 2008 Exposição do problema “leak memory” encontrado na implementação que não permitia a aplicação correr durante longos períodos de tempo. Ferramentas estudadas e usadas para corrigir o problema 04 de Abril de 2008 Criação da aplicação que carrega de um ficheiro XML para uma tabela os dados da árvore de classificação ACM. Descrição e justificação da estrutura seguida para a tabela Resolução para o facto do motor de base dados MySql não libertar o espaço ocupado em disco quando se eliminam registos ou tabelas (isto acontece quando as tabelas são do tipo InnoDB) A necessidade efectuar logs mais detalhados e não apenas dos erros e avisos Reestruturação dos métodos implementados de modo a que métodos comuns a várias classes fossem agrupados numa classe e através do mecanismo de herança criar novas classes Exposição das páginas Web que a aplicação irá percorrer até chegar às informações desejadas (artigos / proceedings) 28 de Março de 2008 21 de Março de 2008Feriado 14 de Março de 2008Desenho e implementação do sistema de recolha e extracção de informação 07 de Março de 2008Análise do site e estratégia para extracção de informação do site ACM 03 de Março de 2008Estratégia geral para atingir os objectivos da tese

12 12 FIM Perguntas ? 9/6/2015


Carregar ppt "Nº Aluno: 1000313 Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008."

Apresentações semelhantes


Anúncios Google