A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

AGREGADOR AUTÔNOMO DE CONTEÚDO WEB Rafael Marchioli Bernardes Wagner Ferreira dos Santos Júnior Wilson Massashiro Yonezawa.

Apresentações semelhantes


Apresentação em tema: "AGREGADOR AUTÔNOMO DE CONTEÚDO WEB Rafael Marchioli Bernardes Wagner Ferreira dos Santos Júnior Wilson Massashiro Yonezawa."— Transcrição da apresentação:

1 AGREGADOR AUTÔNOMO DE CONTEÚDO WEB Rafael Marchioli Bernardes Wagner Ferreira dos Santos Júnior Wilson Massashiro Yonezawa

2 O BJETIVO Desenvolver um sistema computacional capaz de agregar informações de ofertas de compras coletivas através apenas da analise do código HTML/Javascript/CSS padrão web, agrupando-as de acordo com as caracteristicas da oferta apresentada.

3 Classificador Scraper BD

4 C RAWLER

5 A RQUITETURA DO CRAWLER

6 CRAWLERS Crawler sequencial Seeds é qualquer lista de URLs A ordem das paginas visitadas é definida pela arquitetura do frontier Criterio de parada pode ser qualquer.

7 D ATA CLEANING Data cleaning Remove referências irrelevantes e campos nos logs. Remove referências criada pela navegação do crawler Remove referências erradas Adiciona referências perdidas devido a sessionization.

8

9 C LASSIFICADOR Integração XML. Criação de template manual. Modelo de extração autonomo.

10 ID da oferta Rio de Janeiro Endereço da oferta Título da oferta Preço Real Preço Final Desconto Porcentagem URL da imagem Nome do site da oferta URL da oferta Data de início da oferta Data do término da oferta Categoria da oferta Número de ofertas vendidas

11 M ANUAL Extensão Chrome. Capaz de navegar o DOM e estrair um template da info selecionada. Armazena o template. Requesita o dado baseado no template.

12 12 E XTRAÇÃO A UTONOMA Cada extração é feita utilizando-se 2 regras, uma start rule e uma end rule. As regras de extração são baseadas em landmarks. Cada landmark é uma sequência tokens consecutivos. Landmarks são usados para localizar o inicio e o fim de cada item. Regras usam landmarks

13 13 E XEMPLO : Good Noodles. A regra R1 pode identificar o início: R1 : SkipTo ( )// start rule Com essa regra o sistema varre a pagina do início até encontrar a tag, que é um landmark. Para identifcar o fim: R2 : SkipTo ( ) // end rule

14 R EGRAS NÃO SÃO ÚNICAS Por exemplo, outras regras podem ser usadas para encontrar o início da palavra: R3 : SkiptTo (Name _ Punctuation_ _ HtmlTag_ ) ou R4 : SkiptTo (Name) SkipTo ( ) R3 pula-ra tudo ate encontrar Name seguido por uma pontuação e uma tag HTML. Name _Punctuaion_ e _HtmlTag juntos formam um landmark.

15 R EGRAS DE EXTRAÇÃO Como o Stalker(Modulo que compara os dados e cria os templates) aprende as regras para encontrar um item. Em cada iteração ele aprende uma regra que cobre o maior número de exemplos positivos sem ter nenhum exemplo negativo. Uma vez que um exemplo positivo é coberto por uma regra, este exemplo é removido. O algoritmo termina quando todos os exemplos positivos foram removidos e o resultado é uma lista com todas as regras aprendidas.

16 P ARSING HTML tem uma estrutura de árvore DOM (Document Object Model) HTML geralmente possui erros Crawlers, assim como browsers, devem ser robustos Mas existem ferramentas para ajudar E.g. tidy.sourceforge.nettidy.sourceforge.net Cuidado com os diversos outros formatos Flash, SVG, RSS, AJAX…

17 F RONT E ND

18

19

20 A PLICATIVO C HROME Possível seleção dos parâmetros a serem selecionados. Usuário seleciona na tela qual será a informação a ser gravada e em seguida seleciona na extensão onde grava-la Ao final exporta-se um arquivo contendo os caminhos que foram selecionados, tornando possível coleta-los automaticamente da próxima vez.

21

22

23 B IBLIOGRAFIA : YU, Liyang. A Developers guide to the Semantic Web. Springer 1st Edition., 2011 Web Semântica. Disponível em: Acesso em : 16 março 2011.http://pt.wikipedia.org/wiki/Web_semantica SYCARA, Katia; PAOLUCCI, Massimo; ANKOLEKAR, Anupriya; SRINIVASAN, Naveen. Automated discovery, interaction and composition of Semantic Web services. Carnegie Mellon University, 18 julho 2003 BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The Semantic Web: A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities, 17 Maio 2001 LIU, Bing. Web Data Mining Exploring Hyperlinks, Contests, and Usage Data. Springler-Verlag Berlin Heidelberg, 2007 WITTEN, Ian H.; FRANK, Eibe; HALL, Mark A..Data Mining:Practical Machine Learning tools and techniques, 2011

24 F IM


Carregar ppt "AGREGADOR AUTÔNOMO DE CONTEÚDO WEB Rafael Marchioli Bernardes Wagner Ferreira dos Santos Júnior Wilson Massashiro Yonezawa."

Apresentações semelhantes


Anúncios Google