A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE.

Apresentações semelhantes


Apresentação em tema: "Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE."— Transcrição da apresentação:

1 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE ESTIMATIVA DA PIW ATRAVÉS DE MOTORES DE BUSCA DE GRANDE ESCALA Autores: Antônio Soares, João Barroso, José Bulas-Cruz Universidade de Trás –os-Montes e Alto Douro, Portugal SEMINÁRIO 01 30.MARÇO.2006 APRESENTAÇÃO Alunos PGEGC Renata Jorge Vieira Marcus Grudtner Eduardo Giugliani

2 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 INTRODUÇÃO A WorldWebWide é um campo fértil de investigação e recuperação de informações A WorldWebWide é um campo fértil de investigação e recuperação de informações A indexação é, por excelência, o método que permite, de uma forma escalável e eficaz, a pesquisa da Web A indexação é, por excelência, o método que permite, de uma forma escalável e eficaz, a pesquisa da Web O foco da investigação está no enquadramento geral da Recuperação de Informação na Web e na forma como os sites de pesquisa percorrem e recolhem todo o espaço textual público e indexável da Web. O foco da investigação está no enquadramento geral da Recuperação de Informação na Web e na forma como os sites de pesquisa percorrem e recolhem todo o espaço textual público e indexável da Web.

3 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 OBJETIVOS DO ARTIGO Estudo mais aprofundado da Recuperação de Informação na Web processo antigo desafio atual Estudo mais aprofundado da Recuperação de Informação na Web processo antigo desafio atual Análise dos desafios que direcionam o desenvolvimento de sites de pesquisa de grande escala operados comercialmente, Análise dos desafios que direcionam o desenvolvimento de sites de pesquisa de grande escala operados comercialmente, Análise da forma como estes sistemas são implementados ao nível dos componentes que lhes permitem o percurso e recolhimento automático de todo o espaço Web, Público e Indexável (PIW). Análise da forma como estes sistemas são implementados ao nível dos componentes que lhes permitem o percurso e recolhimento automático de todo o espaço Web, Público e Indexável (PIW).

4 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 SOBRE A PESQUISA REALIZADA Trata-se de uma experiência cujos objetivos foram de estimar a PIW, estimar a PIW, estimar a cobertura da PIW por parte dos maiores sites de pesquisa, e estimar a cobertura da PIW por parte dos maiores sites de pesquisa, e estimar a percentagem de ligações inválidas presente nos índices desses sites de pesquisa. estimar a percentagem de ligações inválidas presente nos índices desses sites de pesquisa.

5 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 METODOLOGIA A experimentação teve por base os estudos efetuados de Lawrence e Giles e foi realizada através do programa Copernic (Inc.-2003d). A experimentação teve por base os estudos efetuados de Lawrence e Giles e foi realizada através do programa Copernic (Inc.-2003d). O método de Lawrence e Giles consiste na estimativa da PIW com base no cálculo do número de documentos sobrepostos entre pares de motores de pesquisa (Lawrence e Giles - 1998). O método de Lawrence e Giles consiste na estimativa da PIW com base no cálculo do número de documentos sobrepostos entre pares de motores de pesquisa (Lawrence e Giles - 1998).

6 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Lidar com a natureza dinâmica e heterogênea da WebLidar com a natureza dinâmica e heterogênea da Web Lidar com questões de escalabilidade (relevância) e distribuição, Lidar com questões de escalabilidade (relevância) e distribuição, Lidar com um grau de qualidade da informação muito variado,Lidar com um grau de qualidade da informação muito variado, Fazer uso da estrutura de ligações da Web para aumentar a eficiência e qualidade dos sites de pesquisa, entre outros...Fazer uso da estrutura de ligações da Web para aumentar a eficiência e qualidade dos sites de pesquisa, entre outros... OS DESAFIOS DO EXPERIMENTO

7 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Ocorreu entre Maio e Junho de 2003Ocorreu entre Maio e Junho de 2003 Sites de pesquisa selecionados: AlltheWeb (AW) Altavista (AV) Google (GG) HotBot (HB)Sites de pesquisa selecionados: AlltheWeb (AW) Altavista (AV) Google (GG) HotBot (HB) Foram analisadas ferramentas de pesquisa da Web (agentes)Foram analisadas ferramentas de pesquisa da Web (agentes) De todas as ferramentas analisadas, somente o agente Copernic obedecia aos requisitos da experimentaçãoDe todas as ferramentas analisadas, somente o agente Copernic obedecia aos requisitos da experimentação REALIZAÇÃO DA PESQUISA

8 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Interrogar os sites de pesquisa escolhidosInterrogar os sites de pesquisa escolhidos Retornar até 600 documentosRetornar até 600 documentos Detectar e eliminar URLs duplicadosDetectar e eliminar URLs duplicados Detectar e eliminar URLs inválidosDetectar e eliminar URLs inválidos Permitir a definição de um time-outPermitir a definição de um time-out Permitir definição do tamanho dos documentosPermitir definição do tamanho dos documentos Descarregar os documentos e analisar os seus termosDescarregar os documentos e analisar os seus termos Permitir a contagem dos documentos retornados para o cálculo da sua sobreposiçãoPermitir a contagem dos documentos retornados para o cálculo da sua sobreposição REQUISITOS DA EXPERIMENTAÇÃO

9 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Definição dos pares dos sites de pesquisa GG/HB, AW/GG, AW/HB, AV/HB, AW/AV, AV/GGDefinição dos pares dos sites de pesquisa GG/HB, AW/GG, AW/HB, AV/HB, AW/AV, AV/GG Seleção das interrogações a efetuar: interrogação teste: agamosenesis já utilizada em outras pesquisas 28 termos escolhidos: em inglês ( ~ 72% da PIW ) interrogações de um só termoSeleção das interrogações a efetuar: interrogação teste: agamosenesis já utilizada em outras pesquisas 28 termos escolhidos: em inglês ( ~ 72% da PIW ) interrogações de um só termo EXPERIMENTAÇÃO

10 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ANÁLISE DA EQUIPE SITES DE PESQUISA MOTORES DE BUSCA

11 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Sites de Pesquisa x Motores de Busca Sites de PesquisaSites de Pesquisa Sites que executam busca de informações em bases próprias ou não.Sites que executam busca de informações em bases próprias ou não. Motores de BuscaMotores de Busca Mecanismos para a busca e manutenção de conteúdos na internet.Mecanismos para a busca e manutenção de conteúdos na internet.

12 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Motores de Busca Definição: Mecanismo automatizado que acessa sites previamente cadastrados buscando conteúdos e, através de links encontrados, busca novos conteúdos em outras páginas.Definição: Mecanismo automatizado que acessa sites previamente cadastrados buscando conteúdos e, através de links encontrados, busca novos conteúdos em outras páginas. CrawlerCrawler Web CrawlerWeb Crawler BotBot RobotRobot SpiderSpider

13 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Motor de Busca do Google - Googlebot Adicionar URL URL e comentárioAdicionar URL URL e comentário Robot.txt User-agent: *Robot.txt User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ META Tag META Tag HotBot utiliza a base de dados do Google e do LycosHotBot utiliza a base de dados do Google e do Lycos

14 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Motor de busca do AllTheWeb e Altavista Usa o Yahoo como base Programa Overture Site Match(tm)Usa o Yahoo como base Programa Overture Site Match(tm) Vincula os sites a uma conta (deve ser criada anteriormente)Vincula os sites a uma conta (deve ser criada anteriormente) Várias categorias para submissão de URLVárias categorias para submissão de URL Cadastro mais trabalhosoCadastro mais trabalhoso

15 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

16 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

17 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

18 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01

19 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Outros Sites de Busca - AOL – base própria- AOL – base própria - Iwon – utiliza o serviço do ASK- Iwon – utiliza o serviço do ASK - Teoma – mudou para ask- Teoma – mudou para ask - Lycos – tem indexação própria que é utilizada por vários sites de busca:- Lycos – tem indexação própria que é utilizada por vários sites de busca: www.lycos.com, www.gamesville.com, www.tripod.com, www.angelfire.com, mail.lycos.com, www.quote.com, www.ragingbull.com, www.wired.com, www.hotbot.com, www.whowhere.com, www.hotwired.com, www.webmonkey.com, www.getrelevant.com, and www.htmlgear.com

20 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Outros Sites de Busca MSN motor de busca - MSNbotMSN motor de busca - MSNbot Overture motor de busca do YahooOverture motor de busca do Yahoo WiseNut motor de busca próprioWiseNut motor de busca próprio

21 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 Tamanho estimado da PIW e respectivo intervalo de confiança a 95% RESULTADOS TABELA 1

22 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 RESULTADOS FIGURA 1 Estimativas do tamanho da PIW ao longo do tempo ?

23 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 RESULTADOS TABELA 2 Resultados da porcentagem de ligações inválidas

24 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 CONCLUSÕES DO ARTIGO Utilização de métodos mais simples inviável !!!,... sites comerciais,... info valiosasUtilização de métodos mais simples inviável !!!,... sites comerciais,... info valiosas Vários métodos para estimar a PIW alguns com resultados muito divergentesVários métodos para estimar a PIW alguns com resultados muito divergentes Estimativa da PIW determinada: 8,245 bilhões junho de 2003 coerente com outra pesquisa de maio de 2003 (6 bi)Estimativa da PIW determinada: 8,245 bilhões junho de 2003 coerente com outra pesquisa de maio de 2003 (6 bi) Relativamente à atualização dos sites de pesquisa, os resultados obtidos sugerem que os sites vêm acompanhamento oritmo de crescimento e a dinâmica da Web... mais precisamente da PIW.Relativamente à atualização dos sites de pesquisa, os resultados obtidos sugerem que os sites vêm acompanhamento oritmo de crescimento e a dinâmica da Web... mais precisamente da PIW. Sites de pesquisa com maiores índices (Google-Hotbot) apresentam as melhores políticas de frescura !!!Sites de pesquisa com maiores índices (Google-Hotbot) apresentam as melhores políticas de frescura !!!

25 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 CONCLUSÕES DA EQUIPE (1) WEB ainda é um grande campo de pesquisaWEB ainda é um grande campo de pesquisa Vulnerabilidade ???Vulnerabilidade ??? páginas dinâmicas páginas dinâmicas oferecem consistência das informações buscadas? oferecem consistência das informações buscadas? atualização dos sites de pesquisa: > frescura dos índices frescura dos índices < erros, ligações erradas, dead links,... Independência entres motores >s índices na PIW ???Independência entres motores >s índices na PIW ???

26 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 CONCLUSÕES DA EQUIPE (2) Resultados Obtidos Buscando Alguns dos 28 Termos scrimshankmutuleozotypeallomorphismquindecagon Google12.40023.80031313.40021.300 AltaVista(Yahoo)10.2001.9302541.570474 AllTheWeb(Yahoo)9.5801.2402271.380393 HotBot(Google)3891.13097619252

27 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 REFERÊNCIAS BIBLIOGRÁFICAS CONFERÊNCIA IBERO-AMERICANA WWW/INTERNET 2004, 2004, Madrid. Actas da Conferência Ibero- Americana. Madrid: Iadis Press, 2004. v. 1, p. 155-165. ISBN 97299353-1-9. www.iadis.org/ciawi2004/ciawi2004_prog.pdfCONFERÊNCIA IBERO-AMERICANA WWW/INTERNET 2004, 2004, Madrid. Actas da Conferência Ibero- Americana. Madrid: Iadis Press, 2004. v. 1, p. 155-165. ISBN 97299353-1-9. www.iadis.org/ciawi2004/ciawi2004_prog.pdf www.iadis.org/ciawi2004/ciawi2004_prog.pdf Lawrence, S. e Giles, C. L., 1998. Searching the World Wide Web. Science. Vol. 280, n.º 4, p. 98-100. http://citeseer.nj.nec.com/lawrence98searching.html.Lawrence, S. e Giles, C. L., 1998. Searching the World Wide Web. Science. Vol. 280, n.º 4, p. 98-100. http://citeseer.nj.nec.com/lawrence98searching.html. http://citeseer.nj.nec.com/lawrence98searching.html Lawrence, S. e Giles, L., 1999. Accessibility and Distribution of Information on the Web. Nature. Vol. 400, p. 107-109.Lawrence, S. e Giles, L., 1999. Accessibility and Distribution of Information on the Web. Nature. Vol. 400, p. 107-109. http://wwwmetrics.com / http://wwwmetrics.com / http://wwwmetrics.com / http://wwwmetrics.com /

28 Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 MUITO OBRIGADO SEMINÁRIO 01 30.MARÇO.2006 Renata Jorge Vieira Marcus Grudtner Eduardo Giugliani


Carregar ppt "Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, EGC - UFSC T.E. Engenharia do Conhecimento e Ferramentas de Busca 2006/01 ARTIGO FONTE."

Apresentações semelhantes


Anúncios Google