A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

André Ricardo – arsl Danilo Veras – dlv Leila Soriano – lssta Luis Otávio – locb.

Apresentações semelhantes


Apresentação em tema: "André Ricardo – arsl Danilo Veras – dlv Leila Soriano – lssta Luis Otávio – locb."— Transcrição da apresentação:

1 André Ricardo – arsl Danilo Veras – dlv Leila Soriano – lssta Luis Otávio – locb

2 Motivação Onde tudo começou Processo de Extração Wrappers Aplicações Referências

3 O que é informação? Bem dinâmico com valor associado Curiosidade, busca por informação, busca por conhecimento O diferencial do ser humano Consultar um dos pilares da gestão de conhecimento

4 Busca por informação como necessidade empresarial Aspecto chave das empresas mecanismos para facilitar busca de informação Acesso eficiente às informações maior produtividade e novas oportunidades

5 Gestão Portal de Informações Consciência Conhecimento Informação Dados

6 A Internet Gigantesca base de documentos em crescimento acelerado Como obter informações relevantes em bases textuais? Extração de informação

7 MUC - Message Understanding Conference Abordagem de EI utilizando processamento de linguagem natural Simulação de um analista do serviço de inteligência procurando informações a respeito de um tópico particular

8 Aplicações: MUC-1 (1987), MUC-2 (1989): Naval operations messages. MUC-3 (1991), MUC-4 (1992): Terrorism in Latin American countries. MUC-5 (1993): Joint ventures and microelectronics domain. MUC-6 (1995): News articles on management changes. MUC-7 (1998): Satellite launch reports.

9 Extrair, de documentos textuais, apenas os dados relevantes ao usuário Utilização de um template Sistema de EI BD Item1: Item2: Item3: Item4: Item5: Template BC Documento

10 Pode ser dividido em 5 tarefas: Segmentação Classificação Associação Normalização Deduplicação

11 Processo de segmentar o texto de entrada em tokens cada token (segmento) deve corresponder a um campo do template de saída i.e., cada token deve preencher um campo do template

12 Determina qual campo do template de saída corresponde a cada segmento do texto de entrada A relação deve ser de um para um É importante salientar que os processos de segmentação e classificação, em geral, acontecem simultaneamente

13 Determina quais segmentos (tokens) estão relacionados a um mesmo fato Supondo um texto que descreva vários cursos universitários Um mesmo curso pode ser descrito por mais de um parágrafo A extração precisa determinar quais segmentos de quais parágrafos se referem ao mesmo curso

14 Permite que as informações sejam armazenadas segundo um padrão pré- estabelecido O horário de um curso pode ser representado como 2pm-4pm ou como 4-6pm, por exemplo Neste caso, o processo de normalização poderia transformar os dois formatos para 14h00-16h00 e 16h00-18h00, respectivamente

15 Elimina informações redundantes do banco de dados com os templates de saída Um curso pode ser ministrado em mais um departamento e, por isso, ter sua descrição em mais de uma página web Sem o processo de deduplicação, o banco terá informações redundantes

16 Recuperação de Informação Estuda formas de armazenar e recuperar documentos de forma rápida e automática Extração de Informação Objetiva obter informações específicas a partir de um documento EI e RI são tecnologias complementares

17 Recuperação de Informação: Entrega documentos para o usuário Extração de Informação: Entrega fatos para o usuário/aplicações

18 CCT Entendimento do texto inteiro Representação alvo complexa Necessita reconhecer aspectos estilísticos EI Somente uma parte do texto é relevante Representação alvo rígida Estilo e cor do texto é irrelevante

19 Linguagem Natural é difícil de tratar automaticamente... Flexível Frodo Baggins succeeds Bilbo Baggins as chairperson of Bank of America. Bank of America named Frodo Baggins as its new chair-person after Bilbo Baggins. Ambígua Sam, Frodos partner, a CMU student, … Dinâmica Novas palavras: ecotourist, lol Novos significados: to google, to message

20 Grande influência do tipo de texto: Estruturados Semi-estruturados Livres

21 Baseados em PLN Wrappers Manual Automático

22 Sistemas baseados em PLN são capazes de lidar com as irregularidades das línguas naturais Técnicas: Part-of-speech (POS) tagging Mark each word as a noun, verb, preposition, etc. Semantic word categories KILL: kill, murder, assassinate, strangle, suffocate

23 Baseada em engenharia do conhecimento Construção de regras de extração Padrões de extração descobertos por investigação e exame do corpus de treinamento Vantagens Boa performance dos sistemas Desvantagens Processo de desenvolvimento trabalhoso Escalabilidade Necessidade de um especialista

24 Baseado em aprendizagem de máquina Aprender sistemas de EI a partir de um conjunto de treinamento Vantagens Mais fácil marcar um corpus do que criar regras de extração Menor esforço do especialista Escalabilidade Desvantagens Esforço de marcação do corpus de treinamento

25 Autômatos Finitos Pattern matching Classificação de Textos Modelos de Markov Escondidos (HMM)

26 Definidos por: (1) estados que aceitam os símbolos do texto que preenchem algum campo do formulário de saída; (2) estados que apenas consomem os símbolos irrelevantes encontrados no texto; (3) símbolos que provocam as transições de estado. Textos estruturados e semi-estruturados Delimitadores, ordem dos elementos Algoritmos específicos para EI WIEN, SoftMealy, STALKER

27

28 Utiliza expressões regulares que casam com o texto para extrair as informações Textos livres, estruturados e semi Delimitadores, padrões regulares Ex. data, CEP Algoritmos específicos para EI WHISK, Rapier

29

30 Tarefa de EI -> tarefa de classificação Textos semi-estruturados

31 Classificadores Convencionais: KNN, Naive Bayes, Redes Bayesianas Específicos: SRV Vantagens Podem utilizar várias características de cada fragmento Ex. tamanho, posição, formatação, presença de palavras Desvantagens Classificação local

32 Classificam seqüências de padrões Classes representadas pelos estados do HMM Retorna a seqüência de estados com maior probabilidade de ter emitido cada seqüência de símbolos de entrada. Textos livres e semi-estruturados autor veículo S 0 título data 0,2 0,8 0,2 0,5 0,1 0,5 0,2 HMM outros

33 1 2 3 Site L 1 Site L 2 P 1 L 1, L 2, L 2, L 1, L 1, L 1, L 2, L 2, L 2, L 2 P 2 L 2, L 1, L 2, L 1, L 1, L 2, L 1, L 1, L 2, L 2 P 3 L 1, L 1, L 1, L 2, L 1, L 2, L 1, L 2, L 2, L 2 P X L 1, L 2, L 2, L 2, L 1, L 2, L 1, L 1, L 2, L 1 Deseja-se identificar este usuário!!

34 Assume-se que a probabilidade de se visitar um site depende do site que foi visitado no dia anterior, caracterizando uma Cadeia de Markov. P 1 L 1, L 2, L 2, L 1, L 1, L 1, L 2, L 2, L 2, L 2 4 transições que saem de L 1 2 transições vão para L 1 2 transições vão para L 2 A1A1 Chegada Saída L1L1 L2L2 L1L1 0.5 L2L2

35 P 1 L 1, L 2, L 2, L 1, L 1, L 1, L 2, L 2, L 2, L 2 A1A1 Chegada Saída L1L1 L2L2 L1L1 0.5 L2L transições que saem de L 2 1 transição vai para L 1 4 transições vão para L 2 Assume-se que a probabilidade de se visitar um site depende de que site foi visitado no dia anterior, caracterizando uma Cadeia de Markov.

36 A1A1 Chegada Saída L1L1 L2L2 L1L1 0.5 L2L A2A2 Chegada Saída L1L1 L2L2 L1L L2L A3A3 Chegada Saída L1L1 L2L2 L1L L2L2 0.5

37 Vantagens Realizam uma classificação ótima para a seqüência completa de entrada Desvantagens Limitação: utilizam apenas um atributo por padrão a ser classificado

38 Baseada em uma técnica de Spell- Checker Quebra os tokens em n-gramas (n=3) Ex. cavalo -> cav, ava, val, alo Conjunto de treinamento tokens com a classe correspondente Persiste o treinamento Classifica exemplos de entrada através de uma distribuição de probabilidade

39 Extração de Informação em BD Query Manager (QM) Ferramenta Web Agiliza consulta e EI dos BDs de empresas Facilita construção de relatórios Localizada no RJ, é especializada em soluções e-learning.

40 Extração de Informação em Documentos Análise do Código Fonte de Aplicações Uso de Padrões Qualidade do Código Empresa de Curitiba, oferece sistemas de análise do código fonte em diversas linguagens.

41 Extração de Informação na WEB Filtragem de Fóruns Controle do Conteúdo Assunto dos Diálogos Empresa de São Paulo com mais de 20 anos de mercado. Oferece soluções para e-learning.

42 Extração de Informação na WEB Monitoramento da WEB Busca por Hackers Busca por Terroristas Empresa mundialmente reconhecida, presente no Brasil há 10 anos, oferecendo soluções nas áreas de segurança web e redes.

43 Extração de Informação na WEB Monitoramento de opiniões espontâneas na WEB Análises qualitativas e quantitativas dos dados recolhidos Informação estruturada de cada post, a partir de cada serviço cadastrado. Empresa brasileira com:

44 Extração de Informações Estratégicas Business Intelligence Análise de Mercado Melhoria de Processos Empresa brasileira que oferece soluções na área de BI.

45 Extração de Informações Estratégicas Análises Biológicas de Dados Regiões Codificantes (DNA) Regiões Ativas (Proteínas) National Center for Biotechnology Information, criado em 1988, localizado nos Estados Unidos. É a principal fonte de informações sobre Genômica na Internet.

46 Extração de Informações Estratégicas Análises de Arquivos de LOG Logs de Erro Logs de Acesso Empresa mundialmente reconhecida, com mais de 25 anos, oferece soluções para a análise de logs de erro e acesso a bancos de dados.

47 Extração de Informações Estratégicas Análises de Imagens Geologia Climatologia Astrologia Empresa brasileira com 10 anos de mercado, oferece soluções para análise e classificação de imagens.

48 Revista Espaço Acadêmico - Wikipedia - Negócios Integrados - PT Sistemas de informação - ATSolutions - Techne - Datacraft - NBCI - Semiotic Systems - E.Life - Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados. Eduardo F.A. Silva, Flávia A. Barros & Ricardo B. C. Prudêncio

49


Carregar ppt "André Ricardo – arsl Danilo Veras – dlv Leila Soriano – lssta Luis Otávio – locb."

Apresentações semelhantes


Anúncios Google