A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Simpósio de Sistemas de Informação – FTC

Apresentações semelhantes


Apresentação em tema: "Simpósio de Sistemas de Informação – FTC"— Transcrição da apresentação:

1 Simpósio de Sistemas de Informação – FTC
27 a 29 de out. de 2011 Extração de Informação em Bases Textuais utilizando Expressões Regulares Prof. Pablo Freire Matos Informática - Instituto Federal Baiano (IFBAIANO)

2 EI em Bases Textuais com ER
Roteiro Vamos compreender as palavras-chave do título: EI em Bases Textuais com ER

3 EI em Bases Textuais com ER
Roteiro EI em Bases Textuais com ER

4 O que é Extração de Informação?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática O que é Extração de Informação? Recuperação de Informação EI em Bases Textuais com ER

5 EI em Bases Textuais com ER
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática RI x EI Recuperação da Informação (RI) Extração da Informação (EI) EI em Bases Textuais com ER

6 O que é Extração de Informação?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática O que é Extração de Informação? Informação Estruturada Base de Dados Informação Não Estruturada Descoberta de Conhecimento EI em Bases Textuais com ER

7 Descoberta de Conhecimento
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Descoberta de Conhecimento B A C ? Urologia Proteína HN diminui as dores do priaprismo Anemia Falciforme Causa anemia falciforme -> priaprismo A = Proteína X B = Priapismo C = Anemia Falciforme EI em Bases Textuais com ER

8 Descoberta de Conhecimento
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Descoberta de Conhecimento A = Proteína X B = Priapismo C = Anemia Falciforme Proteína Efeito Positivo Quant. Paciente a b 10 20 e 40 15 Efeito Negativo Doença Quant. Paciente b c 10 30 f 20 EI em Bases Textuais com ER

9 O que é Extração de Informação?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática O que é Extração de Informação? Mineração de Dados Mineração de Textos EI em Bases Textuais com ER

10 EI em Bases Textuais com ER
Roteiro EI em Bases Textuais com ER

11 O que são Bases Textuais?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática O que são Bases Textuais? Formato TXT EI em Bases Textuais com ER

12 O que são Bases Textuais?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática O que são Bases Textuais? Formato PDF EI em Bases Textuais com ER

13 O que são Bases Textuais?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática O que são Bases Textuais? Formato HTML EI em Bases Textuais com ER

14 O que são Bases Textuais?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática O que são Bases Textuais? Formato XML EI em Bases Textuais com ER

15 O que são Bases Textuais?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática O que são Bases Textuais? Formatos Textuais EI em Bases Textuais com ER

16 O que são Bases Textuais?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática O que são Bases Textuais? Cenário Atual: Grande quantidade de informação Informação estas que encontram-se em: , blogs, wikis, artigos,... + de 80% das informações estão em formato textual Existe uma grande quant. de informação disponível, dificultando a assimilação de todo esse conteúdo por nós humanos e isso se deve ao alto percentual de inform. em formato textual Gantz et al. (2007) EI em Bases Textuais com ER

17 O que são Bases Textuais?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática O que são Bases Textuais? Capacidade humana de analisar e compreender estes dados é limitada EI em Bases Textuais com ER

18 O que são Bases Textuais?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática O que são Bases Textuais? Informação e conhecimento importantes podem ser perdidos EI em Bases Textuais com ER

19 EI em Bases Textuais com ER
Roteiro EI em Bases Textuais com ER

20 O que são Expressões Regulares?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática O que são Expressões Regulares? Definição “É um método formal de especificar um padrão de texto” Outra Definição: “Uma composição de símbolos, caracteres com funções especiais, que, agrupados entre si e com caracteres literais, formam uma sequência, uma expressão. Essa expressão é interpretada como uma regra, que indicará sucesso se uma entrada de dados qualquer “casar” com essa regra, ou seja, obedecer exatamente a todas as suas condições.” Jargas (2009) EI em Bases Textuais com ER

21 O que são Expressões Regulares?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática O que são Expressões Regulares? Outras Definições: “Uma maneira de procurar um texto que você não lembra exatamente como é, mas tem uma ideia das variações possíveis” “Uma maneira de procurar um trecho em posições específicas como no começo ou no fim de uma linha, ou palavra” “Uma maneira de um programador especificar padrões complexos que podem ser procurados e casados em uma cadeia de caracteres” “Uma construção que utiliza pequenas ferramentas feita para obter determinada sequência de caracteres de um texto” EI em Bases Textuais com ER

22 O que são Expressões Regulares?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática O que são Expressões Regulares? Recurso poderoso utilizado por muitos aplicativos Por exemplo... EI em Bases Textuais com ER

23 EI em Bases Textuais com ER
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Editor de Texto (1/3) Notepad++ EI em Bases Textuais com ER

24 EI em Bases Textuais com ER
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Editor de Texto (2/3) Word 2007 EI em Bases Textuais com ER

25 EI em Bases Textuais com ER
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Editor de Texto (3/3) Antes Depois EI em Bases Textuais com ER

26 Navegador de Internet (1/2)
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Navegador de Internet (1/2) JavaScript EI em Bases Textuais com ER

27 Navegador de Internet (2/2)
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Navegador de Internet (2/2) HTML 5 EI em Bases Textuais com ER

28 SQL com Expressão Regular
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Banco de Dados Recuperar todos os alunos cujos nomes terminem com “santos” ? mysql> SELECT * –> FROM aluno –> WHERE nome LIKE “%santos”; SQL mysql> SELECT * –> FROM aluno –> WHERE nome REGEXP “santos$”; SQL com Expressão Regular EI em Bases Textuais com ER

29 Linguagem de Programação
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Linguagem de Programação pacote java.util.regex Pattern p = Pattern.compile(<regular expression>); Matcher m = p.matcher(<input source>); Exemplo 1: Pattern p = Pattern.compile("[jJ]ava"); Matcher m = p.matcher("Java é mais java!"); // enquanto o Matcher encontrar o padrão na String fornecida while (m.find()) { System.out.println(m.group()); } Saída: Java java EI em Bases Textuais com ER

30 Linguagem de Programação
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Linguagem de Programação pacote java.util.regex Pattern p = Pattern.compile(<regular expression>); Matcher m = p.matcher(<input source>); Exemplo 2: Pattern p = Pattern.compile("Java", Pattern.CASE_INSENSITIVE); Matcher m = p.matcher("Java é mais java!"); // enquanto o Matcher encontrar o padrão na String fornecida while (m.find()) { System.out.println(m.group()); } Saída: Java java EI em Bases Textuais com ER

31 Linguagem de Programação
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Linguagem de Programação Exemplo 3: Pattern p = Pattern.compile("Java", Pattern.CASE_INSENSITIVE); Matcher m = p.matcher("Java é mais java!"); // enquanto o Matcher encontrar o padrão na String fornecida while (m.find()) { System.out.printf("Encontrado: \"%s\" de %d à %d.\n", m.group(), m.start(), m.end()); } Saída: Encontrado: "Java" de 0 à 4. Encontrado: "java" de 12 à 16. EI em Bases Textuais com ER

32 Linguagem de Programação
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Linguagem de Programação API Java EI em Bases Textuais com ER

33 Linguagem de Programação
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Linguagem de Programação Diferença dos métodos find() e matches() Matches() inclui implicitamente o ^ no início e $ no final do padrão Pattern p = Pattern.compile("\\d\\d\\d"); Matcher m = p.matcher("a123b"); System.out.println(m.find()); System.out.println(m.matches()); p = Pattern.compile("^\\d\\d\\d$"); m = p.matcher("123"); Saída: true false EI em Bases Textuais com ER

34 O que são Expressões Regulares?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática O que são Expressões Regulares? Recurso poderoso utilizado por muitos aplicativos: Editores de Texto Navegadores de Internet Linguagens de Programação Banco de Dados ... várias outras tarefas que envolvem manipulação de dados EI em Bases Textuais com ER

35 Conhecendo as Expressões Regulares (ERs)

36 EI em Bases Textuais com ER
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Ambiente de Teste Piazinho EI em Bases Textuais com ER

37 EI em Bases Textuais com ER
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Metacaracteres Correspondem as ferramentas básicas de uma expressão regular São combinados para representar o padrão de busca desejado Símbolos especiais Metacaractere Nome . Ponto [] Lista [^] Lista negada ? Opcional * Asterisco + Mais {} Chaves Metacaractere Nome ^ Circunflexo $ Cifrão \b Borda \ Literal | Ou () Grupo \1 Retrovisor EI em Bases Textuais com ER

38 Metacaracteres tipo Representante
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Metacaracteres tipo Representante Ponto: “.” Curinga que casa com uma única letra, número, caractere especial , TAB, o próprio ponto, ... Exemplos .ato n.o .im 13.30 c.mprido pato, rato, gato, ... não, nao, nÃo, ... fim, Fim, ... 13:30, 13.30, 13 30, 13-30, ... comprido, cumprido, ... EI em Bases Textuais com ER

39 Metacaracteres tipo Representante
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Metacaracteres tipo Representante Lista: [...] Mais específica que o ponto, a lista determina quais caracteres ou símbolos podem ser casados Só pode ser casado um caractere por vez dentro de cada lista Exemplos n.o n[aã]o [pgr]ato 12[:. ]45 <[BIP]> Observação O ponto dentro da lista NÃO é um metacaractere e sim um caractere normal não, nao, nÃo, n9o, nxo, ... não, nao (Obs: não casa com naão) pato, gato, rato 12:45, 12.45, 12 45 <B>, <I>, <P> EI em Bases Textuais com ER

40 Metacaracteres tipo Representante
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Metacaracteres tipo Representante Lista: [...] Listas com intervalos Como representar uma ER para casar com qualquer letra minúscula? [abcdefghijklmnop...z]??? MUITO LONGA! Para facilitar a representação de sequências, pode-se usar intervalos [ ] [abcdefghijklmnop...z] [ABCDEFGHIJKLMNOP...Z] Mais de um intervalo pode ser utilizado em uma lista [0-57-9] [d-fA-C5-7] = [0-9] = [a-z] = [A-Z] = [ ] = [defABC567] EI em Bases Textuais com ER

41 Metacaracteres tipo Representante
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Metacaracteres tipo Representante Lista: [...] Observações Como representar o “-” dentro de uma lista se ele é especial? Deve-se sempre colocá-lo no final da lista [a-f-] = [abcdef-] [0-9-] = [ ] Como representar o “]” dentro de uma lista se ele é especial? Deve-se sempre colocá-lo no início da lista []] casa somente com o ] []6-9] casa com ], 6, 7, 8, 9 []-] casa com ] ou - Intervalos respeitam a ordem da tabela ASCII casa com :, ;, <, =, >, ?, EI em Bases Textuais com ER

42 EI em Bases Textuais com ER
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Tabela ASCII American Standard Code for Information Interchange EI em Bases Textuais com ER

43 Metacaracteres tipo Representante
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Metacaracteres tipo Representante Lista negada: [^...] Funciona com a lógica inversa da lista normal Tudo que encontra-se na lista não será casado [^0-9] [:;,.!?][^ ] casa com qualquer símbolo que NÃO seja número casa com qualquer pontuação que não esteja seguida por um espaço em branco EI em Bases Textuais com ER

44 Metacaracteres tipo Quantificador
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Metacaracteres tipo Quantificador Opcional: ? Indica nenhuma ou uma ocorrência do padrão anterior [pgr]atos? casa[r!]? Asterisco: * Indica nenhuma ou muitas ocorrências do padrão anterior to*c t[oc]* O que casará [ar]*a na palavra arara ? 1. a [ar] zero vezes, seguido de a 2. ara [ar] duas vezes, seguido de a 3. arara [ar] quatro vezes, seguido de a 4. n.d.a Sempre é tentado casar o maior número de vezes pato, gato, rato, patos, gatos, ratos casa, casar, casa! tc, toc, tooc, toooc, toooooc, ... t, to, tc, toc, tooc, tocc, toccooocc, ... Jargas (2009) EI em Bases Textuais com ER

45 Metacaracteres tipo Quantificador
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Metacaracteres tipo Quantificador Mais: + Indica uma ou mais ocorrências do padrão anterior to+c t[oc]+ toc, tooc, toooc, toooooc, ... to, tc, toc, tooc, tocc, toccooocc, ... EI em Bases Textuais com ER

46 Metacaracteres tipo Quantificador
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Metacaracteres tipo Quantificador Chaves: {...} Permite que seja especificada um limite mínimo ou máximo de repetições para o padrão anterior Possibilidades {n,m} de n até m {n,} pelo menos n {n} exatamente n {0,} o mesmo que o “*” {1,} o mesmo que o “+” Exemplos to{1,3}c to{2,}c t[oc]{2,} toc, tooc, toooc tooc, toooc, tooooc, ... tooc, toooc, tooooc, tco, toc, tcooocoo ... EI em Bases Textuais com ER

47 Metacaracteres tipo Âncora
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Metacaracteres tipo Âncora Circunflexo: ^ Indica que o padrão a seguir deve ser considerado a partir do início da linha ^[a-z] linhas que começam com letras minúsculas ^[0-9] linhas que começam por números ^[^0-9] linhas que NÃO começam por números' Cifrão: $ Indica que o padrão anterior deve ser considerado no fim da linha toc$ linhas que terminam com a palavra toc [0-9]$ linhas que terminam com número linhas que terminam com os caracteres :, ;, <, =, >, ?, Combinações úteis ^$ linha em branco ...$ últimos três caracteres da linha ^.{15,30}$ linhas que contenham entre 15 e 30 caracteres EI em Bases Textuais com ER

48 Metacaracteres tipo Âncora
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Metacaracteres tipo Âncora Borda: \b Indica a borda de uma palavra (início ou fim) ana ana, anamaria, analucia, mariana, luciana \bana ana, anamaria, analucia ana\b ana, mariana, luciana \bana\b ana Por palavra, deve-se entender sequências de letras, números e o caractere “_” EI em Bases Textuais com ER

49 Outros Metacaracteres
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Outros Metacaracteres Literal: \ Deve ser utilizado antes de qualquer metacaractere para torná-lo um caractere normal sem qualquer efeito especial para a expressão regular Ou alternativo: | Indica um padrão com várias alternativas A lista funciona como um tipo de operador “OU” somente para uma letra Hello | Ola casa com a palavra Hello ou com Ola | casa com ou EI em Bases Textuais com ER

50 Outros Metacaracteres
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Outros Metacaracteres Grupo: (...) Possibilita o agrupamento de caracteres que serão tratados atomicamente (oi!)+ (\.[0-9]){3} (www\.)?simsis.net (super|hiper)mercado (su|hi)permercado ((su|hi)per)?mercado (mini|(su|hi)per)?mercado oi!, oi!oi!, oi!oi!oi!, ... .3.4.5, , ... simsis.net supermercado, hipermercado supermercado, hipermercado, mercado supermercado, hipermercado, mercado, minimercado EI em Bases Textuais com ER

51 Outros Metacaracteres
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Outros Metacaracteres Retrovisor: \1 ... \9 Retrovisor \1 é uma referência ao texto casado do primeiro grupo (quero)-\1 ([A-Za-z]+)-\1 ([A-Za-z]+)-?\1 (lenta)(mente) é \2 \1 Ver exemplo prático no slide 24 quero-quero ... quero-quero, bate-bate, ... quero-quero, bate-bate, lili, dudu, ... lentamente é mente lenta EI em Bases Textuais com ER

52 Metacaracteres tipo barra-letra
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Metacaracteres tipo barra-letra Metacaractere Função \d Dígito \D Não Dígito \w Palavra \W Não-palavra \s Branco \S Não-branco \w casa letras, dígitos, ou '_'. EI em Bases Textuais com ER

53 Metacaractere Moderno
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Metacaractere Moderno (?:ER) É como um grupo normal, só que não é guardado nem incluído na contagem de grupos, ou seja, não é acessível com retrovisores ^(Pablo)\s(?:F\.)\s(Matos) Pablo F. Matos EI em Bases Textuais com ER

54 EI em Bases Textuais com ER
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Exercícios Validação de: Data no formato dd/mm/aaaa CPF IP [\d]{2}/[\d]{2}/[\d]{4} [\d]{3}\.[\d]{3}\.[\d]{3}-[\d]{2} [\d]{1,3}\.[\d]{1,3}\.[\d]{1,3}\.[\d]{1,3} EI em Bases Textuais com ER

55 EI em Bases Textuais com ER
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Metacaracteres (1/2) Representantes Metacaractere Nome Função . Ponto Um caractere qualquer [...] Lista Lista de caracteres permitidos [^...] Lista negada Lista de caracteres proibidos Quantificadores Metacaractere Nome Função ? Opcional Zero ou um * Asterisco Zero, um ou mais + Mais Um ou mais {n,m} Chaves De n até m EI em Bases Textuais com ER

56 EI em Bases Textuais com ER
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Metacaracteres (2/2) Âncoras Metacaractere Nome Função ^ Circunflexo Início da linha $ Cifrão Fim da linha \b Borda Início ou fim da palavra Outros Metacaractere Nome Função \. Literal Torna literal o ponto | Ou Ou um ou outro (...) Grupo Delimita um grupo \1...\9 Retrovisor Texto casado nos grupos 1...9 EI em Bases Textuais com ER

57 EI em Bases Textuais com ER
Prática Acessar: Programas: ftc-Etiquetador: Etiquetador morfossintático em Java ftc-ER:Testador de Expressão Regular em Java Bases Textuais: Texto Texto Etiquetado Ambiente de Teste: Piazinho (Testador de Expressão Regular no browser) EI em Bases Textuais com ER

58 Como Extrair Informação das Bases Textuais?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Como Extrair Informação das Bases Textuais? Etiquetador Part-Of-Speech (POS) O objetivo é atribuir automaticamente etiquetas (tags) de acordo com a classe gramatical de cada palavra Dificuldade Palavras que podem ser tanto verbo como substantivo: Ex: programs, process EI em Bases Textuais com ER

59 Como Extrair Informação das Bases Textuais?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Como Extrair Informação das Bases Textuais? Exemplo de Sentença Exemplo de Sentença Etiquetada padrão JJ_NN Etiquetador POS da Stanford: 86,91% - novas palavras Padrão Tag: Penn Treebank TagSet (2011) Marcus et al. (1993) EI em Bases Textuais com ER

60 Como Extrair Informação das Bases Textuais?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Como Extrair Informação das Bases Textuais? Arquivo TXT Não Etiquetado EI em Bases Textuais com ER

61 Como Extrair Informação das Bases Textuais?
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Como Extrair Informação das Bases Textuais? Arquivo TXT Etiquetado EI em Bases Textuais com ER

62 EI em Bases Textuais com ER
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Exemplo 1 Extrair Informação Padrão (JJ_JJ) Grupo (JJ_JJ) EI em Bases Textuais com ER

63 Compare o resultado com o programa ftc-ER
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Exemplo 1 Resposta 26 sentenças Compare o resultado com o programa ftc-ER EI em Bases Textuais com ER

64 EI em Bases Textuais com ER
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Padrão 1.0 Resposta 6 sentenças Extrair Informação Padrão (JJ_JJ_NN_NN_(NN)?) EI em Bases Textuais com ER

65 EI em Bases Textuais com ER
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Padrão 1.1 Resposta 13 sentenças Extrair Informação Padrão (~JJ)_(JJ_NN_NN_(NN)?) Grupo (JJ_NN_NN_(NN)?) EI em Bases Textuais com ER

66 EI em Bases Textuais com ER
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Padrão 1.2 Resposta 17 sentenças Extrair Informação Padrão (JJ_JJ_NN)_(~NN) Grupo (JJ_JJ_NN) EI em Bases Textuais com ER

67 EI em Bases Textuais com ER
Extração de Informação Bases Textuais Expressões Regulares (ERs) Conhecendo as ERs Prática Padrão Otimizado Resposta 7 sentenças Extrair Informação Padrão (~JJ)_(JJ_NN_IN)_(JJ_NN)_(~NN) Grupo (JJ_NN) (~JJ) é para não chocar com a regra 1.2 EI em Bases Textuais com ER

68 Outros Ambientes de Teste
Regex-Coach: RegexBuddy: Visual REGEXP: FireFox: EI em Bases Textuais com ER

69 EI em Bases Textuais com ER
Referências (1/2) FRIEDL, J. E. F. Mastering Regular Expressions. 3 ed. USA: O'Reilly Media, p. GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide information growth through IDC Whitepaper, 2007. JARGAS, A. M. Expressões Regulares: Uma Abordagem Divertida. 3 ed. São Paulo: Novatec, p. Disponível em: < Acesso em: 10 out JARGAS, A. M. Expressões regulares: guia de consulta rápida Disponível em: < Acesso em: 10 out MARCUS, M. P.; MARCINKIEWICZ, M. A.; SANTORINI, B. Building a large annotated corpus of English: the penn treebank. Computational Linguistics, v. 19, n. 2, p , 1993. EI em Bases Textuais com ER

70 EI em Bases Textuais com ER
Referências (2/2) ORACLE. Java platform API specification: standard edition Disponível em: < Acesso em: 03 de out THE STANFORD NATURAL LANGUAGE PROCESSING GROUP. Stanford log-linear part-of-speech tagger Disponível em: < Acesso em: 05 out TAGSET. Penn Treebank Tagset Disponível em: < Acesso em: 05 out EI em Bases Textuais com ER

71 Penn Treebank Tagset (1/2)
Meaning CC Coordinating conjunction e.g. and,but,or... CD Cardinal Number DT Determiner EX Existential there IN Preposition or subordinating conjunction JJ Adjective JJR Adjective, comparative JJS Adjective, superlative NN Noun, singular or mass NNP Proper Noun, singular NNPS Proper Noun, plural NNS Noun, plural EI em Bases Textuais com ER

72 Penn Treebank Tagset (2/2)
Meaning RB Adverb Most words that end in -ly as well as degree words like quite, too and very TO To VB Verb, base form subsumes imperatives, infinitives and subjunctives VBD Verb, past tense includes the conditional form of the verb to be VBG Verb, gerund or present participle VBN Verb, past participle VBP Verb, non-3rd person singular present VBZ Verb, 3rd person singular present EI em Bases Textuais com ER

73 Simpósio de Sistemas de Informação – FTC
27 a 29 de out. de 2011 Extração de Informação em Bases Textuais utilizando Expressões Regulares Prof. Pablo Freire Matos Informática - Instituto Federal Baiano (IFBAIANO)


Carregar ppt "Simpósio de Sistemas de Informação – FTC"

Apresentações semelhantes


Anúncios Google