A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica.

Apresentações semelhantes


Apresentação em tema: "Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica."— Transcrição da apresentação:

1 Reunião PLN-BR 2008 Renata Vieira

2 INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica e de discurso. As atividades desenvolvidas e os resultados principais são apresentadas a seguir.

3 Relatório PLN-BR ) Elaboração do esquema de anotação XCES Um esquema XML para anotação lingüística seguindo o padrão XCES foi definido para incorporar anotações de diferentes níveis lingüísticos (sintáticas, de correferência e estruturais)..... Arquivo de Codificação das palavras

4 XCES Arquivo de Informações Estruturais Sintagmáticas Arquivo de Informações Morfológicas

5 XCES Arquivo de Relações Retóricas Arquivo de Informações Anafóricas

6 Relatório PLN-BR 2008 Um Relatório Técnico descrevendo o esquema elaborado foi escrito. Um pôster sobre questões relacionadas à anotação foi apresentado. (Souza et al., 2006).

7 Relatório PLN-BR ) Elaboração de conversores TigerXML para XCES Markables para XCES O conversor do formato RST não foi desenvolvido.

8 Relatório PLN-BR ) Elaboração de guias de instrução para anotação de correferência de corpus Diretrizes de anotação foram elaboradas para preparar anotadores para anotação de um sub-corpus do PLN- BR contendo informações de correferência. Um Relatório Técnico foi escrito (Coellho et al., 2006).

9 Relatório PLN-BR 2008 Construção de corpus anotado Summ-it Um sub-corpus foi construído e anotado com informações de correferência e relações retóricas (Collovini et al., 2007). O corpus serve de base para pesquisas desenvolvidas em dissertações de mestrado.

10 Summ-it O corpus é formado por 50 textos jornalísticos do caderno de ciências retirados da Folha de São Paulo e disponibilizado através do projeto PLN-BR. Construção do Corpus: Anotação Manual de Correferência 10 anotadores treinados Cada texto foi anotado por 2 pessoas e avaliado por um anotador sênior. Processamento pelo PALAVRAS: informações morfossintáticas Geração de Sumários Automáticos: GistSumm e SuPor-2 Construção de Sumários Manuais [Coelho, 2007] Anotação RST

11 Relatório PLN-BR ) Experimentos de resolução de correferência Alguns experimentos envolvendo corpus anotado com informação de correferência foram realizados (Collovini and Vieira, 2006; Collovini and Vieira, 2006a; Collovini and Vieira, 2006b). Esses experimentos apontam para a necessidade de balanceamento de corpus e inclusão de informação semântica para resolução de correferência. Uma próxima fase de anotação irá contemplar a anotação semântica com base no Frame-Net.

12 Relatório PLN-BR ) Experimentos com uso de informação semântica Experimentos de classificação de expressões referenciais foram realizados, avaliando os ganhos de aprendizado quando informações semânticas são consideradas (Coelho et al., 2006a; Vieira et al., 2006; Ribeiro et al., 2007).

13 Atividades previstas para ) Construção de interfaces para uso do Parser Palavras e conversores de formatos 2) Elaboração da documentação do conversor de formatos Tiger para XCES 3) Anotação Frame-Net do Summ-it

14 ACROPOS - Automatic Coreference ResOlution system for POrtugueSe José Guilherme Souza Renata Vieira

15 Objetivo Resolução Automática Correferência Aprendizado de Máquina: Árvores de Decisão Baseado no Trabalho de Soon et al Primeira abordagem de resolu ç ão autom á tica de correferência de sintagmas nominais de qualquer tipo para l í ngua portuguesa. O sistema seleciona, classifica e agrupa as expressões para montagem das cadeias.

16 ACROPOS Treino ClassePrecisãoCoberturaF-Measure Anafórica78,840,153,1 Não Anafórica91,198,394,5 Teste ClassePrecisãoCoberturaF-Measure Anafórica78,64859,6 Não Anafórica92,59895,1 Resultados

17 ACROPOS Treino ClassePrecisãoCoberturaF-Measure Anafórica77,774,776,2 Não Anafórica75,7678,577 Teste ClassePrecisãoCoberturaF-Measure Anafórica3372,745,4 Não Anafórica94,977,485,2 Resultados - Balanceamento

18 ACROPOS MUC SistemaPrecisãoCoberturaF-Measure ACRoPos97,1445,1157,96 ACRoPos Balanceado90,3063,1674,08 Soon et. al67,358,662,6 B3B3 SistemaPrecisãoCoberturaF-Measure ACRoPos99,3162,8776,76 ACRoPos Balanceado96,2073,4983,14 Soon et. al78,45865,6 Resultados: Análise das Cadeias

19 FERRAMENTAS Exemplos de Cadeias: Manual gás hidrogênio hidrogênio ele Automática gás hidrogênio hidrogênio ele Manual a gravidade a força gravitacional a ação gravitacional a força da gravidade a gravidade Automática a gravidade a força gravitacional a ação gravitacional Manual buracos negros distribuídos ao redor da Via Láctea eles buracos negros eles Automática Cadeia 1 buracos negros distribuídos ao redor da Via Láctea eles Cadeia 2 buracos negros eles Manual a estrela recém-nascida a estrela ela A estrela a estrela Automática a estrela recém-nascida a estrela ela A estrela a equipe do astrônomo argentino Felix Mirabel

20 ONTOLP: CONSTRUÇÃO SEMI- AUTOMÁTICA DE ONTOLOGIAS A PARTIR DE TEXTOS DA LÍNGUA PORTUGUESA Mestrando: Luiz Carlos Orientadora: Renata Vieira

21 INTRODUÇÃO (OBJETIVO) Propor e avaliar técnicas para a construção automática de ontologias a partir de textos da língua portuguesa com base em técnicas já desenvolvidas para outras línguas

22 METODOLOGIA PROPOSTA Corpus XCES Extração de Termos Organização Hierárquica dos Termos Taxonomia Formato XCES: Token PoS Morfológico Semântico (tags semânticas) Phrase Sintático

23 METODOLOGIA (EXTRAÇÃO DE TERMOS) Classe Gramatical Núcleo do Sintagma Nominal Rel. Freq. tf-idf NC-Value Extração de Termos Simples Filtro por Grupos Semânticos Seleção por Grupos Semânticos N-Grama Sintagma Nominal Padrões Morfossintáticos Extração de Termos Complexos Rel. Freq. tf-idf NC-Value C-Value Rel. Freq. Corpus XCES Extração de Termos Organização Hierárquica dos Termos Taxonomia

24 METODOLOGIA (ORGANIZAÇÃO HIERÁRQUICA DOS TERMOS) Termos Complexos Padrões de Morin/Jacquemin Padrões de Hearst Corpus XCES Extração de Termos Organização Hierárquica dos Termos Taxonomia

25 ONTOLP Armazenado em Disco Armazenado em Memória Armazenado em Memória Armazenada em Memória Módulo de Importação do Corpus (API XCES) Módulo de Filtro por Grupos Semânticos Módulo de Extração de Termos Simples Módulo de Extração de Termos Complexos Módulo de Organização por Termos Complexos Módulo de Organização baseada nos Padrões de Hearst e Morin/Jacquemin Protégé

26 CONSIDERAÇÕES FINAIS Principal Dificuldade: Escassez de recursos de avaliação Principais Contribuições: Avaliação do uso de informações semânticas na construção de ontologias para o Português Criação de uma ferramenta de uso geral para auxílio ao processo de construção de ontologias Desenvolvimento dos módulos de avaliação automática das etapas executadas

27 CORREFSUM: REVISÃO DE COESÃO REFERENCIAL EM SUMÁRIOS EXTRATIVOS Mestrando: Patricia Nunes Gonçalves Orientadora: Renata Vieira

28 Foco do Trabalho O foco deste trabalho é na análise e na recuperação da coesão referencial nos sumários extrativos que utilizam a escolha de sentenças de maior relevância do texto para compor o sumário.

29 OBJETIVOS Objetivo geral é enriquecer os sumários extrativos com a aplicação de resolução de correferência utilizando a recuperação de expressões referenciais mais completas nos textos-fonte. Tarefas Realizadas: Geração de Sumários Automáticos – GistSumm e SuPor-2 Realizar a revisão da coesão referencial automática desses sumários Avaliar os sumários revisados de forma automática – Rouge Avaliar os sumários revisados de forma subjetiva Realizar experimentos usando anotação automática de correferência.

30 FERRAMENTAS E RECURSOS Palavras [Bick,2002] MMAX[Muller and Strube, 2000] GistSumm[Pardo,2005] Supor-2[Leite,2007] Corpus Summ-it[Collovini et al, 2007] Rouge[Lin, 2004]

31 Programa de Pós-Graduação em Computação Aplicada 31 EXEMPLO [S1]A discussão sobre a biotecnologia nacional está enviesada, pois está sendo entendida como sinônimo de transgenia. [S2]A opinião é do agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina). [S3]Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo. [S4]Com ela, aumentou-se a produção de moranguinho, no sul do país, de 3,2 kg para 60 kg por hectare. [S5]Para o agrônomo, o Brasil deve buscar o desenvolvimento de transgenias que tentem melhorar as condições da agricultura local, como o cultivo de plantas com a capacidade de captar certos elementos presentes na terra. [S6]O presidente da Embrapa (Empresa Brasileira de Pesquisa Agropecuária), Alberto Portugal, salientou que a empresa busca soluções para os problemas da agricultura nacional. [S7]Ele citou o exemplo de pesquisas que, por meio de engenharia genética, buscam obter mamão livre de vírus e feijão também resistente a vírus, culturas de interesse para exportação e consumo interno. [S8]Portugal disse que os agronegócios correspondem a 25% do PIB brasileiro e que a biotecnologia é fundamental para manter a competitividade da agricultura. CIENCIA_2000_6389

32 Programa de Pós-Graduação em Computação Aplicada 32 EXEMPLO [S1]A discussão sobre a biotecnologia nacional está enviesada, pois está sendo entendida como sinônimo de transgenia. [S2]A opinião é do agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina). [S3]Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo. [S4]Com ela, aumentou-se a produção de moranguinho, no sul do país, de 3,2 kg para 60 kg por hectare. [S5]Para o agrônomo, o Brasil deve buscar o desenvolvimento de transgenias que tentem melhorar as condições da agricultura local, como o cultivo de plantas com a capacidade de captar certos elementos presentes na terra. [S6]O presidente da Embrapa (Empresa Brasileira de Pesquisa Agropecuária), Alberto Portugal, salientou que a empresa busca soluções para os problemas da agricultura nacional. [S7]Ele citou o exemplo de pesquisas que, por meio de engenharia genética, buscam obter mamão livre de vírus e feijão também resistente a vírus, culturas de interesse para exportação e consumo interno. [S8]Portugal disse que os agronegócios correspondem a 25% do PIB brasileiro e que a biotecnologia é fundamental para manter a competitividade da agricultura. CIENCIA_2000_6389

33 Programa de Pós-Graduação em Computação Aplicada 33 EXEMPLO [S1]A discussão sobre a biotecnologia nacional está enviesada, pois está sendo entendida como sinônimo de transgenia. [S2]A opinião é do agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina). [S3]Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo. [S4]Com ela, aumentou-se a produção de moranguinho, no sul do país, de 3,2 kg para 60 kg por hectare. [S5]Para o agrônomo, o Brasil deve buscar o desenvolvimento de transgenias que tentem melhorar as condições da agricultura local, como o cultivo de plantas com a capacidade de captar certos elementos presentes na terra. [S6]O presidente da Embrapa (Empresa Brasileira de Pesquisa Agropecuária), Alberto Portugal, salientou que a empresa busca soluções para os problemas da agricultura nacional. [S7]Ele citou o exemplo de pesquisas que, por meio de engenharia genética, buscam obter mamão livre de vírus e feijão também resistente a vírus, culturas de interesse para exportação e consumo interno. [S8]Portugal disse que os agronegócios correspondem a 25% do PIB brasileiro e que a biotecnologia é fundamental para manter a competitividade da agricultura. CIENCIA_2000_6389

34 Programa de Pós-Graduação em Computação Aplicada 34 RESULTADO Sumário Automático Sumário Corrigido O agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina) citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo. Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo. CIENCIA_2000_6389

35 Programa de Pós-Graduação em Computação Aplicada 35 RESULTADO Sumário Automático Sumário Corrigido O agrônomo Miguel Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo. Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo. CIENCIA_2000_6389 Utilizando 1º Aposto

36 MÉTODOS Utiliza sistema de pontuação. Métodos implementados para pontuação: Maior Sintagma - Sars (sigla em inglês para síndrome respiratória aguda grave) Primeiro Sintagma da Cadeia - a proteína beta- amilóide.... a proteína..... ela... Possui Aposto - a gripe de 1918, a chamada gripe espanhola Possui Proprio – Jonas Perales do Laboratório de Toxinologia

37 EXPERIMENTOS GistSumm Supor-2 QTDE CADEIAS CORPUS QTDE CADEIAS NO SUMÁRIO QTDE. TROCAS TX COMPRESS. ORIG.(%) TX COMPESS. CORRIG(%) SOMA MÉDIA 11,726,601,7825,3028,36 QTDE CADEIAS CORPUS QTDE CADEIAS NO SUMÁRIO QTDE. TROCAS TX COMPRESS. ORIG.(%) TX COMPESS. CORRIG(%) SOMA MÉDIA 11,726,761,523,1425,52

38 AVALIA Ç ÃO AUTOM Á TICA - ROUGE GistSumm SuPor-2 GISTSUMM-ORIGINALGISTSUMM-CORRIGIDO COBERTURAPRECISÃOF-MEASURECOBERTURAPRECISÃOF-MEASURE MÉDIA 45,5954,9049,2650,8554,7452,28 SUPOR-2-ORIGINALSUPOR-2-CORRIGIDO COBERTURAPRECISÃOF-MEASURECOBERTURAPRECISÃOF-MEASURE MÉDIA 48,3763,0754,3353,1564,0857,36

39 AVALIAÇÃO SUBJETIVA - INFORMATIVIDADE GistSumm Supor-2

40 EXPERIMENTOS Sistema de Resolu ç ão Autom á tica de Correferência ANOTAÇÃO MANUALANOTAÇÃO AUTOMÁTICA Nº CADEIAS NO CORPUS Nº CADEIAS NO SUMÁRIO NUM. TROCASNº CADEIAS NO CORPUS Nº CADEIAS NO SUMÁRIO NUM. TROCAS SOMA (67%)194 (58%)34 (40%) MÉDIA11,726,601,787,863,880,72

41 EXPERIMENTOS Sistema de Resolu ç ão Autom á tica de Correferência Rouge PrecisãoCoberturaF-measure Originais 45,5954,9449,26 Cadeias Manuais 50,8554,7452,28 Cadeias Autom. 54,6047,0349,96

42 CONSIDERAÇÕES FINAIS Enriquecimento dos sumários extrativos Manutenção da coesão referencial dos sumários Primeira abordagem para língua portuguesa Construção de uma interface para usuários

43 WordNet Affect BR: base lexical de emoções para a língua portuguesa Mestrando: Paulo Pasqualotti Orientadora: Renata Vieira

44 Objetivos Construir uma base lexical de emoções para a língua portuguesa denominada de WordNet Affect BR; Propor uma ferramenta de chat com o reconhecimento das palavras de emoção presentes no diálogo entre usuários e sua representação visual por meio de imagens;

45 Fundamentação PLN e Computação Afetiva Reconhecer e representar palavras de emoção. Teoria psicológica cognitiva de emoções Modelo OCC: as emoções surgem a partir da avaliação cognitiva que um sujeito faz a partir da desejabilidade de um evento, das ações de agentes e da atratividade dos objetos.

46 Recursos WordNet WordNet Affect

47 Metodologia Criação da base; Tradução das palavras; Validação.

48 Ferramenta de Chat: Emoticon

49 WordNet Affect BR 289 palavras: adjetivos e substantivos; Possibilidades de estender a base Metáforas; Bigramas, trigramas, expressões completas; Palavras regionais, gírias,...; Gênero (a/o), número(s/p); Conjugação de verbos; Primitiva e derivadas; Caracteres emoticons: :-) ;...

50 Avaliação Imagens representando palavras de emoções Formulário para avaliação da imagem quanto ao seu significado de emoções, representando o grupo de palavras. ADJETIVOS : arrependido, contrito, penitente, pesaroso; SUBSTANTIVOS : arrependimento, auto- reprovação, compunção, consciência pesada, culpa, penitência, remorso, sentimento de culpa.

51 Avaliação Resultados

52 Publicações

53 Publicações Instruções para anotação de relações anafóricas e referência dêitica. Autores: Jorge Cesar Coelho, Sandra Collovini e Renata Vieira. Relatório Técnico Resolving Portuguese Nominal Anaphora. Autores: Jorge Cesar Coelho, Vinicius Muller, Sandra Collovini, Renata Vieira e Lucia Rino. PROPOR 2006 Learning Discourse-new References in Portuguese Texts. Autores: Sandra Collovini e Renata Vieira. WCC Análise de Expressões Referenciais em Corpus Anotado da Língua Portuguesa. Autores: Sandra Collovini e Renata Vieira. CTDIA 2006 Anáforas nominais definidas: balanceamento de corpus e classificação. Autores: Sandra Collovini e Renata Vieira. TIL 2006 Proposta de um Esquema de Anotação Lingüística para Construção de Corpora Anotados da Língua Portuguesa – Autores: José Guilherme Souza, Patricia Nunes Gonçalves e Renata Vieira. TIL 2006 Semantic tagging for resolution of indirect anaphora. Autores:Renata Vieira; Eckhard Bick; Jorge César Coelho; Vinicius Muller; Sandra Collovini; José Guilherme de Souza; Lúcia Rino. SIGdial 2006.

54 Publicações 2007 Summ-it: um corpus anotado com informações discursivas visando à sumarização automática – Autores: Sandra Collovini de Abreu, Thiago Carbonel, Jorge Cesar Coelho, Juliana Fuchs, Lucia Rino e Renata Vieira. TIL Informações Semânticas na Identificação de Anáforas Indiretas e Associativas. Autores: Luiz Carlos Ribeiro, Sandra Collovini, Patricia Nunes Gonçalves, Vinicius Muller e Renata Vieira. TIL 2007

55 Publicações PROPOR 2008 CorrefSum: Referencial Cohesion Recovery in Extractive Summaries - Autores: Patricia Nunes Gonçalves, Lucia Rino, Renata Vieira Using Semantic Prototypes for Discourse Status Classification Autores: Sandra Collovini, Luiz Carlos Ribeiro Junior, Patricia Nunes Gonçalves, Vinicius Muller e Renata Vieira Automatic Coreference Resolution Applied to Portuguese Autores: José Guilherme C. de Souza, Patricia Nunes Gonçalves e Renata Vieira SEMISH 2008 OntoLP: um Sistema de Auxilio à Engenharia de Ontologias baseado em Textos da Língua Portuguesa - Autores: Luiz Carlos Ribeiro Jr e Renata Vieira


Carregar ppt "Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica."

Apresentações semelhantes


Anúncios Google