A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

PCS - Departamento de Engenharia de Computação e Sistemas Digitais Projeto de Formatura – Turmas 2008 Integrantes: Professor Orientador: Engenharia de.

Apresentações semelhantes


Apresentação em tema: "PCS - Departamento de Engenharia de Computação e Sistemas Digitais Projeto de Formatura – Turmas 2008 Integrantes: Professor Orientador: Engenharia de."— Transcrição da apresentação:

1 PCS - Departamento de Engenharia de Computação e Sistemas Digitais Projeto de Formatura – Turmas 2008 Integrantes: Professor Orientador: Engenharia de Computação André Felipe Santos ( andre.felipe@poli.usp.br ) Celso Vital Crivelaro ( celso.crivelaro@poli.usp.br ) Ricardo Luis de Azevedo Rocha ( luis.rocha@poli.usp.br ) Extração de Informações de Textos Jornalísticos sobre Futebol O objetivo do trabalho é a extração de informações sobre uma partida de futebol como times, jogadores, gols e resultados a partir de textos jornalísticos sobre o tal esporte. Objetivo Material e Método Assim, é armazenada a informação sobre uma estrutura de dados para apresentação sobre um texto que serve para pesquisa e mineração de dados sobre um campeonato ou série de jogos transformando uma informação não-estruturada em uma informação estruturada. Para o uso da extração é usado o framework nltk (Natural Language Toolkit) para Python. Trata-se de um framework bem rico para pesquisa e desenvolvimento de processamento de linguagem natural. Com isso, usaremos o framework Django para o desenvolvimento Web em conjunto com o banco de dados PostreSQL. Para realizar a análise léxica, foi usado POS Tagger Treetagger feito pela Universidade de Stuttgart e treinado com corpus em língua portuguesa. O POS Tagger é um analisador morfossintático usando no console do Linux, fornecendo resultados como classificação de palavras em substantivos, verbos, etc.. Em seguida temos a análise sintática para classificar estruturas de interesse. A abordagem para o processamento de texto possui etapas muito análogas às de um compilador, passando pelas fases de análise léxica, sintática e semântica. Por fim, aplicamos análise semântica obtendo de fato as informações desejadas, que são armazenadas no banco de dados. Com o banco de dados preenchido pela extração de informações, temos todo esse material disponível para exibição ao usuário. A interface do mesmo é através de uma página Web, na qual há uma caixa de texto em que o usuário insere os termos de seu interesse. Como massa de dados a ser tratada, reunimos todas as notícias de resultados do campeonato paulista de 2008. Portanto, as entradas esperadas são termos relativos ao mesmo: clubes de primeira divisão deste campeonato. Com uma entrada dada, são processados os termos, identificando quais são, e que tipo de termos é: clubes, resultados, estádios. Com as possíveis combinações, são retornadas as páginas que se acredita ser de interesse do usuário. Pela arquitetura apresentada conseguimos usar ferramentas diferentes para cada fase do processamento lingüístico. Assim, conseguimos fazer um tratamento isolado para a parte Léxica, Sintática e Semântica. Devido a complexidade de uma análise morfo-sintática, conseguimos extrair informações simples, porém, essenciais para as fases seguintes. Resultados Conclusões O projeto apresenta uma forma de transformar um grupo de informações não-estruturadas em informações estruturadas. Para isso foi usado recursos de processamento de linguagem natural, com frameworks específicos. Com essas informações estruturadas podemos fazer buscas elaboradas e também recursos de mineração de dados na busca de padrões. Figura 1 : Arquitetura do extrator de informações Figura 2: Arquitetura Geral do Sistema


Carregar ppt "PCS - Departamento de Engenharia de Computação e Sistemas Digitais Projeto de Formatura – Turmas 2008 Integrantes: Professor Orientador: Engenharia de."

Apresentações semelhantes


Anúncios Google