A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Apresentação de uma metodologia de extração da estrutura de formulários de tipo Tabela. 1º módulo: Células detectadas pela transformada Watershed. 2º módulo:

Apresentações semelhantes


Apresentação em tema: "Apresentação de uma metodologia de extração da estrutura de formulários de tipo Tabela. 1º módulo: Células detectadas pela transformada Watershed. 2º módulo:"— Transcrição da apresentação:

1 Apresentação de uma metodologia de extração da estrutura de formulários de tipo Tabela. 1º módulo: Células detectadas pela transformada Watershed. 2º módulo: células inválidas provenientes de artefatos eliminados a partir de uma análise estatística baseada em área, perímetro e fator de compacidade. INTRODUÇÃO 1º MÓDULO: IDENTIFICAÇÃO DOS OBJETOS AGRADECIMENTOS Extração Automática da Estrutura de Documentos Formulários de Tipo Tabela Baseada na Segmentação pela Transformada Watershed Rafaela Dandoloni Felipe, Jacques Facon (co-orientador), Luiz Antônio Pereira Neves (Orientador) PPGIA - Programa de Pós Graduação em Informática Aplicada - PUCPR - Pontifícia Universidade Católica do Paraná 2º MÓDULO: ANÁLISE ESTATÍSTICA CONCLUSÕES EXPERIMENTOS & RESULTADOS Identificação das regiões da tabela delimitadas por linhas Extração sem conhecimento prévio do número de células e da presença ou da ausência de dados manuscritos Uso da transformada Watershed aplicada à imagem do gradiente da imagem da tabela empregando como marcador a imagem limiarizada (pela técnica de Ostu) invertida e dilatada da imagem da tabela. Imagem Original Imagem limiarizada invertida e dilatada Imagem gradiente invertida Imagem Watershed Filtragem baseada na análise estatística usando perímetro P, área S e fator de compacidade Fc. Fator de compacidade Comparação entre os fatores de compacidade de um artefato e segmento de linha da tabela Primeira metodologia: Fator de compacidade verificado apenas para regiões cuja área é menor que a média das áreas de todas as regiões. Adoção empírica (após ter analisado 80 objetos manuscritos) de m Limiar de FC = 1,4. Regiões apresentando um área menor que a média das áreas, e um fator de compacidade menor que 1.4 eliminadas. Segunda metodologia: Uso do Perímetro P, área S, fator de compacidade Fc. 1ª regra: A região é uma célula se 2ª regra: A região é uma célula se 3a regra: A região é uma célula se Decisão Estatística: A região é considerada como célula se for possível validar 2 das 3 regras GERAÇÃO DE REGIÕES FALSAS Extração não perfeita das regiões da tabela Aparição de artefatos não pertencendo à estrutura original Artefato = ruídos e dados manuscritos inseridos. Exemplo de regiões extraídas devido a artefatos inseridos Foi apresentada uma metodologia de extração da estrutura de formulários de tipo Tabela baseada na transformada Watershed seguida de uma análise estatística. Os resultados mostraram a metodologia ser promissora para tabelas apresentando layouts diversos, com cantos quadradas e arredondados podendo conter dados manuscritos e pré-impressos. Exemplo 1 de regiões eliminadas e preservadas Exemplo 3 de regiões eliminadas e preservadas Exemplo 2 de regiões eliminadas e preservadas Testes com 317 tabelas com diversos layout e com cantos quadrados e arredondados Taxas de erro na extração de cantos PUCPR Os autores agradecem a Pontifícia Universidade Católica do Paraná pelo apóio financeiro concedido na forma de bolsa PIBIC/PUCPR para a realização deste trabalho.


Carregar ppt "Apresentação de uma metodologia de extração da estrutura de formulários de tipo Tabela. 1º módulo: Células detectadas pela transformada Watershed. 2º módulo:"

Apresentações semelhantes


Anúncios Google