Monitoração de Qualidade de água com o uso de Dados simbólicos Afonso Gustavo Ataide Ferreira
Cenário Preocupação Mundial Escassez Escassez Conflitos Armados Conflitos Armados Mundo volta-se para a qualidade. (IQA) Mundo volta-se para a qualidade. (IQA) Iniciativas Brasileiras Conama Conama ANA ANA
Roteiro Estado da Arte Metodologia Resultados Conclusões e Trabalhos Futuros
Estado da Arte Classificação de Amostras de Água
CONRADS (MLP x Branch/BLTM) YONG (SOM x MLP) BARUAH (MLP)
Estado da Arte Análise de Dados Simbólicos
Dado Numérico Dado Categórico Conjuntos Intervalos Numéricos Conjuntos associados a pesos
Análise de Dados Simbólicos PessoaIdadeAltura(m)Peso(kg)Sexo W1W1 181,795M W2W2 251,651F W3W3 601,5860F W4W4 141,555M W5W5 101,142F GrupoIdadeAltura (m)Peso (kg)Sexo G1G1 {(Pré-adolescente, 2/5), (Adolescente,1/5), (Adulto, 2/5)} {(Alto, 1/5), (Médio, 2/5), (Baixo, 1/5) } { (Magro, 1/5), (Normal, 3/5), (Gordo, 1/5) } {(M, 2/5), (F, 3/5)}
Classificador Simbólico Amostras: Espaço:
Classificador Simbólico Join:
Classificador Simbólico Aprendizagem: Sem Mutual Neighborhood Graph Mutual Neighborhood Graph: Múltiplas regiões. Múltiplas regiões. Sem interseção com outras classes. Sem interseção com outras classes.
Classificador Simbólico Classificação:
Metodologia Coleta de Dados Seleção de Variáveis Limpeza dos Dados Análise dos Dados Divisão dos Conjuntos
Coleta de Dados Bases da CETESB 35 Características IQA e outros índices onze rios, 239 amostras.
Seleção de Variáveis
Oxigênio Dissolvidos Coliformes Fecais Potencial Hidrogeniônico (pH) Demanda Bioquímica de Oxigênio Temperatura Nitrogênio Total Fósforo Total Turbidez Resíduo Total
Limpeza dos Dados Valores não numéricos Ex: NKT < 0,2 Ex: NKT < 0,2
Limpeza dos Dados Valores Ausentes: Substituídos pela média da classe Substituídos pela média da classe
Análise dos Dados Tamanho do conjunto
Análise dos Dados
Conjuntos de Treinamento e Teste Hold-out estratificado (50 – 50) ClasseTreinamentoTeste C01009 C277 C312 C421
Resultados ProtótipoExperimentos
Protótipo Java J2SE1.5 Tanagra
Experimentos Classificador Simbólico: Taxa de Erro: 21,20% Taxa de Erro: 21,20% Desempate: Maior Volume Desempate: Maior Volume
Experimentos K-Vizinhos (5-nn) Distância: Euclidiana Distância: Euclidiana Taxa de Erro: 28,84% Taxa de Erro: 28,84%
Experimentos Classificador Simbólico: Taxa de Erro: 29,63% Taxa de Erro: 29,63% Desempate: Menor Volume Desempate: Menor Volume
Resultados Teste Estatístico 1000 iterações 1000 iterações
Conclusões
Conclusões Classificador Simbólico um pouco melhor que o k-vizinhos Performance ruim em algumas classes Utilização de MNG aumentou taxa de erro.
Trabalhos Futuros
Mudança do formato de Região H-Region H-Region Adaptação do algoritmo de MNG Testes com outras bases de Dados
Referências ANA – Agência Nacional de Águas Java – ICHINO, M., YAGUCHI, H. AND DIDAY, E.: A fuzzy symbolic pattern classifier In: Diday, E. et al (Eds.): Ordinal and Symbolic Data Analysis. Springer, Berlin, (1996) 92–102 D’OLIVEIRA, S. T., CARVALHO, F.A.T., SOUZA, R. M. C. R.. A Classifier for Quantitative Feature Values Based on a Region Oriented Symbolic Approach. C. Lemaître, C.A. Reyes, J. A. Gonzalez: IBERAMIA 2004, LNAI 3315 pp ,2004 TANAGRA. TANAGRA - A Free DATA MINING Software for Teaching and Research. Disponível em:. Acesso em: Janeiro 2006.