Marcelo Ladeira, Ph.D Departamento de Ciência da Computação

Construção e Avaliação de Modelos com o UnBMiner, Ferramenta Aberta para Mineração de Dados
Marcelo Ladeira, Ph.D Departamento de Ciência da Computação Universidade de Brasília I Congresso de Computação do Sul do Mato Grosso Rondonópolis/MT, 8 a 11/11/2005 11/11/2005

Sumário Conceituação de KDD Tarefas de Mineração de Dados
Aprendizagem de Máquina Tarefas de Mineração de Dados Exemplo Simples Metodologia CRISP-DM Visão Geral do UnBMiner Estudo de Caso Lupa Digital (apoio a identificação de criminosos) Conclusões

Knowledge Discovery in Databases
1. Conceituação de KDD Quanto ao resultado “Processo, não trivial, de extração de informações, implícitas, previamente desconhecidas e úteis, a partir dos dados armazenados em um banco de dados.” [Frawley, Piatetsky-Shapiro & Matheus,1991] Quanto ao processo “Tarefa de descoberta de conhecimento intensivo, consistindo de interações complexas, feitas ao longo do tempo, entre o homem e uma grande base de dados, possivelmente suportada por um conjunto heterogêneo de ferramentas.” [Brachman & Anand,1995] Knowledge Discovery in Databases

1. KDD – Definição Formal Processo não trivial de identificação de padrões em conjunto de dados que possuam as características de: validade os padrões devem ser válidos para novos dados, com algum grau de certeza ou probabilidade. novidade os padrões devem ser novos, ou seja, ainda não foram detectados por nenhuma outra abordagem. utilidade potencial: os padrões devem poder ser utilizados para a tomada de decisões úteis, medidas por alguma função ou critério. assimiláveis: os padrões devem ser assimiláveis ao conhecimento humano. Fayyad, Piatetsky, Smyth & Uthurusamy. From Data Mining to Knowledge Discovery: An Overview. In: Advances in Knowledge Discovery and Data Mining, 1ed. AAAIPress, The MIT Press, 1996

1. KDD – Áreas de Interação
Estatística Reconhecimento de padrões e aprendizagem de máquina Extração de padrões e construção de modelos Inteligência artificial (conhecimento simbólico) Representação e interpretação de conhecimento Inteligência computacional (conhec. numérico) Aprendizagem e generalização Banco de dados

1. Etapas do Processo de KDD
O processo é iterativo e cíclico e a saída de uma etapa pode requerer uma revisão em uma etapa anterior.

1. KDD Mineração de Dados Avaliação de dados eletrônicos com a ajuda de técnicas de aprendizagem para que se possa encontrar relações ou padrões entre eles, visando: descobrir novos fatos, regularidades, restrições ou relacionamentos, a partir da análise dos dados. encontrar e descrever padrões estruturais (modelos) nos dados, como uma ferramenta que ajuda a explicar e fazer previsões. Entrada: conjunto de treinamento (envolve algum conceito a ser aprendido). Saída: modelo (representa forma de predizer novos dados). Podem existir muitas descrições alternativas (modelos) que explicam os dados: em geral, opte pelo mais simples. testar a validar de hipóteses (idéias pré-formuladas) Entrada: idéias e conjunto de treinamento que permita avaliá-las. É uma etapa do processo de KDD. Forte relacionamento com a área de banco de dados, por exemplo, Intelligent Miner da IBM.

1. KDD 1.2 Aprendizagem de Máquina
Área de pesquisa em Inteligência Artificial. O aprendizado de máquina envolve a idéia de aprendizagem (generalização ou especialização de conceitos) através de análise de dados. Fortemente baseada no uso de técnicas estatísticas para análise de dados.

2. Tarefas de Mineração de Dados
Os principais objetivos de alto nível são a previsão e a descrição. A previsão envolve usar algumas variáveis ou campos da base de dados para prever valores desconhecidos ou futuros de variáveis de interesse. A descrição se concentra em encontrar padrões que descrevem os dados, que sejam interpretáveis pelos seres humanos. No contexto de KDD, a descrição tende a ser mais importante que a previsão, ao contrário das aplicações de aprendizado de máquina e reconhecimento de padrões. Os objetivos de previsão e descrição são alcançados através da realização das tarefas básicas de mineração.

2. Tarefas de Mineração de Dados 2.1 Exemplo Simples
Considere uma distribuição correspondendo aos atributos renda e dívida de um correntista. Cada pessoa foi classificada como bom pagador (o) ou mau pagador (x)

2. Tarefas de Mineração de Dados 2.1 Classificação
Consiste em aprender uma função que mapeia (classifica) um item de dado para uma entre várias classes pré-definidas. Superfície de decisão linear Se w1.renda + w2.dívida < t, então cliente não paga o empréstimo (x) Possui erro associado. Exemplo extraído de slides preparados pelo Prof. Paulo Martins Engel - UFRGS

2. Tarefas de Mineração de Dados 2.1 Regressão
Consiste em aprender uma função que mapeia um item de dado para uma variável de previsão de valor real. Exemplo extraído de slides preparados pelo Prof. Paulo Martins Engel - UFRGS

2. Tarefas de Mineração de Dados 2.1 Agrupamento (clustering)
Tarefa descritiva onde se procura identificar um conjunto finito de categorias ou agrupamentos que descrevem os dados. Exemplo extraído de slides preparados pelo Prof. Paulo Martins Engel - UFRGS

2. Tarefas de Mineração de Dados 2.1 Sumarização
Envolve métodos para encontrar uma descrição compacta para um subconjunto de dados. Um exemplo simples seria a tabulação da média e dos desvios padrões de todos os campos. Métodos mais sofisticados envolvem derivar regras gerais, técnicas de visualização para múltiplas variáveis e a descoberta de relações funcionais entre variáveis. Estas técnicas são usadas na análise exploratória interativa e na geração automática de relatórios.

2. Tarefas de Mineração de Dados 2.1 Modelagem de Dependências
Consiste em encontrar um modelo que descreva dependências significativas entre variáveis. Modelos de dependências existem em dois níveis: o nível estrutural do modelo especifica quais as variáveis são localmente dependentes entre si. O nível quantitativo especifica as intensidades das dependências usando alguma escala numérica. As redes probabilísticas são exemplo desta modelagem Redes bayesianas, diagramas de influências, naive Bayes, TAN (Tree Augmented Naive Bayes), BAN (Bayesian Augmented Naive Bayes)

2. Tarefas de Mineração de Dados 2.1 Modelagem de Dependências
Rede bayesiana, diagrama de influências, Naive Bayes, TAN e BAN

2. Tarefas de Mineração de Dados 2.1 Detecção de Desvios
Enfoca a descoberta das modificações mais significativas nos dados em relação aos valores médios históricos. É utilizada, por exemplo, na identificação de fraudes.

2. Tarefas de Mineração de Dados 2.1 Associação
O problema da cesta de compras assume que tenhamos um grande número de itens, p.ex., “pão”, “leite”, etc. Os clientes enchem as suas cestas de compras com um subconjunto desses itens e nós dispomos da informação sobre quais itens foram comprados juntos para cada cliente. Regras associativas: {X1, X2, ..., Xn}  Y se encontrarmos todos os itens X1, X2, ..., Xn na cesta de compras, então nós temos uma boa chance de encontrar também Y.

3. Metodologia CRISP-DM Cross Industry Process Model for Data Mining
Modelo de processo hierárquico que parte de um conjunto de tarefas mais gerais para um conjunto de tarefas mais específicas, discriminadas em quatro níveis de abstração: no topo da hierarquia, o processo de MD é organizado em fases; as fases, por sua vez, são constituídas por diversas tarefas genéricas, que formam o segundo nível da hierarquia; o terceiro nível, de tarefas especializadas, envolve a descrição de como as ações das tarefas genéricas são aplicadas em situações específicas. Por exemplo, uma tarefa genérica do segundo nível é a limpeza de dados. No terceiro nível, essa tarefa seria descrita em diferentes situações, tais como limpeza de valores numéricos ou de valores categóricos. o quarto nível, de instâncias do processo, é um registro das ações, decisões e resultados da mineração de dados de uma aplicação em particular.

3. Metodologia CRISP-DM Fases

3. Metodologia CRISP-DM Entendimento do Negócio
Foca o entendimento dos objetivos e requerimentos do projeto, da perspectiva do domínio, a relevância do conhecimento prévio e os objetivos do usuário final. Nessa etapa são elaborados o plano do projeto, especificando os passos a serem executados no resto do projeto e a definição do problema. Também denominada entendimento do domínio

3. CRISP-DM Entendimento dos Dados
Seleção do conjunto de dados Análise dos dados identificar problemas de qualidade descobrir os primeiros conhecimentos descrição dos dados formato, quantidade de registros e campos distribuição dos atributos, relacionamentos entre pares de atributos, identificação de agrupamentos ou subconjuntos existentes nos dados

3. CRISP-DM Preparação dos Dados
Seleção de atributos, limpeza, construção, integração e formatação dos dados de entrada remoção de ruído ou de dados espúrios, estratégias para lidar com valores faltantes, formatação dos dados para a ferramenta a usar, criação de atributos derivados e de novos registros, integração de tabelas, discretização dos dados numéricos, se necessário. Pré-processamento dos dados

3. Metodologia CRISP-DM Modelagem
Quais modelos e parâmetros usaremos? função do tipo de dados (numéricos ou nominais). problema de mineração de dados. Elaboração do plano de testes permitir avaliar os modelos gerados. Divisão da massa de dados: conjunto de treinamento, conjunto de testes conjunto de validação.

3. Metodologia CRISP-DM Avaliação
Avaliar a qualidade dos modelos obtidos no treinamento do ponto de vista de análise dos dados. critério para seleção entre modelos. Classificadores Matriz de confusão Taxa de TP líquida i TPi * (1-FPi) Verificar se os objetivos do negócio foram atingidos de acordo com os critérios de sucesso adotados .

3. Metodologia CRISP-DM Colocação em Uso
Modelo selecionado incorporado ao processo de tomada de decisão da organização Plano de monitoração e manutenção previne uso incorreto dos resultados do mineração, durante um longo período de tempo.

3. Metodologia CRISP-DM Resumo

4. Visão Geral do UnBMiner
Framework e API para mineração de dados Software aberto (licença GNU GPL) em Java. Grupo de IA da Universidade de Brasília Suporte ao modelo CRISP-DM Pré-processamento Modelagem redes probabilísticas (Naive Bayes e redes bayesianas), árvores de decisão (algoritmos ID3 e C4.5), CNM (Modelo Neural Combinatório) redes neurais multi-camadas (backpropagation) Avaliação

4. Visão Geral do UnBMiner Arquivos Arff e Texto
@relation weather.symbolic @attribute outlook {sunny, overcast, rainy} @attribute temperature {hot, mild, cool} @attribute humidity {high, normal} @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,hot,high,FALSE,no sunny,hot,high,TRUE,no overcast,hot,high,FALSE,yes rainy,mild,high,FALSE,yes rainy,cool,normal,FALSE,yes rainy,cool,normal,TRUE,no overcast,cool,normal,TRUE,yes sunny,mild,high,FALSE,no sunny,cool,normal,FALSE,yes rainy,mild,normal,FALSE,yes sunny,mild,normal,TRUE,yes overcast,mild,high,TRUE,yes overcast,hot,normal,FALSE,yes rainy,mild,high,TRUE,no outlook temperature humidity windy play sunny hot high FALSE no sunny hot high TRUE no overcast hot high FALSE yes rainy mild high FALSE yes rainy cool normal FALSE yes rainy cool normal TRUE no overcast cool normal TRUE yes sunny mild high FALSE no sunny cool normal FALSE yes rainy mild normal FALSE yes sunny mild normal TRUE yes overcast mild high TRUE yes overcast hot normal FALSE yes rainy mild high TRUE no

4. Visão Geral do UnBMiner Janela de Abertura

4. Visão Geral do UnBMiner Ferramentas Disponíveis

4. Visão Geral do UnBMiner Pré-processador

4. UnBMiner Tarefas de Mineração de Dados
Associação CNM Classificação ID3, C4.5, Naive Bayes e redes neurais TAN e BAN estão em desenvolvimento. Novas facilidades estão disponíveis no NNTK – Neural Network Toolkit Rede Levenberg-Marquardt Rede RBF

4. Visão Geral do UnBMiner Problema de Classificação
Diversas variáveis de atributo Única variável de classe Banco de dados histórico Construir modelo de classificação Inferir o valor da classe a partir do conhecimento atributos.

4. Visão Geral do UnBMiner Base de Dados Categóricos

4. Visão Geral do UnBMiner Base de Dados Numéricos

4. Visão Geral do UnBMiner Árvore de Decisão

4. Visão Geral do UnBMiner Naive Bayes
Classificador probabilístico

4. Visão Geral do UnBMiner CNM Modelo Neural Combinatório
Machado, R.J. & Rocha, A.F. da, (1989). “Handling Knowledge in High Order Neural Networks: The Combinatorial Neural Model”. In: International Joint Conference on Neural Networks. Washington. TR CCR076 Podemos derivar regras de associação a partir dessa topologia.

4. Visão Geral do UnBMiner CNM Modelo Neural Combinatório
Regra se X então Y.

4. Visão Geral do UnBMiner Redes Neurais Backpropagation

4. Visão Geral do UnBMiner Avaliação
=== Run information === Scheme: NeuralNetwork Relation: weather.symbolic Instances: Attributes: outlook temperature humidity windy play ClassAttribute: play Test mode: === Classifier model === Learning Rate: 0.3 Momentum: 0.2 Hidden Layer Size: 3 Training Time: 400 Activation Function: Sigmoid Learning Rate Decay: false Numerical Input Normalization: No normalization Activation Function Steep: 1.0 Class Attribute: play === Summary === Correctly Classified Instances % Incorrectly Classified Instances % Quadratic loss function Total Number of Instances === Detailed Accuracy By Class === TP Rate FP Rate TN Rate FN Rate Class yes no === Confusion Matrix === a b <-- classified as 9 0 | a = yes 0 5 | b = no

5. Estudo de Caso Detecção de fraudes em cartões de crédito
Busca decadactilar de impressões digitais Lupa Digital Diagnóstico médico Cardiopatias congênitas Pedotransferência de água

5.1 Estudo de Caso – Lupa Digital Atribuições do INI/DPF
Analisar, classificar, pesquisar e arquivar individuais datiloscópicas. Proceder à busca e comparações de individuais datiloscópicas. Prestar informações com base no arquivo datiloscópico e prontuários criminais. Efetuar confronto dos processos de reincidentes para fins de confirmação de registro.

Tipo primário e fórmula.
10/04/2017 5.1 Problema ? Tarefa “impossível” se formos utilizar métodos manuais. Tipo primário e fórmula.

5.2 Datiloscopia Processo de identificação das pessoas por meio do estudo dos seus desenhos digitais. "daktilos" - (dedos) e "skopêin" - (examinar). Extrema variabilidade, imutabilidade e perenidade dos desenhos digitais. Existência e localização do “delta”.

5.2 Sistema de Vucetich Definiu 4 classes: Foram acrescentadas:
Arco: 1 ou A Presilha interna: 2 ou I Presilha externa: 3 ou E Verticilo: 4 ou V Foram acrescentadas: Anômalo: 5 Cicatriz: 6 Amputação (ou falta): 7 N N

5.2 Sistema de Vucetich Baseado no número e localização do delta

5.2 Sistema de Vucetich Classificação dos Datilogramas: Arco Verticilo
suas linhas correm de um lado a outro, normalmente não apresenta delta. Verticilo apresenta dois deltas e um círculo.

5.2 Sistema de Vucetich Classificação dos Datilogramas
Presilha interna laçada central e delta à direita do observador. Presilha externa laçada central e delta à esquerda do observador.

5.2 Sistema de Vucetich Classificação dos Datilogramas: Anômalos
constituídos pela combinação dos tipos anteriores. Cicatriz deformidade causada por doença ou acidente que impede a sua classificação. Amputação total ou parcial.

5.2 Sistema de Vucetich Fórmula datiloscópica:
 Mão direita  Mão esquerda Existem = fórmulas possíveis. Existem sub-tipos para cada tipo fundamental.

5.3 Organização do arquivo
MD , , , , , , , , , ME MD , , , , , , , , , ... MD , , , , , , , , , ME

5.4. Objetivos Modelar o domínio impressões digitais utilizando algoritmos de mineração de dados. Projeto e implementação de uma ferramenta para uso na Polícia Federal (AIM ou Lupa Digital). Geração de bibliografia técnica sobre a aplicação de mineração de dados no domínio de datiloscopia.

* Automatic Fingerprint Information System
5.5 Hipótese de Pesquisa Obter um, ou mais, modelos de classificador que gerasse (complementasse) os códigos Vucetich para as impressões digitais dos dedos faltantes e, desta forma, reduzisse o espaço de busca em pesquisa manual ou automatizada (AFIS*) de identificação de impressões digitais. * Automatic Fingerprint Information System

5.6 Entendimento dos Dados
Arquivo Base O arquivo base foi extraído em novembro de 2000, na forma de documento texto (.txt) com: 53,26MB de tamanho. total de registros. MECA-Sinic: base com registros, devido Constituição de 1988. Estrangeiros. Fórmulas não digitadas no Sinic. Arquivo fornecido por Marcos Elias, DPF/INI.

Análise Estatística Descritiva fórmulas  amostra de de ID. Resto das fórmulas  88,74%. Embora use codificação numérica, os dados não categóricos.

Análise Estatística Descritiva Freqüência = 1  4,75% Freqüência = 2  2,01% Freqüência = 3  1,38% Freqüência = 4  1,13% Freqüência = 5  0,95% Percentual de fórmulas com distribuição de freqüência menor que 1% = 90,72%

Arquivo B

Arquivo C

5.7 Pré-processamento dos Dados
Limpeza Preenchimento de atributos. Registros duplicados. Valores faltantes (padronizar). Seleção Excluir código de sub-classificação e dados de estrangeiros. Arquivos de treinamento e avaliação. Enriquecimento Arquivo com cútis. Formatação Adequação ao formato ARFF. Geração de MV (missing values) para avaliação. em procedimento de complementação de dados faltantes.

5.8 Avaliação Formalismos Avaliados
10 classificadores (um para cada dedo) Árvores de decisão; Redes bayesianas; Naive Bayes; Rede neural de retropropagação; CNM (modelo neural combinatório).

5.8 Avaliação Seleção de Modelos

5.8 Avaliação Arquivo A

5.8 Avaliação Arquivo B

5.8 Avaliação Redes Neurais de Retropropagação
Definição do número de épocas. Definição das taxas de aprendizagem () e momento (). Definição do tamanho da camada oculta. Validação do número de épocas. Geração dos modelos para cada dedo.

5.8 Avaliação Redes Neurais de Retropropagação

5.8 Avaliação (Arquivo A) Complementação com 7 MV
Complementa valores faltantes apenas para casos mais óbvios!

5.8 Avaliação (Arquivo B) Complementação com 7 MV
Falha ao complementar valores faltantes para casos não triviais.

5.8 Avaliação (Arquivos A e B) Complementação com 3 MV
Melhora o desempenho se tem que complementar menos dados faltantes.

5.9 Sistema Lupa Digital

5.9 Sistema Lupa Digital Pesquisa “Não Conhece Mão”

5.9 Sistema Lupa Digital Pesquisa “Conhece Mão”

5.9 Sistema Lupa Digital Resultado de 4-33?? / ?-223?

5.9 Sistema Lupa Digital Associação com Registros Federais

5.9 Sistema Lupa Digital Gera lista de RFs
Pode ser utilizada pela solução AFIS para otimizar a busca automatizada. Facilita o processo de conferência visual das digitais. Gera lista de fórmulas ordenadas decrescente de probabilidade. Orienta a busca manual. Colhe estatísticas imediatas sobre as pesquisas requeridas.

6. Conclusões e Resultados
Gera conhecimento no domínio. Divisão do MECA-Sinic nos grupos (A, B, C e D) Documentação do processo de mineração. Baixo desempenho da complementação de dedos hipótese inicial refutada. adoção de solução “ad hoc” para o Lupa Digital Utilização dos atributos sexo, cútis e idade como filtros. Busca com ordenação baseada no Teorema de Bayes. Atende ao propósito inicial da pesquisa (otimização do espaço de busca manual e automatizada).

6. Conclusões e Resultados
Contribuição científica e social Aplicabilidade imediata dos benefícios da ferramenta Lupa Digital no ambiente do DPF/INI. Disponibilização do UnBMiner, UnBBayes e NNTK Contribui para solidar a comunidade brasileira de pesquisadores em Inteligência Artificial e Incerteza Disponível via licença GNU GPL em

Marcelo Ladeira, Ph.D Departamento de Ciência da Computação

Apresentações semelhantes

Apresentação em tema: "Marcelo Ladeira, Ph.D Departamento de Ciência da Computação"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Marcelo Ladeira, Ph.D Departamento de Ciência da Computação

Apresentações semelhantes

Apresentação em tema: "Marcelo Ladeira, Ph.D Departamento de Ciência da Computação"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback