A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.

Apresentações semelhantes


Apresentação em tema: "1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco."— Transcrição da apresentação:

1

2 1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco

3 2 Descoberta do Conhecimento em Bases de Dados Descoberta do Conhecimento em Bases de Dados Processo interativo e iterativo para identificar padrões válidos, novos, potencialmente úteis e interpretáveis em bases de dados.

4 3 Descoberta do Conhecimento em Bancos de Dados Descoberta do Conhecimento em Bancos de Dados 1.Empresas armazenam dados operacionais continuamente. 2.Bases de Dados podem conter informações importantes e desconhecidas. 3.O conhecimento útil normalmente está oculto em relações complexas, difíceis de ser descobertas.

5 4 Aplicações: Conhecendo o Negócio Conhecer Comportamento do ConsumidorConhecer Comportamento do Consumidor Enriquecimento de Bases de DadosEnriquecimento de Bases de Dados Segmentação de Mercado em Classes de Consumidores (cluster)Segmentação de Mercado em Classes de Consumidores (cluster) Análise de VendasAnálise de Vendas Detecção de Fraude e de InadimplênciaDetecção de Fraude e de Inadimplência Conhecer um processo, um equipamento, um fenômeno etc, a partir de dados observadosConhecer um processo, um equipamento, um fenômeno etc, a partir de dados observados

6 5 Bases Dados Conhecimento Seleção Pré-Processamento Transformação Data Mining Interpretação Padrões Processo de Descoberta do Conhecimento - Fases

7 6 Fases do Processo de Descoberta do Conhecimento Identificação da tarefa Identificação da tarefa - O que se deseja conhecer/extrair? Seleção de dados Seleção de dados - Dados e/ou atributos relacionados. Limpeza, Pré-Processamento Limpeza, Pré-Processamento - Retirada de dados ambíguos, duplicados, etc. Enriquecimento Enriquecimento - Agregar informação externa. Mineração dos dados Mineração dos dados - Extrair regras, agrupar. Relatório Relatório - Histórico, conclusões, informações relevantes, etc.

8 7 Principais Tarefas em Mineração de Dados Clusterização –Agrupamento: Segmentar registros de um BD em N clusters (grupos, classes) Diferenciação –Regras que diferenciam os registros de um cluster em relação a outros clusters Classificação –Identificar a priori o cluster (grupo) ao qual pertence um registro (cliente) a partir de seus atributos Explicação –Regras que explicam/caracterização um conjunto de registros pertencentes a um cluster (classe)

9 8 Regras de Produção Regras possuem: –antecedentes (condições) e –conseqüentes (classe, grupo ou cluster): SE COND1 E COND2 E... ENTÃO CLASSE_A SE salário>3000 E sexo=M ENTÃO Consumidor classe A Condições relacionam valores dos atributos: –Atributos Quantitativos: idade, salário, etc –Atributos Categóricos: Sexo, Estado Civil, etc –Relações:, =. Exemplo:

10 9 Mineração Inferir uma Regra descobrir condições (atributos, valores/categorias) que satisfazem a uma classe Classificar um novo cliente presumir a classe a qual pertence um novo cliente Agrupar clientes identificar classes por semelhança de suas características Explicar inferir regras com acurácia que abranjam todos os elementos de uma classe

11 10 Detecção de Fraude sinistros fraudadosRegra que explica sinistros fraudados SE 02:00hs< hora_sinistro < 05:30hs E oficina oficinas_suspeitas E prêmio_seguro < R$ 1300 E registro_policial = NÃO E custo_sinistro > R$ ,00 ENTÃO FRAUDE

12 11 Avaliação de uma Regra Acurácia: –mede grau de certeza (ou confiança) obtido ao contrastar a regra com o conjunto de exemplos da base que pertencem e não pertencem à classe; –Ac Máx = 100% Abrangência: –mede o grau de cobertura da regra: percentual de registros da classe que satisfazem a regra; –Ab Máx = 100%

13 12 Medidas de Desempenho A avaliação de cada regra envolve a leitura de toda a base. Numa base há: –C: Registros que satisfazem a regra; –P: Registros que pertencem à classe; –C & P: número de registros que satisfazem a regra e são da classe P

14 13 Exemplo BD contém 100 Registros Registros estão segmentados em 2 Grupos: –80 regs. do G1 e 20 regs. do G2) Procura-se regras para G1 (P pertence a G1) Uma determinada regra encontrada, resulta em: –60 –60 Registros satisfazem a regra e são do G1 –20 –20 Registros do G1 não satisfazem a regra –12 –12 Registros do G2 satisfazem a regra

15 14 Classificação por Algoritmos Genéticos Grupos (clusters) regra(s) Conhece-se a segmentação de um BD em n Grupos (clusters) ; deseja-se descobrir a(s) regra(s) que melhor caracterizam cada Grupo. classificar outros registros As regras podem se usadas para classificar outros registros que ainda não tenham sido segmentados.

16 15 Modelagem do GA Deseja-se um GA que evolua Regras –Representação –Decodificação –Operadores –Medidas de Desempenho –Avaliação

17 16 Cromossoma representa uma Regra Regras :=antecedentes + consequentes Se COND1 ^ COND2 ^...ENTÃO CLASSE_A Exemplo: Se 200

18 17 Representação Gene Atributos podem ser: Gene Quantitativos ( Quantitativos (faixas de valores) Categóricos Categóricos (código) lim_inf lim_sup código categoria Cada Atributo é representado por um gene Gene Atrib(1)Atrib(n)Atrib(2)

19 18 Um cromossoma representa uma regra que responde a uma pergunta: Ex: O que caracteriza um estudante da PUC-Rio? Decodificação Atributos considerados: A(1): Idade {15; 90}, A(2) Renda Familiar {200;8000}, A(3): Sexo{M=01; F=10} Se 18 Idade 25 e 3000 Renda 8000 e Sexo = M ou F então Estuda na PUC A(1)A(2)A(3) M ou F= A(1), A(2) são Quantitativos e A(3) é Categórico Exemplo de um cromossoma:

20 19 Exemplo: Classificação de Empresas Deseja-se identificar padrões de empresas (já agrupadas) em um BD qual o padrão das empresas do Cluster 1 (Prioritárias)?Exemplo: A regra abaixo esclarece qual o padrão das empresas do Cluster 1 (Prioritárias)? Se receita_serviço 1 (Instalação) = 5000 100 Então Empresa pertence ao Cluster 1(Prioritárias)

21 20 Cromossoma Regra Genes atributos do banco de dados cruzamento Receita Serviço 100 Receita Serviço 300 P1P1 P2P2 F1F1 Receita Serviço 300 Receita Serviço 100 F2F2F2F2

22 21 Operadores CrossoverCrossover –Sobre Reais: 1 ponto; 2 pontos; Uniforme; Aritmético –Sobre Binários (Lógicos): OU, E MutaçãoMutação –Troca gene por um número aleatório na faixa do atributo escolhido na mutação –Sobre Binários (Lógicos): NOT

23 22 Codificação de Atributos Categóricos -Ex: Residência: = {funcional, parente, alugada, própria} -Cada posição indica ausência (0) ou presença (1) do símbolo correspondente

24 23 OU F 1 = P 1 OU P 2 E F 2 = P 1 E P 2 Operadores Lógicos E, OU, NOT NOT NOT P P P1 P F1 F F

25 24 Função de Avaliação Data Mining: regras com alta acurácia e abrangência. Acurácia (Ac) e Abrangência (Ab), quando usadas como funções de avaliação, podem prejudicar a evolução se regras aleatórias na primeira população apresentam Ac=Ab=0 É preciso definir funções que forneçam avaliações diferentes de 0 (zero) quando Ac=Ab=0 Existem várias funções propostas, cujo o desempenho varia com a aplicação (problema) Ac e Ab podem recompensar avaliação quando diferentes de zero

26 25 Funções de Avaliação Número-Atributos Distância-Ótima Recompensa- Atributos CBayesianos Número-Registros FAcurácia FAbrangência Correlação-2-Grupos Rule-Interest[PIAT91] Chi-Square[RAD95]

27 26 Exemplo Função Número-Atributos Regra evoluída para classe 1

28 27 Evolução de Regras por Algoritmo Genético Planejamento Cromossoma Aptidão Regra A 86% Regra B 44% Regra C 69% Regra D 7% f( )=acerto% Seleção Reprodução Filhos Avaliação dos Filhos Cruzamento Mutação

29 28 Otimização da Acurácia da Regra Evolução Evolução 100% 50%


Carregar ppt "1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco."

Apresentações semelhantes


Anúncios Google