A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Descoberta de Padrões usando Conhecimento Prévio.

Apresentações semelhantes


Apresentação em tema: "Descoberta de Padrões usando Conhecimento Prévio."— Transcrição da apresentação:

1 Descoberta de Padrões usando Conhecimento Prévio

2 JUN2003Marco Di Beneditto2 Regras de Classificação Regras da forma: Se A então c i, onde A é uma conjunção de pares atributo-valor, i.e., (A 1, v a ) (A 2, v b )... (A n, v z ), e c i é uma classe. note que A e c i são conjunto disjuntos.

3 JUN2003Marco Di Beneditto3 Regras de Classificação Servem para: descrição intensional de um conjunto: descrição através de uma propriedade. previsão da classe de um novo exemplo, ainda desconhecido.

4 JUN2003Marco Di Beneditto4 Algoritmo de busca de Regras de Classificação 1. Gerar todas as regras possíveis que contenham um par (A,v) e armazenar no conjunto H. 2. Para cada h H : se se (medidas de relevância maiores que valores mínimos determinados) h é retirado de H e armazenado como regra descobertasenão adicionar um par (A,v) à regra h e armazená-la em H

5 JUN2003Marco Di Beneditto5 Tamanho do Espaço de Busca tuplas com i atributos. cada atributo possui k valores possíveis número de possibilidades de tuplas: T = k i. número de possibilidades de regras: conjunto potência de T = 2 elementos kiki kiki

6 JUN2003Marco Di Beneditto6 Espaço de Busca

7 JUN2003Marco Di Beneditto7 Medidas de Relevância Completude: se a regra classifica todas as instâncias da classe. Consistência: se a regra não classifica uma instância de outra classe

8 JUN2003Marco Di Beneditto8 Medidas de Relevância A C SUPORTE NA CLASSE : a probabilidade de uma regra numa base de dados dividida pelo número de tuplas que pertencem à classe: P(A C) / P (C) CONFIANÇA : a probabilidade condicional de uma regra, i.e., probabilidade de ocorrer o conseqüente de uma regra dado que ocorre o antecedente: P(C|A) = P(A C) / P(A) Valores altos de suporte e confiança: regras fortes

9 JUN2003Marco Di Beneditto9 Suporte e Confiança Algoritmo de busca: procura regras maximizando sua confiança considera regras com valor de suporte acima de um valor mínimo O acréscimo de um par atributo-valor diminui o valor de suporte, pois as tuplas que satisfazem a regra pertencem a intersecção entre os conjuntos de cada par atributo-valor individualmente.

10 JUN2003Marco Di Beneditto10 Suporte e Confiança Se odor = peixe -> comestível Se cor = marrom -> comestível Se odor = peixe cor = marrom -> comestível Se odor = peixe cor = marrom -> comestível

11 JUN2003Marco Di Beneditto11 Cálculo do Suporte e Confiança Regras são convertidas em expressões SQL: 1) SELECT classe, COUNT(*) FROM tabela_dados WHERE odor = peixe GROUP BY classe; 2) SELECT classe, COUNT(*) FROM tabela_dados WHERE odor = peixe AND cor = marrom GROUP BY classe; CLASSECOUNT comestível3 venenoso1 CLASSECOUNT comestível3 venenoso1 CLASSECOUNT comestível2 CLASSECOUNT comestível2

12 JUN2003Marco Di Beneditto12 Padrões em múltiplos níveis conceituais Padrões podem ser descobertos: 1) no nível conceitual representado na base de dados 2) num nível conceitual mais elevado, utilizando informação de hierarquias de conceitos ==> descoberta de padrões de alto nível Observações: em geral, não existem regularidades fortes em conceitos com baixo nível de abstração. regularidades em conceitos de nível mais alto de abstração, podem ser conhecidas ou de senso comum. conceitos em níveis intermediários podem apresentar maior grau de interesse.

13 JUN2003Marco Di Beneditto13 Múltiplos Níveis Conceituais

14 JUN2003Marco Di Beneditto14 Hierarquia sobre valores de atributos ~ ~ ~ ~ ~ ~ ~ 75000

15 JUN2003Marco Di Beneditto15 Hierarquia de Conceitos - Fundamentos um conjunto finito parcialmente ordenado de conceitos - define relações de generalização e especialização pode ser representada como uma árvore os valores dos atributos estão no nível folha - menor nível de especialização pode ser fornecida por um especialista de domínio ou ser construída a partir de uma base de dados pode ser reconstruída/refinada dinamicamente - dependendo do padrão a ser descoberto

16 JUN2003Marco Di Beneditto16 algoritmos ParDRI (Merrwyn, UMA, USA) Indução orientada à atributo (Han, SFU, CA)

17 JUN2003Marco Di Beneditto17 Busca por Padrões em múltiplos níveis Estratégias de mineração 1) especialização progressiva - top down 2) generalização progressiva - bottom up

18 JUN2003Marco Di Beneditto18 Descoberta de regras em múltiplos níveis Processo de geração de hipóteses (regras candidatas) que devem ser refinadas Na descoberta em múltiplos níveis o refinamento de hipóteses pode ser ( a ) adicionar mais um atributo a regra ou ( b ) especializar um valor de um atributo Busca por regras mais simples - tamanho de descrição mínimo

19 JUN2003Marco Di Beneditto19 Refinamento de regras em múltiplos níveis Se... então c n especializaradicionar par Av

20 Algoritmo implementado utiliza SGBD PostgresSQL onde são armazenadas as hierarquias de conceitos e a base de dados para a execução do algoritmo, o banco de dados deve ser representado numa única tabela redução do espaço de hipóteses: - co-ocorrência entre as tuplas - pares (A,v) que ocorrem nas tuplas. - medidas de relevância. - uma regra descoberta não irá compor uma outra regra.

21 Modelo funcional

22 JUN2003Marco Di Beneditto22 Heurísticas da busca e critérios de poda adotar um valor de mais baixo nível para um determinado atributo sempre que o número de tuplas for maior que 90% do número de tuplas com o valor de mais alto nível regras descobertas não são mais refinadas

23 JUN2003Marco Di Beneditto23 Teste de relevância SELECT classe, COUNT(*) FROM tabela_dados WHERE odor = peixe AND ( cor = marrom OR cor = preta) GROUP BY classe;

24 JUN2003Marco Di Beneditto24 Teste de relevância: otimização São criados dois tipos de cache : para cada atributo são criadas tabelas contendo todas as tuplas cujos valores correspondem às folhas da hierarquia descendentes dos conceitos de mais alto nível para cada regra é criada uma tabela que contêm todas as tuplas que satisfazem a regra

25 JUN2003Marco Di Beneditto25 Avaliação Banco de dados sobre cogumelos obtido do repositório de BD de aprendizado de máquina da UCI, EUA contém 8416 tuplas, 23 atributos, 2 classes (cogumelos comestíveis e venenosos) foram descobertas 150 regras que foram comparadas às regras descobertas pelo sistema ParDRI.

26 JUN2003Marco Di Beneditto26 Pesquisa implementação original em alguns aspectos dos algoritmos estudos: abordagem top-down sem generalização de tabelas armazenamento das hierarquias em tabelas relacionais múltiplas hierarquias evita regras repetidas métodos de seleção de atributos - filtro para redução inicial do espaço de busca (por exemplo, entropia da informação) emprego de outras medidas de relevância [Hilderman & Hamilton][Kodratoff] construção de uma BD de teste benchmark - geração de dados a partir de um simulador

27 descobertas anteriores qualquer fraco forte ruim regular muito bom excelente 0.0 ~ ~ 6.5 R1 R2 R1 = {4.5 ~ 6.5} pós-graduação ruim R2 = {4.5 ~ 6.5} graduação regular R1 = {4.5 ~ 6.5} pós-graduação ruim R2 = {4.5 ~ 6.5} graduação regular uso de hierarquias mais complexas sugerem uma forma de uso de regras de classificação descobertas por outros processos

28 FIM


Carregar ppt "Descoberta de Padrões usando Conhecimento Prévio."

Apresentações semelhantes


Anúncios Google