A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Jacques Robin CIn-UFPE Tipologia do conhecimento de saída da mineração de dados.

Apresentações semelhantes


Apresentação em tema: "Jacques Robin CIn-UFPE Tipologia do conhecimento de saída da mineração de dados."— Transcrição da apresentação:

1 Jacques Robin CIn-UFPE Tipologia do conhecimento de saída da mineração de dados

2 Dimensões descritivas da tipologia das estruturas de conhecimento a minerar * Descrição concisa de dados disponíveis x previsão de dados não disponíveis * Representações de conceitos x de instâncias * Representações atributivas x relacionais * Representações simbólicas x numéricas simbólicas: poder expressivo da lógica subjacente t lógica clássica de ordem 0, 1, 2, lógicas não clássicas numéricas: poder expressivo da função subjacente t domínio e imagem: Z x R  [0,1], R 2  N, etc. t característica da função: ¤propriedades matemáticas: monotonia, continuidade, etc. ¤formula analítica: linear, polinomial, exponencial, logarítmica, trigonométrica, cônica, etc.

3 Mineração descritiva x mineração preditiva * Mineração descritiva: Apenas descreve de forma concisa os dados disponíveis A descrição minerada pode: t diretamente fornecer insight para analista humano, ou t servir de passo preliminar para mineração preditiva Usa igualmente técnicas de banco de dados, estatística e aprendizagem de máquina * Mineração preditiva: Prevê dados não disponíveis a partir do dos dados disponíveis A previsão pode: t diretamente indicar uma descoberta ou decisão a tomar t servir de passo intermediário para tomada de uma descoberta ou decisão complexa estruturada por camadas Usa principalmente técnicas de aprendizagem de máquina

4 Mineração descritiva: tipos de descrições * Medida de similaridade ou dissimilaridade entre instâncias ex, cliente fulano parecido com sicrano e bem diferente de beltrano * Grupos de instâncias alta similaridade intra-grupos e alta dissimilaridade inter-grupos (clustering) ex, {fulano, sicrano,...}, {beltrano, john,...}, {doe},... * Exceções (outliers), i.e., instâncias com valor altamente dissimilar com a maioria das outras instâncias, para um ou vários atributos * Valores de atributos para grupos de instâncias agregados ao longo de dimensões analíticas, ex, media de venda de bebidas no Nordeste em dezembro é R$2.10 6 * Atributos relevantes para caracterizar instâncias de uma classe ex, {sexo, colégio, pais, idade, notaMédia} para alunos * Atributos relevantes para discriminar entre instâncias de 2 classes ex, {sexo, colégio, notaMédia} entre alunos de engenharia e artes cênicos * Associações entre valores dos atributos descritivos das instâncias age(X,[20,29]}  income(X,[3000, 10000])  ownd(X,CD,[50,100])  owns(X,PC). [suport = 5%, confidence = 80%]

5 Mineração preditiva: tipos de inferência * Classificação: inferir a classe de um novo indivíduo em função dos seus atributos descritivo * Regressão: inferir o valor do atributo A (geralmente numérico) desconhecido de um indivíduo em função de: seus atributos conhecidos e, dos valores conhecidos de A para os outros indivíduos * Análise de evolução ou previsão stricto-sensus: inferir o valor de um atributo de um indivíduo em um instante t em função dos seus atributos descritivos nos instantes anteriores * Controle: inferir a melhor ação a executar por um agente inteligente dado seus objetivos e o estado do ambiente no qual ele opera * Classificação e regressão podem servir de passo intermediário para análise de evolução * Os três podem servir de passos intermediários para controle

6 Representação de conceito x de instância * Conceito: representação em intenção via conjunto de restrições de valor sobre alguns atributos descritivos armazenados no BD * Instancia: indivíduo cujos dados satisfazem essas restrições * Aprendizagem guloso: cria representação em intenção (conceito) e classifica um novo indivíduo se seus atributos casam com essa representação * Aprendizagem preguiçoso: classifica novo indivíduo como sendo da classe do indivíduo mais próximo dele em termos de valores de atributos ou do centroide dos N indivíduos mais próximos não representa conceitos em intenção classe representada apenas pela extensão das suas instâncias

7 Representação atributivas x relacionais * Representar propriedades de um único indivíduo Logicamente quantificação universal limitada a uma única variável Equivalente a lógica proposicional (ordem 0), já que essa variável pode ficar implícita ex,  P, quality(P,fair)  price(P,low)  buy(P)  fairQuality  cheap  buy Representa intencionalmente conteúdo de apenas uma tabela de BD relacional * Representar relações entre vários indivíduos Logicamente requer quantificação universal simultânea de várias variáveis Requer sub-conjunto da lógica da 1 a ordem ex,  P, C parent(P,C)  female(P)  mother(P,C). Representa intencionalmente conteúdo de várias tabelas de BD relacional (ou até o banco inteiro)

8 Tipologia das estruturas de conhecimento a minerar * Paradigma simbólico: Árvore de decisão Árvore de regressão Regras de associação atributivas Regras de classificação atributivas Regras relacionais Grupos atributivos de instâncias * Paradigma matemático: Função de distância numérica Função de regressão * Paradigma probabilista: Densidade de probabilidade * Paradigma conexionista: Perceptrão multi-camada Memória associativa * Paradigma evolucionário: população de representações simbólicas simples (bit string, árvore) * Multi-paradigma: Árvores de modelo (simbólico e matemático) Redes bayesianas (conexionista, simbólico e probabilista)

9 Árvore de decisão

10 Função de regressão numérica PRP = - 56.1 + 0.049MYCT + 0.015MMIN + 0.006MMAX + 0.630CACH - 0.270CHMIN + 1.46CHMAX

11 Árvore de regressão

12 Árvore de modelo LM1: PRP = 8.29 + 0.004 MMAX + 2.77 CHMIN LM2: PRP = 20.3 + 0.004 MMIN – 3.99 CHMIN + 0.946 CHMAX LM3: PRP = 38.1 + 0.012 MMIN LM4: PRP = 19.5 + 0.002 MMAX + 0.698 CACH + 0.969 CHMAX LM5: PRP = 285 – 1.46 MYCT + 1.02 CACH – 9.39 CHMIN LM6: PRP = -65.8 + 0.03 MMIN – 2.94 CHMIN + 4.98 CHMAX

13 Regras atributivas de classificação * Mineração preditiva * Implicações lógica com: Apenas uma variável quantificada Premissas relacionada apenas por uma conjunção Cada premissas apenas testa valor de um atributo de um indivíduo Conclusão única e positiva indica classe das instâncias verificando a conjunção de premissas *  X, atr1(X,val1) ...   atrn(X,valn)  class(X,c) *  X, atr1Val1(X) ...   atrnValn(X)  C(X) * atr1 = val1 ...  atrn  valn  C * IF atr1 = val1 AND... AND atrn  valn THEN C * ex, IF tempo = sol AND dia = Dom THEN racha

14 Regras de Classificação vs. Árvores * Regras de classificação podem ser convertidas em árvores de decisão e vice-versa * Porém: a conversão é em geral não trivial dependendo da estrutura do espaço de instâncias, regras ou árvores são mais concisas ou eficientes * Regras são compactas * Regras são em geral altamente modulares (mas raramente são completamente modulares)

15 Vantagens de Árvores de Decisão Exemplo de conversão árvore -> regras Sem mecanismo de interpretação preciso regras podem ser ambíguas Instâncias podem “passar através” de conjunto de regras não sistematicamente “fechado” X > 1.2 Y > 2.6 b ab sim não simnão IF x >1.2 AND y > 2.6 THEN class = a If x < 1.2 then class = b If x > 1.2 and y < 2.6 then class = b

16 Vantagens de Regras de Classificação Árvores são redundantes e não incrementais Árvores não são ambíguas e não falham em classificar x y z w a bb abb 1 1 1 1 2 2 2 2 3 3 3 3 If x=1 and y=1 then class = a If z=1 and w=1 then class = b Exemplo de conversão regra/árvore

17 Regras atributivas de associação * Mineração descritiva * Implicações lógica com: Apenas uma variável quantificada Premissas e conclusões relacionadas apenas por uma conjunção Cada premissa e cada conclusão apenas testa valor de um atributo de um indivíduo *  X, atr1(X,val1) ...   atri(X,vali)  atrj(X,valj) ...   atrn(X,valn) * IF atr1 = val1 AND... AND atri  vali THEN atrj = valj AND... AND atrn  valn * ex, IF tempo = sol AND dia = domingo THEN praia = cheia AND avenida = engarrafada

18 Regras relacionais * Mineração descritiva ou preditiva (classificação ou controle) * Implicações lógica com: Várias variáveis quantificadas Premissas relacionadas apenas por uma conjunção Cada premissa testa valor de um atributo de um indivíduo ou teste relação entre indivíduos Conclusão única positiva cujo predicado pode aparecer nas premissas (regras recursivas) Cláusulas de Horn *  X,Y,Z,... atr1(X,val1) ...  reli(X,Y)  atrj(Z,valj) *  X,Y,Z,... atr1(Y,val1) ...  reli(X,Y)  relj(X,Y,valj) *  X,Y,Z,... atr1(Z,val1) ...  reli(X,Y,Z)  reli(X,Y,Z) * reli(X,Y,Z) :- atr1(Z,val1),..., reli(X,Y,Z)

19 Necessidades das regras relacionais Conhecimento a priori name1 = ann … name5 = tom father11 = F … father31 = T … father54 = T mother11 = F … mother55 = F female1 = T … female5 = F male1 = F Exemplos positivos: daughter42 = T daughter13 = T Exemplo negativos: daughter11 = F … daughter44 = F Aprende: daughter13(D,P) :- female3(D), parent13(P,D). daughter42(D,P) :- female4(D), parent42(P,D).

20 Necessidades das regras relacionais Conhecimento a priori Intencional: parent(F,C) :- father(F,C). parent(M,C) :- mother(P,C). Extensional: father(pat,ann). father(tom,sue). female(ann). female(eve). female(sue). male(pat). male(tom). mother(eve,sue). mother(ann,tom). Exemplos Positivos: daughter(sue,eve). daughter(ann,pat). Negativos: not daughter(tom,ann). not daughter(eve,ann). Aprende: daughter(D,P) :- female(D), parent(P,D).

21 Grupos de instâncias (clusters) * Dimensões descritivas da tipologia dos grupos disjuntos x overlapping chatos ou hierárquicos deterministas x probabilistas x nebulosos baseados em distâncias x baseados em densidade propriedades matemáticas da superfície 1 2 3 a 0.40.1 0.5 b 0.10.8 0.1 c 0.30.3 0.4 d 0.10.1 0.8 e 0.40.2 0.4 f 0.10.4 0.5 g 0.70.2 0.1 h 0.50.4 0.1 …

22 Rede bayesiana


Carregar ppt "Jacques Robin CIn-UFPE Tipologia do conhecimento de saída da mineração de dados."

Apresentações semelhantes


Anúncios Google