A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

NH Consultoria www.NHConsultoriaTI.com Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto.

Apresentações semelhantes


Apresentação em tema: "NH Consultoria www.NHConsultoriaTI.com Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto."— Transcrição da apresentação:

1 NH Consultoria www.NHConsultoriaTI.com Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto Adaptativas, etc. Clustering (agrupamento) –Classificação Ascendente Hierárquica –K-means Busca dos vizinhos "mais próximos". Busca de associações Geralmente utilizadas para realizar análise de "cesta de compras" : quais são os produtos comprados simultaneamente ?

2 NH Consultoria www.NHConsultoriaTI.com Técnicas não supervisionadas Clustering Cluster: uma coleção de objetos de dados; Similares entre si no mesmo cluster; Não similares aos objetos fora do respectivo cluster; Análise de clusters: Agrupamento de dados em clusters; Agrupamento (clustering) é uma classificação não- supervisionada: não há classes pré-definidas. Aplicações típicas: Como ferramenta para análise da distribuição dos dados; Como pré-processamento para outros métodos.

3 NH Consultoria www.NHConsultoriaTI.com Clustering Aplicações típicas - 1 Reconhecimento de padrões; Análise de dados espaciais: –Criação de mapas temáticos em GIS por agrupamento de espaços de características; –Detecção de clusters espaciais e sua explicação em data mining; Processamento de imagens; Pesquisas de mercado; WWW: –Classificação de documentos; –Agrupamento de dados de weblogs para descobrir padrões similares de acesso;

4 NH Consultoria www.NHConsultoriaTI.com Clustering Aplicações típicas - 2 Marketing: ajuda na descoberta de grupos distintos de clientes, e uso deste conhecimento para criar campanhas dirigidas; Uso de terras: identificação de áreas de uso similar a partir de uma base de observação via satélite; Seguros: identificação de grupos de assegurados com alto custo de sinistro; Planejamento urbano: identificação de grupos de casa de acordo com seu tipo, valor e localização geográfica; Estudos sobre terremotos: identificação de epicentros e seu agrupamento ao longo de falhas geológicas.

5 NH Consultoria www.NHConsultoriaTI.com Clustering Estrutura dos dados Matriz de dados –n indivíduos –p variáveis Matriz de dissimilaridade d(i,i) = 0 d(i,j) = d(j,i) d(x,y)  R +

6 NH Consultoria www.NHConsultoriaTI.com Clustering Similaridade Exemplo : Distância de Minkowski q=1 : Distância de Manhattan (de blocos) q=2 : Distância de Euclid

7 NH Consultoria www.NHConsultoriaTI.com Técnicas não supervisionadas Classificação ascendente hierárquica Objetivo –Classificar os indivíduos que apresentam um comportamento similar em função de um conjunto de variáveis Princípio –A cada etapa, gera-se uma partição obtida realizando o agrupamento 2 a 2 dos elementos mais "próximos". Elemento = individuo ou grupo de indivíduos O algoritmo fornece uma hierarquia de partições –Árvore que contêm o histórico da classificação. –Permite escolher o número de partições desejadas. Necessidades –De ter uma métrica (medida de similaridade ou dissimilaridade). –De fixar regras de agrupamento entre um grupo e um indivíduo ou entre dois grupos : critério de agrupamento.

8 NH Consultoria www.NHConsultoriaTI.com Classificação ascendente hierarquica Etapa 1 : n indivíduos / n classes 1 2 3 4 5 Constroi-se a matriz das distâncias (dissimilaridades) entre os n elementos e agrupa-se os dois mais próximos

9 NH Consultoria www.NHConsultoriaTI.com Classificação ascendente hierarquica Etapa 2 : n-1 classes 1 2 3 4 5 Distância entre os elementos 12345 Como medir a distância entre uma classe (um grupo) e um elemento individual ? Critério dos centros de gravidade Critério de distância máxima Critério de distância mínima Critério de Ward

10 NH Consultoria www.NHConsultoriaTI.com Classificação ascendente hierarquica Etapa 3 : n-2 classes 1 2 3 4 5 Distância entre os elementos 12345 Como medir a distância entre uma classe (um grupo) e um elemento individual ? Critério dos centros de gravidade Critério de distância máxima Critério de distância mínima Critério de Ward

11 NH Consultoria www.NHConsultoriaTI.com Classificação ascendente hierarquica Etapa 4 : n-3 classes 1 2 3 4 5 Distância entre os elementos 12345 Como medir a distância entre uma classe (um grupo) e um elemento individual ? Critério dos centros de gravidade Critério de distância máxima Critério de distância mínima Critério de Ward

12 NH Consultoria www.NHConsultoriaTI.com Classificação ascendente hierarquica Etapa 5 : n-4 = 1 classe 1 2 3 4 5 Distância entre os elementos 12345 Como medir a distância entre uma classe (um grupo) e um elemento individual ? Critério dos centros de gravidade Critério de distância máxima Critério de distância mínima Critério de Ward

13 NH Consultoria www.NHConsultoriaTI.com Classificação ascendente hierarquica 1 2 3 4 5 Distância entre os elementos 12345 2 classes Classe 1 Classe 2 Etapa 5 : n-4 = 1 classe

14 NH Consultoria www.NHConsultoriaTI.com Classificação ascendente hierarquica 1 2 3 4 5 Distância entre os elementos 12345 3 classes Classe 1Classe 2 Cl. 3 A escolha da quantidade de classes é determinada a posteriori Etapa 5 : n-4 = 1 classe

15 NH Consultoria www.NHConsultoriaTI.com Distância máxima –  (A,B) = max{d(a,b), a  A, b  B} Distância mínima –  (A,B) = min{d(a,b), a  A, b  B} Centros de gravidade –  (A,B) =d(g a, g b ) CAH : critérios de agrupamento

16 NH Consultoria www.NHConsultoriaTI.com CAH Inércias Dada uma classificação em k grupos de efetivos n1,..., nk os individuos sendo pontos de um espaço euclidiano. G1,..., Gk são os grupos, e g1,..., gk são os seus centros de gravidade (g é o centro de gravidade da nuve completa).

17 NH Consultoria www.NHConsultoriaTI.com CAH Critério de agrupamento de inércia Teorema de Huygens : Inércia total = Inércia interclasse + Inércia Intraclasse A cada agrupamento realizado, a inércia intraclasse aumenta, e a inércia interclasse diminue

18 NH Consultoria www.NHConsultoriaTI.com CAH Método de WARD Ao substituir duas classes A e B pela sua reunião, demostra-se que a diminução da inércia interclasse (ou seja o aumento da intraclasse) é igual a : O método de Ward consiste em escolher o agrupamento que minimize o aumento da inércia intraclasse.

19 NH Consultoria www.NHConsultoriaTI.com CAH Método de WARD Agrupamento com distância mínima –Efeitos em cadeia : os objetos se agrupam ao grupo ja constituido um depois do outro. Agrupamento com distância máxima –Deformações importantes da árvore. Método Ward –Utiliza-se uma distância de Euclid.

20 NH Consultoria www.NHConsultoriaTI.com CAH Crítica Vantagens –As classes são uma visão sintética e estruturada dos dados –Agrupamentos pouco esperados aparecem –As classes significativas geram definições de funções que permitem num segundo tempo atribuir um indivíduo novo à classe mais próxima Desvantagens –Agrupamentos esperados não aparecem –Funciona melhor juntamente com uma ACP (método de Ward).

21 NH Consultoria www.NHConsultoriaTI.com Exemplo de CAH com ACP

22 NH Consultoria www.NHConsultoriaTI.com

23 NH Consultoria www.NHConsultoriaTI.com

24 NH Consultoria www.NHConsultoriaTI.com

25 NH Consultoria www.NHConsultoriaTI.com

26 NH Consultoria www.NHConsultoriaTI.com

27 NH Consultoria www.NHConsultoriaTI.com

28 NH Consultoria www.NHConsultoriaTI.com

29 NH Consultoria www.NHConsultoriaTI.com

30 NH Consultoria www.NHConsultoriaTI.com

31 NH Consultoria www.NHConsultoriaTI.com K-means Etapa 0 Inicializa-se de maneira aleatória os centros de gravidade de cada classe : ck. A quantidade de classes é determinada a priori. c1 c2

32 NH Consultoria www.NHConsultoriaTI.com K-means Etapa 1 Cada ponto é atribuído a classe que têm centro de gravidade mais próximo c1 c2

33 NH Consultoria www.NHConsultoriaTI.com K-means Etapa 2 Os centros de gravidade são re-calculados dentro de cada classe c1 c2

34 NH Consultoria www.NHConsultoriaTI.com K-means Etapa 3 : identica á etapa 1 c1 c2 Cada ponto é atruibuído a classe que têm centro de gravidade mais próximo

35 NH Consultoria www.NHConsultoriaTI.com K-means Etapa 4 : identica á etapa 2 c1 c2 Os centros de gravidade são re-calculados dentro de cada classe

36 NH Consultoria www.NHConsultoriaTI.com K-means Etapa 5 : identica á etapa 1 c1 c2 Cada ponto é atruibuído a classe que têm centro de gravidade mais próximo

37 NH Consultoria www.NHConsultoriaTI.com K-means Etapa 6 c1 c2 Os centros de gravidade são re-calculados dentro de cada classe

38 NH Consultoria www.NHConsultoriaTI.com K-means Etapa 7 c1 c2 Cada ponto é atruibuído a classe que têm centro de gravidade mais próximo

39 NH Consultoria www.NHConsultoriaTI.com K-means Etapa 8 c1 c2 A partir desta etapa, as classes não mudam mais. Pára-se quando : O centros de gravidade se deslocam muito pouco Nenhum indivíduo muda de classe.

40 NH Consultoria www.NHConsultoriaTI.com Comparação K-Means e CAH

41 NH Consultoria www.NHConsultoriaTI.com

42 NH Consultoria www.NHConsultoriaTI.com

43 NH Consultoria www.NHConsultoriaTI.com K-means Crítica Vantagens –Algorítmo muito simples, e eficiente –Possibilidade de utilizar dissimilaridades, diversas distâncias, etc. Desvantagens –Quantidade de classes conhecida a priori. –Não funciona com dados discretos –Sensível ao ruído –Tendência de construir classes esféricas, maximizando inércia intraclasse e minimizando inércia interclasse (não descobre grupos de forma não-convexa).

44 NH Consultoria www.NHConsultoriaTI.com Técnicas não supervisionadas Busca de associações Mineração de associações ou de regras de associação: – Encontrar padrões freqüentes, associações, correlações, ou estruturas causais a partir de conjuntos de itens ou objetos em DB de transações, relacionais, ou em outros repositórios de informações. Aplicações: – Análise de cestas de dados (basket data), marketing cruzado, projeto de catálogos, agrupamento, etc.

45 NH Consultoria www.NHConsultoriaTI.com Regras de associações Dados: 1. Uma DB da transações; 2. Cada transação constituída de uma lista de itens (compras de um cliente); Encontrar: 1. Todas as regras que correlacionam a presença de um conjunto de itens com outro conjunto de itens. 2. Exemplo: 98 % das pessoas que compram pneus e assessórios também compram sua instalação.

46 NH Consultoria www.NHConsultoriaTI.com Regras de associação Dados de transação - 1 Análise dos "tickets" de caixa Comentários : Uma observação = uma compra Somente considerar a presencia dos produtos, não a quantidade. Quantidade de produtos varia entre as compras Lista dos produtos é imensa ! Objetivos : (1)Descobrir os produtos comprados juntos (2)Escrever este conhecimento na forma de regras de associação Se premissa então conseqüência Lista de produtos Exemplo : "Se Martini e Cachaça então Azeitonas"

47 NH Consultoria www.NHConsultoriaTI.com Regras de associação Dados de transação - 2 Outra representação dos dados de transação (binária) Em função da granularidade escolhida, o número de colunas pode ser imenso ! (ex. Agrupamento por família de produtos : azeites de oliva, cervejas, etc.) O objetivo da análise é detectar co-ocorrências na tabela.

48 NH Consultoria www.NHConsultoriaTI.com Regras de associação Critérios de avaliação das regras Suporte e Confiança Dados Regra de associação : R1 : Se p1 então p2 Suporte : indicador de "confiabilidade" da regra sup(R1) = 2 ou sup(R1) = 2/6 = 33% absolutorelativo Confiança : indicador de "precisão" da regra conf(R1)= sup(R1)/sup(premissa(R1)) = sup(p1 -> p2)/sup(p1) = 2/4 = 50% Uma "boa" regra deve ter Confiança e Suporte altos

49 NH Consultoria www.NHConsultoriaTI.com Regras de associação Identificação das regras - 1 Parâmetros : fixar um grau de exigência nas regras. –Suporte mínimo (ex : 2 transações ou 33% das transações). –Confiança mínima (ex : 75%). –Permite limitar (controlar) a quantidade de regras que serão produzidas. Mecanismo : construção em 2 tempos –Busca dos itemset freqüentes (com suporte >= suporte min). –A partir dos itemset freqüentes, construir as regras (com conf >= conf min). Definições –Item = produto –Itemset = conjunto de produtos (ex : {p1, p3}) –sup(itemset) = quantidade de transações onde aparecem simultaneamente os produtos (ex : sup{p1,p3}=4) –card(itemset) = quantidade de produtos no conjunto (ex : card{p1,p3}=2).

50 NH Consultoria www.NHConsultoriaTI.com Regras de associação Identificação das regras – 2 Busca dos Itemset freqüentes Caso geral : 2 j – 1 Número de cáculos enorme ! Cada cálculo gera um scan completo da base C 1 4 = 4Itemsets de card=1 C 2 4 = 6Itemsets de card=2 C 3 4 = 4Itemsets de card=3 C 4 4 = 1Itemsets de card=4  = 15 = 2 4 - 1 Redução da complexidade com eliminação de algumas pistas Dados  4 {p1} 3 {p2}5 {p3}1 {p4} {p1,p2} 2 {p1,p3} 4 {p1,p4} 0 {p2,p3} 3 Era previsível : sup{p4,...} <= sup{p4} => sup{p1,p4} < 2 {p1,p2,p3} 2 É preciso testar por que {p1,p2}, {p1,p3}, {p2,p3} são todos freqüentes

51 NH Consultoria www.NHConsultoriaTI.com Regras de associação Identificação das regras – 2 Busca das regras para os Itemset de card = 2 É preciso testar todas as combinações : 2 tests por itemset Dados {p1,p2} p1  p2. Conf = 2/4 = 50% (reprovada) p2  p1. Conf = 2/3 = 67% (reprovada) {p1,p3} p1  p3. Conf = 4/4 = 100% (aprovada) p3  p1. Conf = 4/5 = 80% (aprovada) {p2,p3} p2  p3. Conf = 3/3 = 100% (aprovada) p3  p2. Conf = 3/5 = 60% (reprovada)

52 NH Consultoria www.NHConsultoriaTI.com Regras de associação Identificação das regras – 2 Busca das regras para os Itemset de card >= 3 C 1 3 =3 : regras com conseqüencia de card = 1 C 2 3 =3 : regras com conseqüencia de card = 2 Redução da complexidade com eliminação de algumas pistas sup{p1,p2,p3} = 2 Dados O suporte da premissa so pode ficar estável ou maior. A confiança então vai ficar estável ou menor.  A pista pode ser eliminada (4 possibilidades são descartadas) p2, p3  p1 (2/3, reprovada) p1, p3  p2 (2/4, reprovada) p1, p2  p3 (2/2, aprovada) p1  p2, p3 (2/4, reprovada) p2  p1, p3 (2/3, reprovada)

53 NH Consultoria www.NHConsultoriaTI.com Regras de associação Indicador de pertinência das regras A confiança em termos de probabilidades : –Conf (A  C) = sup(A, C) / sup(A). – = P(A  C) / P(A) – = P(C / A). P(X) : suporte relativo de X!. O LIFT : –Lift(A  C)= P(C / A) / P(C) –Interpretar como um "odd-ratio" : uma "cota". –Lift < 1 : a regra não serve para nada ! –Ex : Lift(fumar  câncer) = 3% / 1% = 3. Fumando, têm 3 vezes mais chances de pegar câncer. O LIFT somente pode ser calculado depois da identificação das regras, para filtrá-las. O LIFT não pode ser utilizado para guiar a aprendizagem.

54 NH Consultoria www.NHConsultoriaTI.com Regras de associação Crítica Mineração de regras de associação: – Provavelmente a contribuição mais significativa da comunidade de DB à KDD; – Inúmeros trabalhos publicados; Muitos pontos importantes explorados; Direções de pesquisa: – Análise de associações em outros tipos de dados: espaciais, multimídia, temporais, etc.

55 NH Consultoria www.NHConsultoriaTI.com Regras de associação Exemplo nos dados de votos nos E.U.

56 NH Consultoria www.NHConsultoriaTI.com

57 NH Consultoria www.NHConsultoriaTI.com

58 NH Consultoria www.NHConsultoriaTI.com Respondendo "y" para "el-salvador-aid", e Respondendo "n" para "mx-missile", e Respondendo "y" para "physician-fee-freeze", Esta regra é verificada em 94,1% dos casos onde a premissa é verdade (confiança) As premissas e a conclusão são reunidas em 33,1% dos casos estudados (suporte) A probabilidade de votar "republican" é 2,437 vezes mais alta. (que a probabilidade de votar "republican" sem saber nada) (Lift)

59 NH Consultoria www.NHConsultoriaTI.com Interpretação dos resultados O Lift diz : –Sabendo as respostas, a probabilidade de votar "r" é 2,437 vezes maior do que a mesma probabilidade sem saber nenhuma resposta. Sabendo as respostas como comparar a probabilidade de votar "r" com a probabilidade de votar "d" ? –Classificador Bayesiano !

60 NH Consultoria www.NHConsultoriaTI.com

61 NH Consultoria www.NHConsultoriaTI.com Interpretação dos resultados - 2 O classificador bayesiano permite calcular X= P(R/X) / P(D/X) = [P(R/X)*P(X)] / [P(D/X)*P(X)] = [P(X/R)*P(R)] / [P(X/D)*P(D)] = (0,9345*0,9702*0,8690*38,6%) / (0,2060*0,0524*0,2247*61,4%) = 204,6 Sabendo as respostas, a probabilidade de votar "r" é 205 vezes maior do que a probabilidade de votar "d".


Carregar ppt "NH Consultoria www.NHConsultoriaTI.com Data Mining Técnicas não supervisionadas Redes neurais –Em modo não supervisionado : Redes de Kohonen, Cartas Auto."

Apresentações semelhantes


Anúncios Google