Data Mining Técnicas não supervisionadas

Name: Data Mining Técnicas não supervisionadas
Uploaded: 2017-12-26T03:08:21+00:00
Duration: PTM31S51
Channel: Alice Lucas
Description: Data Mining Técnicas não supervisionadas

Data Mining Técnicas não supervisionadas
Redes neurais Em modo não supervisionado : Redes de Kohonen, Cartas Auto Adaptativas, etc. Clustering (agrupamento) Classificação Ascendente Hierárquica K-means Busca dos vizinhos "mais próximos". Busca de associações Geralmente utilizadas para realizar análise de "cesta de compras" : quais são os produtos comprados simultaneamente ? NH Consultoria

Técnicas não supervisionadas Clustering
Cluster: uma coleção de objetos de dados; Similares entre si no mesmo cluster; Não similares aos objetos fora do respectivo cluster; Análise de clusters: Agrupamento de dados em clusters; Agrupamento (clustering) é uma classificação não-supervisionada: não há classes pré-definidas. Aplicações típicas: Como ferramenta para análise da distribuição dos dados; Como pré-processamento para outros métodos. NH Consultoria

Clustering Aplicações típicas - 1
Reconhecimento de padrões; Análise de dados espaciais: Criação de mapas temáticos em GIS por agrupamento de espaços de características; Detecção de clusters espaciais e sua explicação em data mining; Processamento de imagens; Pesquisas de mercado; WWW: Classificação de documentos; Agrupamento de dados de weblogs para descobrir padrões similares de acesso; NH Consultoria

Clustering Aplicações típicas - 2
Marketing: ajuda na descoberta de grupos distintos de clientes, e uso deste conhecimento para criar campanhas dirigidas; Uso de terras: identificação de áreas de uso similar a partir de uma base de observação via satélite; Seguros: identificação de grupos de assegurados com alto custo de sinistro; Planejamento urbano: identificação de grupos de casa de acordo com seu tipo, valor e localização geográfica; Estudos sobre terremotos: identificação de epicentros e seu agrupamento ao longo de falhas geológicas. NH Consultoria

Clustering Estrutura dos dados
Matriz de dados n indivíduos p variáveis Matriz de dissimilaridade d(i,i) = 0 d(i,j) = d(j,i) d(x,y) R+ NH Consultoria

Clustering Similaridade
Exemplo : Distância de Minkowski q=1 : Distância de Manhattan (de blocos) q=2 : Distância de Euclid NH Consultoria

Técnicas não supervisionadas Classificação ascendente hierárquica
Objetivo Classificar os indivíduos que apresentam um comportamento similar em função de um conjunto de variáveis Princípio A cada etapa, gera-se uma partição obtida realizando o agrupamento 2 a 2 dos elementos mais "próximos". Elemento = individuo ou grupo de indivíduos O algoritmo fornece uma hierarquia de partições Árvore que contêm o histórico da classificação. Permite escolher o número de partições desejadas. Necessidades De ter uma métrica (medida de similaridade ou dissimilaridade). De fixar regras de agrupamento entre um grupo e um indivíduo ou entre dois grupos : critério de agrupamento. NH Consultoria

Classificação ascendente hierarquica
Etapa 1 : n indivíduos / n classes 1 3 2 4 5 Constroi-se a matriz das distâncias (dissimilaridades) entre os n elementos e agrupa-se os dois mais próximos NH Consultoria

Etapa 2 : n-1 classes Distância entre os elementos 1 3 2 4 5 1 2 3 4 5 Como medir a distância entre uma classe (um grupo) e um elemento individual ? Critério dos centros de gravidade Critério de distância máxima Critério de distância mínima Critério de Ward NH Consultoria

Etapa 5 : n-4 = 1 classe Distância entre os elementos 1 3 2 4 5 1 2 3 4 5 Como medir a distância entre uma classe (um grupo) e um elemento individual ? Critério dos centros de gravidade Critério de distância máxima Critério de distância mínima Critério de Ward NH Consultoria

Etapa 5 : n-4 = 1 classe Distância entre os elementos 2 classes 1 3 2 4 5 1 2 3 4 5 Classe 1 Classe 2 NH Consultoria

Etapa 5 : n-4 = 1 classe Distância entre os elementos 1 3 2 3 classes 4 5 1 2 3 4 5 Classe 1 Classe 2 Cl. 3 A escolha da quantidade de classes é determinada a posteriori NH Consultoria

CAH : critérios de agrupamento
Distância máxima (A,B) = max{d(a,b), aA, bB} Distância mínima (A,B) = min{d(a,b), aA, bB} Centros de gravidade (A,B) =d(ga, gb) NH Consultoria

CAH Inércias Dada uma classificação em k grupos de efetivos n1, ..., nk os individuos sendo pontos de um espaço euclidiano. G1, ..., Gk são os grupos, e g1, ..., gk são os seus centros de gravidade (g é o centro de gravidade da nuve completa). NH Consultoria

CAH Critério de agrupamento de inércia
Teorema de Huygens : Inércia total = Inércia interclasse + Inércia Intraclasse A cada agrupamento realizado, a inércia intraclasse aumenta, e a inércia interclasse diminue NH Consultoria

CAH Método de WARD Ao substituir duas classes A e B pela sua reunião, demostra-se que a diminução da inércia interclasse (ou seja o aumento da intraclasse) é igual a : O método de Ward consiste em escolher o agrupamento que minimize o aumento da inércia intraclasse. NH Consultoria

CAH Método de WARD Agrupamento com distância mínima
Efeitos em cadeia : os objetos se agrupam ao grupo ja constituido um depois do outro. Agrupamento com distância máxima Deformações importantes da árvore. Método Ward Utiliza-se uma distância de Euclid. NH Consultoria

CAH Crítica Vantagens Desvantagens
As classes são uma visão sintética e estruturada dos dados Agrupamentos pouco esperados aparecem As classes significativas geram definições de funções que permitem num segundo tempo atribuir um indivíduo novo à classe mais próxima Desvantagens Agrupamentos esperados não aparecem Funciona melhor juntamente com uma ACP (método de Ward). NH Consultoria

Exemplo de CAH com ACP NH Consultoria

NH Consultoria

K-means Etapa 0 c1 c2 Inicializa-se de maneira aleatória os centros de gravidade de cada classe : ck. A quantidade de classes é determinada a priori. NH Consultoria

K-means Etapa 1 c1 c2 Cada ponto é atribuído a classe que têm centro de gravidade mais próximo NH Consultoria

K-means Etapa 2 c1 c2 Os centros de gravidade são re-calculados dentro de cada classe NH Consultoria

K-means Etapa 3 : identica á etapa 1 c1 c2
Cada ponto é atruibuído a classe que têm centro de gravidade mais próximo NH Consultoria

Os centros de gravidade são re-calculados dentro de cada classe NH Consultoria

Cada ponto é atruibuído a classe que têm centro de gravidade mais próximo NH Consultoria

K-means Etapa 6 c1 c2 Os centros de gravidade são re-calculados dentro de cada classe NH Consultoria

K-means Etapa 7 c1 c2 Cada ponto é atruibuído a classe que têm centro de gravidade mais próximo NH Consultoria

K-means Etapa 8 c1 c2 A partir desta etapa, as classes não mudam mais.
Pára-se quando : O centros de gravidade se deslocam muito pouco Nenhum indivíduo muda de classe. NH Consultoria

Comparação K-Means e CAH
NH Consultoria

NH Consultoria

K-means Crítica Vantagens Desvantagens
Algorítmo muito simples, e eficiente Possibilidade de utilizar dissimilaridades, diversas distâncias, etc. Desvantagens Quantidade de classes conhecida a priori. Não funciona com dados discretos Sensível ao ruído Tendência de construir classes esféricas, maximizando inércia intraclasse e minimizando inércia interclasse (não descobre grupos de forma não-convexa). NH Consultoria

Técnicas não supervisionadas Busca de associações
Mineração de associações ou de regras de associação: Encontrar padrões freqüentes, associações, correlações, ou estruturas causais a partir de conjuntos de itens ou objetos em DB de transações, relacionais, ou em outros repositórios de informações. Aplicações: Análise de cestas de dados (basket data), marketing cruzado, projeto de catálogos, agrupamento, etc. NH Consultoria

Regras de associações Dados: Encontrar: Uma DB da transações;
Cada transação constituída de uma lista de itens (compras de um cliente); Encontrar: Todas as regras que correlacionam a presença de um conjunto de itens com outro conjunto de itens. Exemplo: 98 % das pessoas que compram pneus e assessórios também compram sua instalação. NH Consultoria

Regras de associação Dados de transação - 1
Análise dos "tickets" de caixa Comentários : Uma observação = uma compra Somente considerar a presencia dos produtos, não a quantidade. Quantidade de produtos varia entre as compras Lista dos produtos é imensa ! Objetivos : Descobrir os produtos comprados juntos Escrever este conhecimento na forma de regras de associação Se premissa então conseqüência Lista de produtos Exemplo : "Se Martini e Cachaça então Azeitonas" NH Consultoria

Regras de associação Dados de transação - 2
Outra representação dos dados de transação (binária) Em função da granularidade escolhida, o número de colunas pode ser imenso ! (ex. Agrupamento por família de produtos : azeites de oliva, cervejas, etc.) O objetivo da análise é detectar co-ocorrências na tabela. NH Consultoria

Regras de associação Critérios de avaliação das regras
Suporte e Confiança Dados Regra de associação : R1 : Se p1 então p2 Suporte : indicador de "confiabilidade" da regra sup(R1) = 2 ou sup(R1) = 2/6 = 33% absoluto relativo Confiança : indicador de "precisão" da regra conf(R1) = sup(R1)/sup(premissa(R1)) = sup(p1 -> p2)/sup(p1) = 2/4 = 50% Uma "boa" regra deve ter Confiança e Suporte altos NH Consultoria

Regras de associação Identificação das regras - 1
Parâmetros : fixar um grau de exigência nas regras. Suporte mínimo (ex : 2 transações ou 33% das transações). Confiança mínima (ex : 75%). Permite limitar (controlar) a quantidade de regras que serão produzidas. Mecanismo : construção em 2 tempos Busca dos itemset freqüentes (com suporte >= suporte min). A partir dos itemset freqüentes, construir as regras (com conf >= conf min). Definições Item = produto Itemset = conjunto de produtos (ex : {p1, p3}) sup(itemset) = quantidade de transações onde aparecem simultaneamente os produtos (ex : sup{p1,p3}=4) card(itemset) = quantidade de produtos no conjunto (ex : card{p1,p3}=2). NH Consultoria

Número de cáculos enorme ! Cada cálculo gera um scan completo da base
Regras de associação Identificação das regras – 2 Busca dos Itemset freqüentes Caso geral : 2j – 1 Número de cáculos enorme ! Cada cálculo gera um scan completo da base C14 = 4 Itemsets de card=1 C24 = 6 Itemsets de card=2 C34 = 4 Itemsets de card=3 C44 = 1 Itemsets de card=4  = 15 = Redução da complexidade com eliminação de algumas pistas  4 {p1} 3 {p2} 5 {p3} 1 {p4} Dados Era previsível : sup{p4,...} <= sup{p4} => sup{p1,p4} < 2 {p1,p2} 2 {p1,p3} 4 {p1,p4} {p2,p3} 3 {p1,p2,p3} 2 É preciso testar por que {p1,p2}, {p1,p3}, {p2,p3} são todos freqüentes NH Consultoria

Regras de associação Identificação das regras – 2 Busca das regras para os Itemset de card = 2
É preciso testar todas as combinações : 2 tests por itemset {p1,p2} p1  p2 . Conf = 2/4 = 50% (reprovada) p2  p1 . Conf = 2/3 = 67% (reprovada) Dados {p1,p3} p1  p3 . Conf = 4/4 = 100% (aprovada) p3  p1 . Conf = 4/5 = 80% (aprovada) {p2,p3} p2  p3 . Conf = 3/3 = 100% (aprovada) p3  p2 . Conf = 3/5 = 60% (reprovada) NH Consultoria

Redução da complexidade com eliminação de algumas pistas
Regras de associação Identificação das regras – 2 Busca das regras para os Itemset de card >= 3 C13=3 : regras com conseqüencia de card = 1 C23=3 : regras com conseqüencia de card = 2 Redução da complexidade com eliminação de algumas pistas Dados sup{p1,p2,p3} = 2 p2, p3  p1 (2/3, reprovada) p1, p3  p2 (2/4, reprovada) p1, p2  p3 (2/2, aprovada) O suporte da premissa so pode ficar estável ou maior. A confiança então vai ficar estável ou menor.  A pista pode ser eliminada (4 possibilidades são descartadas) p1 p2, p3 (2/4, reprovada) p2 p1, p3 (2/3, reprovada) NH Consultoria

Regras de associação Indicador de pertinência das regras
A confiança em termos de probabilidades : Conf (A  C) = sup(A, C) / sup(A). = P(A  C) / P(A) = P(C / A). P(X) : suporte relativo de X!. O LIFT : Lift(A  C) = P(C / A) / P(C) Interpretar como um "odd-ratio" : uma "cota". Lift < 1 : a regra não serve para nada ! Ex : Lift(fumar  câncer) = 3% / 1% = 3. Fumando, têm 3 vezes mais chances de pegar câncer. O LIFT somente pode ser calculado depois da identificação das regras, para filtrá-las. O LIFT não pode ser utilizado para guiar a aprendizagem. NH Consultoria

Regras de associação Crítica
Mineração de regras de associação: Provavelmente a contribuição mais significativa da comunidade de DB à KDD; Inúmeros trabalhos publicados; Muitos pontos importantes explorados; Direções de pesquisa: Análise de associações em outros tipos de dados: espaciais, multimídia, temporais, etc. NH Consultoria

Regras de associação Exemplo nos dados de votos nos E.U.
NH Consultoria

NH Consultoria

Respondendo "y" para "el-salvador-aid", e
Respondendo "n" para "mx-missile", e Respondendo "y" para "physician-fee-freeze", A probabilidade de votar "republican" é 2,437 vezes mais alta. (que a probabilidade de votar "republican" sem saber nada) (Lift) Esta regra é verificada em 94,1% dos casos onde a premissa é verdade (confiança) As premissas e a conclusão são reunidas em 33,1% dos casos estudados (suporte) NH Consultoria

Interpretação dos resultados
O Lift diz : Sabendo as respostas <y, n, y>, a probabilidade de votar "r" é 2,437 vezes maior do que a mesma probabilidade sem saber nenhuma resposta. Sabendo as respostas <y, n, y> como comparar a probabilidade de votar "r" com a probabilidade de votar "d" ? Classificador Bayesiano ! NH Consultoria

NH Consultoria

Interpretação dos resultados - 2
O classificador bayesiano permite calcular X=<y, n, y> P(R/X) / P(D/X) = [P(R/X)*P(X)] / [P(D/X)*P(X)] = [P(X/R)*P(R)] / [P(X/D)*P(D)] = (0,9345*0,9702*0,8690*38,6%) / (0,2060*0,0524*0,2247*61,4%) = 204,6 Sabendo as respostas <y, n, y>, a probabilidade de votar "r" é 205 vezes maior do que a probabilidade de votar "d". NH Consultoria

Data Mining Técnicas não supervisionadas

Apresentações semelhantes

Apresentação em tema: "Data Mining Técnicas não supervisionadas"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Data Mining Técnicas não supervisionadas

Apresentações semelhantes

Apresentação em tema: "Data Mining Técnicas não supervisionadas"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback