A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

2. Visão Geral de MD Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Apresentações semelhantes


Apresentação em tema: "2. Visão Geral de MD Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)"— Transcrição da apresentação:

1 2. Visão Geral de MD Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

2 Sumário Contexto Outro Exemplo de Motivação Modelos de Conhecimento
Algoritmos de Mineração de Dados Métricas de Mineração de Dados Questões em Aberto

3 Sumário Contexto Outro Exemplo de Motivação Modelos de Conhecimento
Algoritmos de Mineração de Dados Métricas de Mineração de Dados Questões em Aberto

4 O Que É / Não É Mineração de Dados?
Achar um número de telefone em um catálogo Procurar numa máquina de busca informação sobre “Amazônia” O que é? Certos nomes são mais freqüentes em certas regiões do Brasil (Cacciola, Armani, Gutierrez… na Grande São Paulo) - Probabilidade Agrupar documentos por similaridade de contexto (p.e. Amazônia) – Reconhecimento de Padrões (“Pattern Recognition”)

5 Confluência de várias disciplinas
Machine Learning Probability / Pattern Recognition Data Mining Database

6 Machine Learning O conhecimento é induzido (treinado) de um conjunto de dados de treinamento (ctrein) O histórico de mudanças de classes de software é um exemplo de conjunto de treinamento O conhecimento induzido é validado com o auxílio de um conjunto de teste (ctest)  ctrein  ctest =  Se X  Y foi induzido de um conjunto de treinamento, esta regra deve ser confirmada por um conjunto de teste Uma vez validado, o conhecimento pode ser usado em diferentes aplicações Análise de Impacto de Mudança de Software

7 Padrão (“Pattern”) Banco de Dados (BD) A regra X  Y é um padrão
A qualidade de um padrão é diretamente proporcional a seu suporte (repetição) Banco de Dados (BD) Desnormalizados A repetição facilita o reconhecimento de padrões O histórico de mudanças de classes de software é um BD desnormalizado A conclusão é que os BDs relacionais normalizados não podem ser usados diretamente em MD

8 Sumário Contexto Outro Exemplo de Motivação Modelos de Conhecimento
Algoritmos de Mineração de Dados Métricas de Mineração de Dados Questões em Aberto

9 Um robot que prescreve lentes de contato
Oftalmologista: quais as condições gerais – padrões – pelas quais eu sempre tenho receitado lentes de contato duras? ou gelatinosas? ou não tenho recomendo o uso de lentes? 4

10 Caracterização do Problema: Classificatório
categórico categórico categórico classe Conj. Teste Clasificador Induzido Modelo Conj. Treinamento

11 Conjunto de Treinamento
idade acuidade visual astigmatismo taxa de produção de lágrima tipo de lente jovem míope não reduzida nenhum normal gelatinosa sim dura hipermétrope

12 jovem hipermétrope sim reduzida nenhum normal dura maduro míope não gelatinosa

13 maduro hipermétrope não normal gelatinosa sim reduzida nenhum idoso míope dura

14 idoso hipermétrope não reduzida nenhum normal gelatinosa sim

15 Conhecimento Induzido
se taxa_de_produção_de_lágrima = ‘reduzida’ então tipo_de_lente = ‘nenhum’ Padrão expressado em forma de regra de classificação se ... então classe Regra de Classificação é um dentre outros modelos de conhecimento Um outro: Regra de Associação A regra se verifica em todos os casos em que a taxa de produção de lágrima é reduzida? Via de regra, não há certeza, apenas probabilidade Quantas e quais são as outras regras para não receitar lente de contato (somente do ctrein, podemos extrair mais três regras – verifique)

16 Quão confiável é uma regra de classificação?
se idade = ‘maduro’ e acuidade_visual = ‘hipermétrope’ e astigmatismo = ‘sim’ e taxa_de_produção_de_lágrima = ‘normal’ então tipo_de_lente = ‘nenhum’ Ela se verifica em somente um caso do ctrein Provavelmente, não tem validade estatística Qual a freqüência mínima estatisticamente aceitável? O conhecimento deve ser validado via o conjunto de teste

17 Sobre os Conjuntos de Treinamento e Teste
Note que os conjuntos de treinamento e teste apresentados certamente não têm validade estatística Um exemplo de ‘brincadeira’ Necessidade de um processo rigoroso de MD Último item da disciplina

18 Sumário Contexto Outro Exemplo de Motivação Modelos de Conhecimento
Algoritmos de Mineração de Dados Métricas de Mineração de Dados Questões em Aberto

19 Tipos de modelo Preditivo Descritivo
Faz predição acerca de valores de dados usando resultados conhecidos de outros dados Em geral, a modelagem é baseada em dados históricos, para fazer predição (ou previsão) sobre novos dados Descritivo Identifica padrões ou relacionamentos em dados, históricos ou não Importante para se conhecer os dados

20 Modelo Preditivo Descritivo Clustering Síntese Classificação Série Temporal Regressão Descoberta de Seqüência Regra de Associação Modelos em verde: o foco da disciplina

21 Modelos de classificação que serão vistos
Regra de Classificação Árvore de Decisão Bayes Simples (“Naive Bayes”) Modelos de Classificação que não serão vistos Rede Neural . . . Modelo de Regra de Associação

22 Sumário Contexto Outro Exemplo de Motivação Modelos de Conhecimento
Algoritmos de Mineração de Dados Métricas de Mineração de Dados Questões em Aberto

23 Os algoritmos diferem segundo os modelos de conhecimento que eles induzem
Regra de Associação Apriori Árvore de Decisão Id3, J48 Naive Bayes NaiveBayeSimple Regra de Classificação Prism 5

24 Sumário Contexto Outro Exemplo de Motivação Modelos de Conhecimento
Algoritmos de Mineração de Dados Métricas de Mineração de Dados Questões em Aberto

25 Qual o melhor processo de MD para o problema?
Dado um problema de mineração, há potencialmente uma grande quantidade de processos de MD que podem resolver o problema Um processo de MD é, simplificadamente, uma tripla <preparação de dados, execução de um algoritmo de mineração de dados, avaliação dos resultados> Processo de MD será visto no final da disciplina Total possível de processos: No. de técnicas de preparação X no. de algoritmos de MD Qual o melhor processo de MD para o problema? A resposta depende das métricas de desempenho escolhidas

26 Métricas As tradicionais, como as de espaço e tempo, baseadas em análise de complexidade de algoritmo Para algoritmos de classificação, a acurácia do conhecimento induzido Acurácia de uma regra = No.de acertos treinamento (teste) / No. de casos cobertos de treinamento (teste) Acurácia de um modelo (conjunto de regras) = No.de acertos treinamento (teste) / Tamanho do conjunto de treinamento (teste) Precisão “Recall” Para algoritmos de análise de associação Suporte Confiança

27 Sumário Contexto Outro Exemplo de Motivação Modelos de Conhecimento
Algoritmos de Mineração de Dados Métricas de Mineração de Dados Questões em Aberto

28 Integração com SGBDs Os algoritmos de MD não lêem diretamente de SGBDs Dados são extraídos de um BD, via comandos SQL, e armazenados em um arquivo "flat", desnormalizado O arquivo "flat"é a entrada para os algoritmos de mineração Note que desnormalização (repetição) favorece a descoberta de padrões BDOR é desnormalizado  implicações? Termos relacionais (<atributo1> <opcomp> <atributo2>) Os termos dos modelos de MD são da forma <atributo> <opcomp> valor Uma enorme simplificação Objetivo: produzir algoritmos de complexidade baixa Porém, limitados

29 Minas de Dados são Impuras
Escala Algoritmos de MD sem escala são de limitada utilidade Minas de Dados são Impuras Dados do mundo real têm muita ‘sujeira’, e muito valor faltando (“null values”). Algoritmos de MD têm que ser capazes de trabalhar com minas impuras Dinâmica dos Dados Muitos algoritmos de MD trabalham com dados estáticos (comportamento invariável, ao longo do tempo). Isto pode não ser um modus operandi realista

30 Facilidade de Assimilação
Embora alguns algoritmos possam trabalhar bem, eles podem induzir modelos muito complexos, de difícil assimilação mesmo por especialistas Conhecimento inútil misturado com conhecimento útil Padrões complexos Padrões não sintetizados


Carregar ppt "2. Visão Geral de MD Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)"

Apresentações semelhantes


Anúncios Google