HAC MD -junho/2008 1 Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.

Slides:



Advertisements
Apresentações semelhantes
Algoritmos em Grafos.
Advertisements

AULA 02 PROGRAMAÇÃO LINEAR INTEIRA
Aprendizado de Máquina
Motivação para listas duplamente encadeadas e circulares
Marco Antonio Montebello Júnior
Operações envolvendo imagens
MÁQUINAS UNIVERSAIS Fabrício Dias
ANÁLISE DISCRIMINANTE
Celso C. Ribeiro Caroline T. Rocha
Redes Neurais Artificiais (RNA): Aprendizado
Análise de Casos de Uso.
Mineração de Dados Avaliação de Classificadores
1 Domínios Finitos A eficiência das programas em domínios finitos (incluindo booleanos) podem ainda ser melhoradas pelo uso de Algoritmos de Propagação.
1 MD - junho/2008 HAC Regressão Tarefa preditiva em que as classes são contínuas Objetivo: predizer um valor numérico para a saída: Consumo de um carro.
Agrupamento (clustering)
Uma das tarefas descritivas da
1 MD - junho/2008 Identificação do problema Ao final dessa etapa espera-se ter: Definição da área Definição do problema Definição dos dados.
Processos Estocásticos
Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo
Série de Exercícios.
Analise e Seleção de Variáveis
Análise de regressão linear simples: abordagem matricial
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
Árvores.
1 MergeSort Seja uma lista A de n elementos. O algoritmo consiste das seguintes fases Dividir A em 2 sub-listas de tamanho n/2 Conquistar: ordenar cada.
Arquivos Seqüenciais Inhaúma Neves Ferraz
Mineração de Dados ou Descoberta de conhecimento em BDs
Mineração de Dados Introdução.
Auditoria de Segurança da Informação
Classes e objetos Arrays e Sobrecarga
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Análise de Casos de Uso Alexandre Motnteiro.
Davyd Bandeira de Melo Um Sistema de Reconhecimento de Comandos de Voz Utilizando a Rede Neural ELM Junho 2011.
Estatística Descritiva
3. Árvore de Decisão.
Aprendizado de Máquina
ESTATÍSTICA.
Aprendizado de Máquina Aula 8
Inteligência Artificial
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
Salas de Matemática.
Análise Fatorial Factor analysis.
Introdução e Busca Cega
Aprendizado de Máquina - Introdução
1 2 Observa ilustração. Cria um texto. Observa ilustração.
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Regressão Pontos mais importantes: -objectivo -regressão linear
Redes Neuronais/Neurais/ Conexionistas Introdução
CALENDÁRIO SEXY Ele & Ela. CALENDÁRIO SEXY Ele & Ela.
Seleção de Atributos Ricardo Prudêncio.
Árvores de Decisão: supervisionado, simbólico, não incremental (?)
Ceça Moraes – Introdução à Programação SI1
Rio Verde - Goiás - Brasil
Inferência Estatística
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Etapas do Processo.
Introdução a Algoritmos
POTENCIAÇÃO E RAIZ QUADRADA DE NÚMEROS RACIONAIS
Planilha Eletrônica - Excel
Aula 11 - Teste de hipóteses, teste de uma proporção
Campus de Caraguatatuba Aula 9: Noções Básicas sobre Erros (3)
Contagem Sequencial do Estoque
Mineração de Dados: Classificação e Predição
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Mineração de Dados Classificação Felipe Carvalho – UFES 2009/2.
Mineração de Dados (Data Mining)
Transcrição da apresentação:

HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados

HAC MD -junho/ Tarefas de MD Data Mining Atividade Descritiva Sumariza ção Regras de Associaçã o Clusterin g Atividade Preditiva Regressã o Classifica ção

HAC MD -junho/ Classificação Tarefa preditiva em que as classes são discretas (nominais, categóricas) Tarefa de aprendizado supervisionado: exemplos são rotulados ou etiquetados (classes são conhecidas)

HAC MD -junho/ Relembrando conceitos... No aprendizado indutivo supervisionado: Exemplo (caso, registro ou dado) –É uma tupla (conjunto ordenado) de valores de atributos –Descreve o objeto de interesse: um paciente, cliente de uma companhia...

HAC MD -junho/ Relembrando conceitos... Atributo: Descreve uma característica ou um aspecto de um exemplo Tipos: nominal (categórico) Vento forte, dia com sol, cliente bom, etc... Contínuo Temperatura, humidade, etc... Símbolos especiais: Desconhecido (representado normalmente pelo ?) Não-se-aplica (representado normalmente pelo !)

HAC MD -junho/ Relembrando conceitos... No aprendizado supervisionado, um dos atributos é considerado especial, chamado de atributo-meta ou classe, que indica o conceito que se deseja aprender: Categoria do cliente (bom/mau) Decisão de sair (sim/não) Consumo do carro (km/l)

HAC MD -junho/ Consiste em aprender um padrão a partir de um conjunto de dados, na forma de árvore ou regras, tal que, dado um exemplo desconhecido (de classe desconhecida), classifica esse exemplo. Extrair um padrão de classificação significa ser capaz de descrever um número grande de casos de uma maneira concisa Voltando à classificação:

HAC MD -junho/ Conjunto de dados para classificação x x x x x x x x x x o o o o o o o o o o o o o Renda Dívida Dados no formato atributo-valor: Renda Dívida Status

HAC MD -junho/ Classificação Sistema de Aprendizado Paradigma de Aprendizado Conjunto de exemplos atributos/classe Classificador específico de uma aplicação

HAC MD -junho/ Classificação Classificador Exemplo a ser classificado Classe a que pertence o exemplo

HAC MD -junho/ Em que formato o classificador é representado e como ele é usado para classificação? Árvores de decisão Regras de decisão a=5 b=7 c=2 c=1c=2 simnão sim não Se a = 5 e b = 7 então c = 1 senão c = 2

HAC MD -junho/ Árvores de decisão Muitos algoritmos de AM são indutores de árvores de decisão Árvore de Decisão: estrutura de dados definida como: um nó folha que corresponde a uma classe ou um nó de decisão que contém um teste sobre um atributo. Para cada resultado do teste existe um ramo para uma sub-arvore que tem a mesma estrutura que a árvore.

HAC MD -junho/

HAC MD -junho/ Indutor de árvore de decisão função ARVORE (exemplos, atributos, default) retorna arvore 1. se não há exemplos então retorne valor default 2. se todos os exemplos tem a mesma classe então retorne a classe 3. best = escolha_atributo( atributos, exemplos); 4. arvore = nova arvore de decisão com atributo best na raiz 5. para todo valor v i de best faça 6. exemplos i = {elementos de exemplos com best = v i } 7. subarvore = ARVORE (exemplos i, atributos – best, valor_maioria(exemplos) 8. adicione um ramo para arvore com rótulo v i e subárvore subarvore 9. fim-para 10. retorne arvore

HAC MD -junho/ Seleção do melhor atributo O sucesso do algoritmo de geração de AD depende do critério utilizado para escolher o atributo que particiona o conjunto de exemplos em cada iteração alguns métodos: aleatório, atributo com menos valores, atributo com mais valores, atributo de ganho máximo

HAC MD -junho/ Exemplo

HAC MD -junho/ atributo selecionado: tempo tempo = sol T1, T3 (sim) T2, T4, T5 (não) tempo = nublado T6, T7, T9, T10 (sim) T8 (não) tempo = chuva T11, T14, T15 (sim) T12, T13 (não)

HAC MD -junho/ cada subconjunto ainda tem exemplos pertencentes a mais de uma classe é necessário selecionar outro teste baseado em outro atributo tempo = sol >> umidade tempo = nublado >> umidade tempo = chuva >> vento

HAC MD -junho/ tempo = sol e umidade 78 T1, T3 (sim) tempo = sol e umidade > 78 T2, T4, T5 (não) tempo = nublado e umidade > 70 T6, T7, T9, T10 (sim) tempo = nublado e umidade 70 T8 (não) tempo = chuva e vento = fraco T11, T14, T15 (sim) tempo = chuva e vento = forte T12, T13 (não)

HAC MD -junho/ agora todos os subconjuntos de exemplos definidos pelos testes pertencem a mesma classe

HAC MD -junho/ Poda de AD apenas um exemplo satisfaz a condição tempo = nublado e umidade 70 overfitting A poda em geral melhora o desempenho do classificador para exemplos não vistos a poda elimina erros provenientes de ruídos em vez de descartar informação relevante Pré-poda: ignora alguns exemplos Pós-poda: corta alguns ramos da árvore

HAC MD -junho/ Avaliação de algoritmos A avaliação é uma parte da etapa de pós- processamento: Avaliação: precisão; compreensibilidade; interessabilidade. Interpretação e explanação: documentado; visualizado; modificado; comparado. Filtragem do conhecimento: restrição de atributos; ordenação por métricas.

HAC MD -junho/ Avaliação de algoritmos Normalmente baseada na idéia de amostragem conjunto de exemplos distribuição D' amostra 1 amostra 2 amostra n

HAC MD -junho/ métodos de amostragem resubstituição: construir o classificador e testar seu desempenho no mesmo conjunto de exemplos (medida aparente) holdout: divide os exemplos em uma porcentagem fixa de exemplos p para treinamento e (1-p) para teste, considerando normalmente p > 1/2

HAC MD -junho/ métodos de amostragem Cross-validation: r-fold cross validation: exemplos são aleatoriamente divididos em r partições mutuamente exclusivas (folds) de tamanhao aproximadamente igual a n/r os exemplos nos r-1 folds são usados para treinamento e o fold remanescente é usado para teste o treinamento é repetido r vezes, cada vez com um fold como teste o erro é a média dos erros de cada treinamento

HAC MD -junho/ Erro e Precisão a meta do aprendizado supervisionado é generalizar conceitos de forma a predizê-lo em exemplos não utilizados no treinamento A precisão da hipótese de um classificador avalia a porcentagem de acertos durante o processo de classificação

HAC MD -junho/ Erro e Precisão taxa de erro: ce(h) = 1/n retorna 1 caso y i h(x i ) e zero caso contrário n número de exemplos de teste x i vetor de atributos h(x i ) saída obtida y i saída desejada precisão: ca(h) = 1 - ce(h)

HAC MD -junho/ Exemplos de teste: sol fraco não nublado fraco sim chuva fraco não