Introdução a Mineração de Dados

Introdução a Mineração de Dados
Marcus Sampaio DSC / UFCG 1

Sumário I. Introdução Contexto Mineração de Dados Exemplo de Motivação
Modelos e Padrões Algoritmos de Mineração de Dados O Processo de Mineração de Dados Métricas de Mineração de Dados Questões em Aberto O Sistema de Avaliação Bibliografia

Sumário (2) II. Modelos de Conhecimento II.1Regras de Associação
Algoritmo Apriori II.2 Classificação Supervisionada II.2.1 Árvores de Decisão Algoritmo 1R Algoritmo ID3 Algoritmo J48 II.2.2 Modelo Estatístico “NaïveBayes” II.2.3 Regras de Classificação Algoritmo Prism II.3 Classificação Não Supervisionada “Clustering” Algoritmo CobWeb

Sumário (3) III. O Processo de Mineração de Dados IV. Estudo de Caso
V. A Pesquisa em Mineração de Dados no DSC/UFCG VI. Produtos de Mineração de Dados VII. A Biblioteca WEKA

I. I n t r o d u ç ã o

Contexto Empresas mantêm grandes bancos de dados (BD), contendo verdadeiras minas de informação Informação é a alma do negócio Muita informação jamais é recuperada Os usuários não se lembram de perguntar, ou não sabem como pergundar Os modernos SGBDs incorporam algumas técnicas de mineração de dados (MD) A integração SGBD-MD é ainda incipiente 4

Mineração de Dados Mineração de Dados é uma tecnologia capaz de descobrir informação ‘escondida’ em um BD Outras denominações Análise de Dados Exploratória Descoberta Dirigida a Dados Aprendizagem Dedutiva Implementa o conceito de consulta aberta ou semi-aberta Consultas tradicionais são fechadas, ou completamente definidas

Mineração de Dados (2) Consultas Abertas ou Semi-Abertas
Consulta: Pode não ser bem formada, ou formulada imprecisamente. O minerador pode nem mesmo saber exatamente o que ele quer ver Dados: Como se trata de descobrir padrões (repetições), dados normalizados (sem repetições) não facilitam a tarefa de mineração. A solução é gerar arquivos intermediários não normalizados do BD operacional normalizado Saída: Provavelmente não é um subconjunto do BD. Em vez disso, é o resultado de alguma análise sobre o conteúdo do BD

Exemplo de Motivação Um robot que prescreve lentes de contato
Oftalmologista: quais as condições gerais – padrões – pelas quais eu sempre tenho receitado lentes de contato duras? ou gelatinosas? ou não tenho recomendo o uso de lentes? 4

Exemplo de Motivação (2)
idade acuidade visual astigmatismo taxa de produção de lágrima tipo de lente jovem míope não reduzida nenhum normal gelatinosa sim dura hipermétrope

jovem hipermétrope sim reduzida nenhum normal dura maduro míope não gelatinosa

maduro hipermétrope não normal gelatinosa sim reduzida nenhum idoso míope dura

idoso hipermétrope não reduzida nenhum normal gelatinosa sim

se taxa_de_produção_de_lágrima = ‘reduzida’ então tipo_de_lente = ‘nenhum’ Padrão expressado em forma de regra se ... então Regra se ... então é um modelo de conhecimento Existem muitos modelos de conhecimento A regra se verifica em todos os casos em que a taxa de produção de lágrima é reduzida? Via de regra, não há certeza, apenas probabilidade Quantas e quais são as outras regras para não receitar lente de contato (somente da amostra, podemos extrair mais três regras – verifique)

Quão confiável é uma regra? se idade = ‘maduro’ e acuidade_visual = ‘hipermétrope’ e astigmatismo = ‘sim’ e taxa_de_produção_de_lágrima = ‘normal’ então tipo_de_lente = ‘nenhum’ Ela se verifica em somente um caso da amostra Qual a freqüência mínima aceitável?

Modelos são induzidos (ou inferidos) por algoritmos de mineração Existem muitos algoritmos de mineração Não existe o melhor algoritmo Que fazer? Diversos algoritmos poderiam implementar o nosso robô Experimentemos alguns deles Biblioteca WEKA

Modelos e Padrões Outra definição de Mineração de Dados
Tecnologia que visa extrair automaticamente conhecimento útil, confiável e não trivial  ‘minério’  de um banco de dados  ‘mina’ O conhecimento deve ser apresentado segundo um modelo formal Modelo de regras de classificação: se <condição> então <classificação> Instância do modelo: se taxa_de_produção_de_lágrima = ‘reduzida’ então tipo_de_lente = ‘nenhum’ Não faremos mais distinção entre modelo e instância Um modelo é confiável na medida em que ela possa ser considerada um padrão Padrão  freqüência significativa no banco de dados

Modelos ... (2) Tipos de modelo Preditivo Descritivo
Faz predição acerca de valores de dados usando resultados conhecidos de outros dados Em geral, a modelagem é baseada em dados históricos, para fazer predição (ou previsão) sobre novos dados Descritivo Identifica padrões ou relacionamentos em dados, históricos ou não

Modelos ... (3) Modelo Preditivo Descritivo Clustering Síntese
Classificação Série Temporal Regressão Descoberta de Seqüências Regras de Associação

Algoritmos de Mineração de Dados
Os algoritmos diferem segundo os modelos de conhecimento que eles induzem (ou inferem) Classificação Regressão Série Temporal “Clustering” Síntese Regras de Associação Descoberta de Seqüências 5

Algoritmos ... (2) Algoritmos de Classificação
Mapeia dados em classes, ou grupos pré-definidos Classes são valores de atributos, chamados de atributos de classificação Classificação supervisionada Exemplo 1 (Concessão de crédito bancário) Suponha que, com base em informações históricas sobre clientes, cada cliente é colocado em uma de quatro classes: (c1) OK, (c2) pedir mais informações, (c3) ñOK e (c4) chamar a polícia. Um algoritmo de classificação trabalha em duas fases: Fase 1: induzir um modelo para as classes Fase 2: Aplicar o modelo ao novo cliente

Algoritmos ... (3) Exemplo 2 (Reconhecimento de padrões)
Em um aeroporto, características dos passageiros – distância entre os olhos, tamanho e formato da boca, formato da cabeça, etc. -- são examinadas. Essas características são comparadas com entradas em um banco de dados, para verificar se casam com padrões associados com diferentes classes de criminalidade

Algoritmos ... (4) Algoritmos de Regressão
Um problema estatístico clássico é experimentar determinar o relacionamento entre duas variáveis aleatórias, X e Y, por meio de uma linha reta, aproximada. O modelo de regressão linear postula que Y= a+bX+e onde e é um resíduo e os coeficientes a and b are determinados de modo que o resíduo seja o menor possível

Algoritmos ... (5) Rendimento x x x x x x x x x x x x Aplicação

Algoritmos ... (6) Algoritmos de Série Temporal
Uma série temporal é a variação, sobre o tempo, do valor de um certo atributo A freqüência das medições pode ser diária, semanal, horária, etc. Pelo exame de um conjunto de séries temporais, algoritmos podem determinar Séries similares Predição (como para regressão) Propriedades de séries

Algoritmos ... (7) Nível de Estoque Tempo
Produto B Produto A Produto C Tempo • Produto C é menos volátil do que produtos A e B • Mesma política de estoque para A e B • Com boa certeza, pode-se fazer predição para C

Algoritmos ... (8) Algoritmos de “Clustering”
“Clustering” é similar a classificação, exceto que os grupos (“clusters”) não são pré-definidos – classificação não-supervisionada Segmentação dos dados em grupos, não necessariamente disjuntos Dados similares são agrupados em um mesmo grupo Como os grupos não são pré-definidos, um especialista do domínio da aplicação deve interpretar o significado dos grupos induzidos Classificação supervisionada (cada dado é classificado com o número de seu grupo) pode ajudar a identificar os grupos Indução de um modelo de classificação em que as classes são os grupos

Algoritmos ... (9) Exemplo (Mala Direta)
Uma cadeia nacional de lojas deseja criar catálogos específicos, baseados em atributos tais como renda, localização, características físicas, etc. Para determinar o público-alvo dos catálogos, bem como identificar novos e desconhecidos grupos visando à criação de outros catálogos específicos, ou ainda catálogos mais específicos do que os inicialmente pensados, um algoritmo de “clustering” agrupa os clientes (potenciais) da cadeia de lojas, segundo certos atributos dos clientes. Desta forma, um eficiente sistema de mala direta pode ser construído

Algoritmos ... (10) Algoritmos de Síntese
Síntese mapeia dados em subconjuntos, segundo critérios previamente escolhidos Também chamada de Caracterização ou Generalização De forma sucinta, caracteriza o conteúdo de um banco de dados

Algoritmos ... (11) Exemplo (Ranking de Universidades)
Um dos muitos critérios usados para comparar universidades por um instituto de pesquisa americano é o chamado escore ACT. Trata-se de uma síntese usada para estimar o tipo e o nível intelectual do corpo estudantil

Algoritmos ... (12) Algoritmos de Regras de Classificação
Uma regra de associação é um modelo que identifica tipos específicos de associação entre dados Formalmente, é uma extensão de regra de classificação, em que vários pares atributo-valor podem aparecer no conseqüente (isto é, o que vem depois do então)

Algoritmos ... (13) Exemplo (Gerência de Vendas)
O dono de um mercadinho está decidindo se coloca um produto X em promoção. A fim de determinar o impacto dessa decisão, o proprietário uma um algoritmo que infere regras de associação que mostram que outros produtos são freqüentemente comprados junto com o produto X. Baseado nesses fatos, ele toma algumas decisões: Aproximar, nas prateleiras, os produtos associados Não colocar em promoção, ao mesmo tempo, mais de um produto associado

Algoritmos ... (14) Algoritmos de Descoberta de Seqüências
Descobrem padrões seqüenciais – baseados no tempo -- em dados Os padrões são similares a associações, porém as associações são temporais Exemplo 1 Pessoas que compram CD-players, também compram CDs no espaço de uma semana Note que, para que este conhecimento seja válido, é preciso que seja um padrão (número de repetições acima de um valor mínimo aceitável) Isto vale para qualquer modelo

Algoritmos ... (15) Exemplo 2 O webmaster de uma companhia X periodicamente usa um algoritmo que analisa os dados do log da Web, para saber como os usuários do site da empresa navegam nele – que seqüência de páginas são freqüentemente acessadas?) Desta maneira, ele fica sabendo que 70% dos usuários da página A seguem um dos seguintes padrões de comportamento: <A,B,C> ou <A,D,B,C> ou <A,E,B,C>. Ele então determina criar um link diretamente da página A para a página C

O Processo de Mineração

O Processo ... (2) Seleção Pré-processamento Transformação
Dados podem ser obtidos de fontes heterogêneas, incluindo BDs, arquivos, papel, etc. Pré-processamento Trata de corrigir / remover dados incorretos ou ‘sujos’. Por outro lado, dados faltando (“null values”) devem ser fornecidos ou inferidos Envolve também fragmentação de dados, para alguns algoritmos de MD – Preparação de Dados Transformação Os dados de diferentes fontes devem ser convertidos para um formato comum, por exemplo, o formato .ARFF, da biblioteca WEKA de ferramentas de MD

O Processo ... (3) Mineração ou Garimpagem
Dados selecionados, pré-processados e transformados são entrada para algoritmos de MD, que inferem / induzem modelos de conhecimento ou padrões – conhecimento -- sobre os dados Análise e Assimilação do Conhecimento O conhecimento precisa ser avaliado pelo minerador Separar o conhecimento útil do inútil O critério de ser útil (ou inútil) está intimamente associado com a importância (ou não) do conhecimento para o negócio O conhecimento útil muitas vezes precisa ser simplificado Os algoritmos atuais são muito verborrágicos

Métricas de Mineração de Dados
Note que, dado um problema de mineração, há potencialmente uma grande quantidade de processos de MD que podem resolver o problema No. de técnicas de seleção x no. de técnicas de pré-processamento [x no. de técnicas de preparação ] x no. de algoritmos de MD Qual o melhor processo de MD para o problema? A resposta depende das métricas de desempenho escolhidas

Métricas ... (2) Métricas As tradicionais, como as de espaço e tempo, baseadas em análise de complexidade Para algoritmos de classificação, a acurácia do conhecimento induzido

Questões em Aberto Integração com SGBDs
Os algoritmos de MD não lêem diretamente de SGBDs Dados são extraídos de um BD, via comandos SQL, e armazenados em um arquivo "flat", desnormalizado O arquivo "flat"é a entrada para os algoritmos de mineração Note que desnormalização (repetição) favorece a descoberta de padrões Termos relacionais (<atributo1> <opcomp> <atributo2>) Atualmente, os termos dos modelos de MD são da forma <atributo> <opcomp> valor

Questões em Aberto (2) Escala Minas de Dados são Impuras
Algoritmos de MD sem escala são de limitada utilidade Minas de Dados são Impuras Dados do mundo real têm muita ‘sujeira’, e muito valor faltando (“null values”). Algoritmos de MD têm que ser capazes de trabalhar com minas impuras Dinâmica dos Dados Muitos algoritmos de MD trabalham com dados estáticos. Isto não é um modus operandi realista

Questões em Aberto (3) Facilidade de Assimilação
Embora alguns algoritmos possam trabalhar bem, eles podem não ser bem recebidos pelos usuários se eles produzem conhecimento verborrágico Conhecimento inútil misturado com conhecimento útil Padrões complexos Padrões não sintetizados

Sistema de Avaliação Tarefas Laboratoriais (por equipe)
Utilização de algoritmos da biblioteca free WEKA Interpretação dos resultados dos algoritmos Solução de um problema

Sistema de Avaliação (2)
Problema: Sistema de Análise de Risco de Crédito Uma empresa financeira precisa de um sistema robusto de apoio à decisão de conceder crédito. Por robustez, devemos entender que os riscos de crédito devem ser minimizados, isto é, abaixo de um certo limiar  taxa tolerável de inadimplência Felizmente, a empresa dispõe de um rico acervo de informação: o histórico classificado  bom pagador, mal pagador  de todos os beneficiários de crédito. Entretanto, a empresa não sabe como sintetizar esses dados: em suma, qual são os perfis dos bons pagadores, e os perfis dos maus pagadores?

Sistema de Avaliação (3)
A tecnologia de mineração de dados está aí para resolver o problema. Com base na descrição de cada cliente (26 atributos), um algoritmo de mineração é capaz de definir o que é um cliente adimplente, e o que é um cliente inadimplente. Mas, existem diversos algoritmos de mineração. Qual é o melhor para o caso em questão? Este problema, e diversos outros, terão que ser equacionados no decorrer do projeto

Bibliografia Margaret H. Dunham. Data Mining: Introductory and Advanced Topics, Prentice Hall, 2003 (livro-texto) Ian H. Witten & Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann Publishers, Segunda edição: junho/2005 Dorian Pyle. Business Modeling and Data Mining, Morgan Kaufmann Publishers, 2003 Dorian Pyle. Data Preparation for Data Mining, Morgan Kaufmann Publishers, 1999

Bibliografia (2) URL do primeiro livro da lista URL livro-texto
URL livro-texto Portal de MD Biblioteca WEKA

Introdução a Mineração de Dados

Apresentações semelhantes

Apresentação em tema: "Introdução a Mineração de Dados"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Introdução a Mineração de Dados

Apresentações semelhantes

Apresentação em tema: "Introdução a Mineração de Dados"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback