A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina | Fernando.

Apresentações semelhantes


Apresentação em tema: "DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina | Fernando."— Transcrição da apresentação:

1 DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados
Estudante: João Sedraz Professores: Ana Carolina | Fernando Fonseca

2 Agenda Introdução Conceitos Básicos Principais Técnicas
1.1. Origens da Mineração de Dados 1.2. Aplicações Conceitos Básicos 2.1. Descoberta de conhecimento em Banco de Dados 2.2. Tarefas da Mineração de Dados Principais Técnicas Mineração de dados complexos Software para Mineração de Dados 5.1. Demonstração do Weka

3 1. Introdução 1.1. Origens da Mineração de Dados Anos 80
Evolução dos BDs permitia armazenar grandes volumes de dados. Organizações "ricas em dados" e "pobre em informação“. Extrair novas informações não era trivial.

4 1. Introdução 1.1. Origens da Mineração de Dados Anos 80
Evolução dos BDs permitia armazenar grandes volumes de dados. Organizações "ricas em dados" e "pobre em informação“. Extrair novas informações não era trivial. Anos 90 Primeiras aplicações de Mineração de Dados. Descobertas de novas informações em termos de padrões a partir de grande volumes de dados.

5 1. Introdução 1.1. Origens da Mineração de Dados Anos 80
Evolução dos BDs permitia armazenar grandes volumes de dados. Organizações "ricas em dados" e "pobre em informação“. Extrair novas informações não era trivial. Anos 90 Primeiras aplicações de Mineração de Dados. Descobertas de novas informações em termos de padrões a partir de grande volumes de dados.

6 1. Introdução 1.2. Aplicações
Marketing: Identificação de desejos/necessidades dos clientes. Finanças: Análise de crédito e detecção de fraudes. Manufatura: Apoio em projetos para a otimização de recursos. Saúde: Indicação de diagnósticos. Segurança: Detecção de atividades terroristas e criminais. Educação: Adequação dos percursos de ensino e aprendizagem.

7 1. Introdução 1.2. Aplicações
Marketing: Identificação de desejos/necessidades dos clientes. Finanças: Análise de crédito e detecção de fraudes. Manufatura: Apoio em projetos para a otimização de recursos. Saúde: Indicação de diagnósticos. Segurança: Detecção de atividades terroristas e criminais. Educação: Adequação dos percursos de ensino e aprendizagem. Mas, as organizações também podem usar a mineração de dados para invadir a privacidade e manipular comportamento dos clientes.

8 2. Conceitos 2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD) O KDD é um processo de descoberta do conhecimento a partir de grandes volumes de dados que envolve cinco etapas: Seleção; Pré-Processamento; Transformação; Mineração de Dados; Avaliação.

9 2. Conceitos 2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD) Seleção: Escolha do conjunto de dados do qual se deseja extrair um novo conhecimento.

10 2. Conceitos 2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD) Pré-Processamento: Eliminação dados inconsistentes e integração com outras fontes de dados.

11 2. Conceitos 2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD) Transformação: Organização dos dados num formato apropriado para a aplicação de algoritmos de mineração.

12 2. Conceitos 2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD) Mineração de Dados: Aplicação de técnicas específicas para extração de padrões.

13 2. Conceitos 2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD) Avaliação: Identificação de padrões relevantes para o usuário.

14 2. Conceitos 2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD) Avaliação: Identificação de padrões relevantes para o usuário. Processo Cíclico

15 2. Conceitos 2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD) Mineração de Dados: É uma etapa de análise dos dados e aplicação de algoritmos de descoberta, que produzem um conjunto de regras ou padrões.

16 2. Conceitos 2.1. Descoberta de conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD) Mineração de Dados: É uma etapa de análise dos dados e aplicação de algoritmos de descoberta, que produzem um conjunto de regras ou padrões. Aprendizado de Máquina Banco de Dados Estatística Principais áreas envolvidas Abordagem Multidisciplinar

17 2. Conceitos 2.2. Tarefas da Mineração de Dados Tarefa x Técnica
Tarefa: Determina o tipo de problema que será resolvido pelo processo de mineração de dados. Técnica: Representa o algoritmo que pode ser empregados para a execução da mineração de dados.

18 2. Conceitos 2.2. Tarefas da Mineração de Dados (tarefas mais comuns)
Análise de Regras de Associação: Identifica combinações de itens ou valores de atributos que ocorrem com frequência significativa em uma base de dados (Ex: Fraldas => Cerveja, sistemas de recomendação, antivírus)

19 2. Conceitos 2.2. Tarefas da Mineração de Dados (tarefas mais comuns)
Análise de Regras de Associação: Identifica combinações de itens ou valores de atributos que ocorrem com frequência significativa em uma base de dados. Análise de Padrões Sequenciais: Semelhante a associação, mas leva em consideração a ordem ou data de ocorrência dos dados (Ex: estudos de DNA, análise da sequência de cliques em um site)

20 2. Conceitos 2.2. Tarefas da Mineração de Dados (tarefas mais comuns)
Análise de Regras de Associação: Identifica combinações de itens ou valores de atributos que ocorrem com frequência significativa em uma base de dados. Análise de Padrões Sequenciais: Semelhante a associação, mas leva em consideração a ordem ou data de ocorrência dos dados. Classificação: Descobre classes em um conjunto de registros fornecidos, descritos por variáveis predefinidas, que permitem prever a classificação de um novo registro (Ex: análise de crédito, seguros de veículos)

21 2. Conceitos 2.2. Tarefas da Mineração de Dados (tarefas mais comuns)
Análise de Regras de Associação: Identifica combinações de itens ou valores de atributos que ocorrem com frequência significativa em uma base de dados. Análise de Padrões Sequenciais: Semelhante a associação, mas leva em consideração a ordem ou data de ocorrência dos dados. Classificação: Descobre classes em um conjunto de registros fornecidos, descritos por variáveis predefinidas, que permitem prever a classificação de um novo registro. Agrupamento (análise de clusters): Divide um conjunto de dados em grupos de acordo com algum de tipo de similaridade (Ex: grupo de pacientes com reação a uma medicação A ou B).

22 3. Principais Técnicas Tarefa Técnicas Análise de Regras de Associação
Apriori, FP-Growth, DCI, ECLAT, Closet. Análise de Padrões Sequenciais GSP, PrefixSpan, BLAST. Classificação Árvores de Decisão, Regressão, Redes Neurais, Algoritmos Genéticos, SVM, k-Nearest, Naive Bayes. Agrupamento k-médias, Métodos Hierárquicos.

23 3. Principais Técnicas Técnica Apriori
Entrada: Banco de dados com m transações e um suporte mínimo. Saída: Itemsets frequente, L1, L2, ..., Lk.

24 3. Principais Técnicas Técnica Apriori
Entrada: Banco de dados com m transações e um suporte mínimo. Saída: Itemsets frequente, L1, L2, ..., Lk. Ex: Id_Transação Hora Itens _Comprados 100 6:35 Leite, pão, biscoito, suco 101 7:38 Leite, suco 102 8:05 Leite, ovos 104 8:40 Pão, biscoito, café

25 3. Principais Técnicas Técnica Apriori
Entrada: Banco de dados com m transações e um suporte mínimo. Saída: Itemsets frequente, L1, L2, ..., Lk. Ex: Para um suporte de 50%, temos: L1 = {{leite}, {pão}, {suco}, {biscoito}} L2 = {{leite, suco}, {pão, biscoito}} Id_Transação Hora Itens _Comprados 100 6:35 Leite, pão, biscoito, suco 101 7:38 Leite, suco 102 8:05 Leite, ovos 104 8:40 Pão, biscoito, café

26 3. Principais Técnicas Árvore de Decisão
Entrada: Banco de dados, com atributos preditivos e atributo alvo. Saída: classificação do atributo alvo em função dos preditivos.

27 3. Principais Técnicas Árvore de Decisão
Entrada: Banco de dados, com atributos preditivos e atributo alvo. Saída: classificação do atributo alvo em função dos preditivos. Ex: Banco de dados de uma locadora. Id Idade Renda Carro 1 >40 > 8k Importado 2 18 – 40 0-8k Nacional 3 4 5 6 7 8

28 3. Principais Técnicas Árvore de Decisão
Entrada: Banco de dados, com atributos preditivos e atributo alvo. Saída: classificação do atributo alvo em função dos preditivos. Ex: Banco de dados de uma locadora. Id Idade Renda Carro 1 >40 > 8k Importado 2 18 – 40 0-8k Nacional 3 4 5 6 7 8

29 3. Principais Técnicas k-médias
Entrada: Banco de dados e um número de k de clusters. Saída: Clusters de dados de menor distância Euclidiana.

30 3. Principais Técnicas k-médias
Entrada: Banco de dados e um número de k de clusters. Saída: Clusters de dados de menor distância Euclidiana. Cálculo da distância Euclidiana entre registros de duas dimensões.

31 3. Principais Técnicas k-médias
Entrada: Banco de dados e um número de k de clusters. Saída: Clusters de dados de menor distância Euclidiana. Ex: Registro de duas dimensões (Id não é considerado). Id Idade Anos_de_servico 1 30 5 2 50 25 3 15 4 10 6 55

32 3. Principais Técnicas k-médias
Entrada: Banco de dados e um número de k de clusters. Saída: Clusters de dados de menor distância Euclidiana. Ex: Registro de duas dimensões (Id não é considerado). Id Idade Anos_de_servico 1 30 5 2 50 25 3 15 4 10 6 55

33 4. Mineração de Estruturas Complexas
Inicialmente: mineração em repositórios estruturado de dados. Atualmente: mineração de dados representados em diversos formatos.

34 4. Mineração de Estruturas Complexas
Inicialmente: mineração em repositórios estruturado de dados. Atualmente: mineração de dados representados em diversos formatos. Mineração de Dados Espaciais (Ex: mapas) Mineração de Grafos (Ex: redes biológicas, redes sociais) Mineração de dados Multimídia (Ex: imagens, vídeos, áudios) Mineração de dados não estruturados (Ex: textos, , artigos) Mineração de objetos (Ex: mineração em SGBDOO) Mineração da Internet (Ex: link, padrões de acesso)

35 5. Software para Mineração de Dados
Proprietários Intelligent Miner (IBM), Enterprise Miner (SAS), Clementine (SPSS). Livres Weka, RapidMiner, R.

36 5. Software para Mineração de Dados
Proprietários Intelligent Miner (IBM), Enterprise Miner (SAS), Clementine (SPSS). Livres Weka, RapidMiner, R. O mais utilizado para Mineração de Dados Educacionais no contexto brasileiro

37 5. Software para Mineração de Dados
2.2. Demonstração do WEKA Licença: GPL Ponto forte: Principalmente classificação, mas também é capaz de minerar regras de associação e clusters de dados. Desenvolvedores: Pesquisadores da Univ. de Waikato, Nova Zelândia. Download:

38 5. Software para Mineração de Dados
2.2. Demonstração do WEKA Exemplo: Banco de dados de uma locadora (formato .arff)

39 5. Software para Mineração de Dados
2.2. Demonstração do WEKA Exemplo: Banco de dados de uma locadora (formato .arff) Cabeçalho

40 5. Software para Mineração de Dados
2.2. Demonstração do WEKA Exemplo: Banco de dados de uma locadora (formato .arff) Declaração da Relação Cabeçalho

41 5. Software para Mineração de Dados
2.2. Demonstração do WEKA Exemplo: Banco de dados de uma locadora (formato .arff) Declaração da Relação Cabeçalho Atributos Preditivos

42 5. Software para Mineração de Dados
2.2. Demonstração do WEKA Exemplo: Banco de dados de uma locadora (formato .arff) Declaração da Relação Cabeçalho Atributos Preditivos Atributo alvo

43 5. Software para Mineração de Dados
2.2. Demonstração do WEKA Exemplo: Banco de dados de uma locadora (formato .arff) Lista das instâncias

44 5. Software para Mineração de Dados
2.2. Demonstração do WEKA Exemplo: Banco de dados de uma locadora (formato .arff) Passo 1: Acessar o Weka Explorer (a) e clicar em Open (b) para abrir o arquivo .arff a ser analisado.

45 5. Software para Mineração de Dados
2.2. Demonstração do WEKA Exemplo: Banco de dados de uma locadora (formato .arff) Passo 2: Selecionar a aba “Classify” (a),escolher (b) o modelo “trees -> J48”, marca “Use training set” (c) e clica em “Start” (d).

46 5. Software para Mineração de Dados
2.2. Demonstração do WEKA Exemplo: Banco de dados de uma locadora (formato .arff) Saída da classificação

47 5. Software para Mineração de Dados
2.2. Demonstração do WEKA O software possui dezenas de algoritmos implementados, que permitem fazer associação, agrupamento e classificação.

48 Referências BERRY, Michael JA; LINOFF, Gordon. Data Mining Techniques For marketing, Sales and Customer Support. John Willey & Sons. Inc., 1997, 454 P, CAMILO, Cássio Oliveira; SILVA, João Carlos da. Mineração de dados: Conceitos, tarefas, métodos e ferramentas. Goiânia: Universidade Federal de Goiás, CHEN, Ming-Syan; HAN, Jiawei; YU, Philip S. Data mining: an overview from a database perspective. Knowledge and data Engineering, IEEE Transactions on, v. 8, n. 6, p , DE AMO, Sandra. Técnicas de mineração de dados. Jornada de Atualizaçao em Informatica, ELMASRI, R; NAVATHE, S.; DE OLIVEIRA MORAIS, R. Sistemas de banco de dados FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From data mining to knowledge discovery in databases. AI magazine, v. 17, n. 3, p. 37, GALVÃO, Noemi Dreyer; MARIN, Heimar de Fátima. Técnica de mineração de dados: uma revisão da literatura. Acta Paulista de Enfermagem, v. 22, n. 5, p , GONÇALVES, Eduardo Corrêa. Data Mining com a ferramenta Weka. Fórum de Software Livre de Duque de Caxias–2011. RODRIGUES, R. et al. A literatura brasileira sobre mineração de dados educacionais. In: Anais do CBIE SANTOS, R. “Weka: um Guia para Uso do Weka em Scripts e Integração com Aplicações Java”. Instituto Nacional de Pesquisas Espaciais (INPE), 2005.

49 Dúvidas e sugestões?


Carregar ppt "DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina | Fernando."

Apresentações semelhantes


Anúncios Google