A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Felipe Carvalho – UFES 2009/2

Apresentações semelhantes


Apresentação em tema: "Felipe Carvalho – UFES 2009/2"— Transcrição da apresentação:

1 Felipe Carvalho – UFES 2009/2
Mineração de Dados Felipe Carvalho – UFES 2009/2

2 Title Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Vivamus et magna. Fusce sed sem sed magna suscipit egestas.

3 Motivação Grandes volumes de dados disponíveis, que dificultam a análise humana sobre os mesmos. BD Amazon ~ 100 TB BD da NASA: recebe de satélites 50 GB por hora um petabyte de dados “cemitério” de dados: dados raramente visitados. Necessidade de transformar estes dados em informação útil.

4 Motivação – Aumento dos dados
Inviabilidade de análise humana dos dados Muito tempo para se descobrir alguma informação útil Total novos discos (TB) desde 1995 Quant. de analistas De: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”

5 Exemplo da Wall Mart O que fraldas tem a ver com cerveja?
Premissas dos gerentes das lojas: Mães compram fraldas  seção feminina e de bebês. Homens compram cervejas  seção masculina e bebidas. O Terada Warehouse Miner fez a seguinte sugestão: Coloquem a seção de fraldas ao lado da seção de cervejas. Resultado: As vendas de cerveja cresceram 30%. As vendas de fraldas cresceram 40%. Porque? Homens casados, entre 25 e 30 anos, compram fraldas e/ou cervejas no final das tardes de sexta-feira no retorno do trabalho para casa.

6 Aplicações Marketing/ Vendas Medicina Finanças
Prever quais consumidores serão atingidos nas campanhas publicitárias. Verificar por que os clientes trocam uma empresa por outra. Medicina Prever quais pacientes têm maior probabilidade de contrair uma certa doença. Finanças Detectar padrões de fraudes no uso de cartões de crédito. Identificar tendências de alta ou baixa de ações.

7 O que é mineração de dados?
Uso de técnicas, preferencialmente automáticas, de exploração de grandes quantidades de dados de forma a descobrir novos padrões e relações que, devido ao volume de dados, não seriam facilmente descobertos a olho nú pelo ser humano (Carvalho, 2001). Mineração de Dados é a principal etapa do processo de descoberta de conhecimento em bases de dados (Knowledge in Database Discovery – KDD, traduzido: Descoberta de Conhecimento em Banco de Dados), sendo responsável pelo processamento de dados com a finalidade de identificar padrões.

8 Mineração de dados - Multidisciplinar

9 Etapas do KDD

10 Etapas do KDD 0. Definição do problema - tipo de conhecimento que se deseja extrair do banco de dados. 1. Limpeza de dados - identificar dados faltantes e inconsistentes. 2. Integração de Dados - onde múltiplas fontes de dados devem ser combinadas e padronizadas em um Armazém de Dados (Data Warehouse) para facilitar o processo de mineração de dados. 3. Seleção de dados - onde os dados relevantes para a tarefa de análise são extraídos do banco de dados. O parâmetro para seleção é definido por um especialista do domínio. 4. Transformação de Dados - onde dados são transformados ou consolidados em formas apropriados para a mineração. 5. Mineração de Dados - um processo essencial onde métodos inteligentes são aplicados para extrair padrões de dados 6. Avaliação de padrões - identificação de quais padrões minerados são realmente interessantes para a solução do problema informado na etapa 0. 7. Apresentação do conhecimento

11 Técnicas de Mineração de Dados
Classificação - Classificar um objeto é determinar com que grupo de entidades, já classificados anteriormente, esse objeto apresenta mais semelhança. Estimação - Estimar um atributo é avaliá-lo tendo como base casos semelhantes nos quais esse atributo esteja presente (consulta a base de conhecimento). Previsão - A previsão consiste na determinação do valor futuro de um atributo, baseando-se em registros antigos deste atributo. Análise de Afinidades - Preocupa-se em descobrir que elementos dos eventos têm relações no tempo. O objetivo da análise de afinidade é encontrar quais produtos ou serviços os consumidores buscam conjuntamente. Análise de Agrupamento - Baseado em medidas de semelhança, definir quantas e quais classes existem em um conjunto de dados.

12 Principais Softwares Weka: software de domínio público (Java), desenvolvido pela Universidade de Waikato, contem uma série de algoritmos de DM. Intelligent Miner: desenvolvido pela IBM, é uma ferramenta de DM interligado diretamente com o banco de dados DB2 da IBM. Oracle Data Miner: desenvolvido pela Oracle, permite interligação direta com o banco de dados Oracle Enterprise 9i. SAS Enterprise Miner: tradicionalmente utilizado na área de negócios, marketing e inteligência competitiva. Statistica Data Miner: acrescenta as facilidades de mineração de dados ao tradicional pacote utilizado em aplicações de estatística.

13 Weka

14 Statistica Data Miner


Carregar ppt "Felipe Carvalho – UFES 2009/2"

Apresentações semelhantes


Anúncios Google