Carregar apresentação
A apresentação está carregando. Por favor, espere
1
O Processo de Preparação de Dados
Prof. Francisco de A. T. de Carvalho CIN / UFPE
2
O Processo de Exploração de Dados
processo de vários estágios onde se usa uma metodologia estruturada para: descobrir e avaliar problemas; definir soluções e estratégias de implementação produzir resultados quantificáveis
3
Estágios do Processo de Exploração dos Dados
Exploração do Espaço de Problemas Exploração de Espaço de soluções Especificação do Método de Implementação Mineração de Dados Preparação dos Dados Inspeção dos Dados Modelagem dos Dados
4
Duração de cada estágio (em % do total)
Exploração do Espaço de Problemas 10 Exploração de Espaço de soluções Especificação do Método de Implementação 1 Mineração de Dados Preparação dos Dados 60 Inspeção dos Dados Modelagem dos Dados 5
5
Importância de cada estágio (em % do total)
Exploração do Espaço de Problemas 15 Exploração de Espaço de soluções Especificação do Método de Implementação 51 Mineração de Dados Preparação dos Dados 15 Inspeção dos Dados Modelagem dos Dados
6
Estágio 1: Exploração do Espaço de Problemas
Identificação dos Problemas Identificação dos problemas certos à resolver Definição precisa do problema Iniciar definindo problemas de uma maneira precisa: decompor enunciados gerais em componentes menores
7
Mapa Cognitivo (Cognitive Maps)
Figura com: os objetos que constituem o espaço de problemas as conexões e interações das variáveis Sol Nuvens Temperatura do oceano O sol aumenta a temperatura do oceano O aquecimento do oceano aumenta a quantidade de nuvens O crescimento da quantidade de nuvens diminui o aquecimento
8
Ordenação Dois a Dois e Construção da matriz do problema
0.5 0.25 Problema Importância Dificuldade Retorno a b c d e f 5 2 1 6 3 4 3.75 2.25 5.25 2.75 4.5
9
Estágio 2: Exploração do Espaço de Soluções
Especificar que produto é desejado: relatórios, mapas, gráficos, programas, planilhas, fórmulas,etc. O produto deve ser específico o bastante para que a solução possa ser implementada
10
Estágio 3: Especificação do Método de Implementação
A exploração de dados não é realizada apenas para descobrir novas visões: trata-se de aplicar os resultados para aumentar os lucros melhorar o desempenho melhorar a qualidade aumentar a satisfação do cliente reduzir o desperdício diminuir as fraudes etc
11
Estágio 3: Especificação do Método de Implementação
A especificação da implementação é onde é detalhado como as várias soluções dos problemas selecionados são realmente aplicadas na pratica A especificação precisa ser uma definição completa e pratica da solução: a que problema ela se destina que forma ela toma o que fornece a quem se destina como ela é realizada limitações e expectativas etc
12
Estágio 4: Minerar os Dados
Minerar os dados é um processo com múltiplos estágios: preparação dos dados para a modelização inspeção dos dados modelização dos dados
13
Preparação dos Dados para a Modelização
Preparar os dados também prepara o “garimpeiro”: ele fornece modelos mais adequados mais rapidamente “Bons” dados são essenciais para que os modelos sejam efetivos As ferramentas de preparação de dados formam uma coleção de técnicas desenvolvidas à partir da experiência na tentativa de “arrumar” os dados e construir modelos “decentes”
14
Inspeção dos Dados É durante a inspeção que se determina se os dados são adequados A inspeção tenta responder três questões: a) O que contém o conjunto de dados? b) A partir dele, obterei respostas as minhas questões? c) Quais são as áreas de perigo? A inspeção procura a estrutura geral dos dados e relata se ou não há uma quantidade de informações úteis envolvida no conjunto de dados A inspeção tenta descobrir se a resposta ao problema a ser modelado está nos dados antes de investir na construção do modelo A inspeção tenta identificar as áreas de perigo: viés, escassez, mudanças rápidas
15
Modelização dos Dados Trata-se de um processo de transformação das informações presentes nos dados para uma forma compreensível para os usuários
16
Escolhas Básicas Objetos
Objetos do mundo real: carros, arvores, beleza, justiça, etc Ponto de vista da mineração: um objeto é uma coleção de características sobre as quais podem ser realizadas medidas Medidas O que é possível medir sobre as características: meu carro é azul escuro, 2 portas, 6 cilindros, 5 passageiros
17
Tipos de Medidas Uma variável representa uma medida que toma um numero particular de valores, com a possibilidade de valores diferentes para cada observação. Variáveis escalares: são expressas por um valor em determinada escala. Variáveis vetoriais: são expressas por mais de um valor
18
Tipos de Medidas Uma variável representa uma medida que toma um numero particular de valores, com a possibilidade de valores diferentes para cada observação. Variáveis escalares: são expressas por um valor em determinada escala. Variáveis vetoriais: são expressas por mais de um valor
19
Escalas Escala Intervalar
Nessa escala, existe não apenas uma ordem entre os valores, mas também existe diferença entre esses valores. O zero é relativo. Ex: Temperatura em Graus Celsius Escala Proporcional Nessa escala, além da diferença, tem sentido calcular a proporção entre valores (o zero é absoluto). Ex: Peso, Altura, etc.
20
Cardinalidade dos atributos das variáveis
Qualitativo / quantitativo Variáveis qualitativas: escalas nominais ou ordinais Variáveis quantitativas: escalas intervalares e proporcionais
21
Cardinalidade dos atributos das variáveis
Qualitativo / quantitativo Variáveis qualitativas: escalas nominais ou ordinais Variáveis quantitativas: escalas intervalares e proporcionais
22
Cardinalidade: Discreto versus Continuo
Variáveis dicotômicas Ex: Sexo (M, F) Valores ausentes e valores inaplicáveis Um valor ausente é aquele ausente no conjunto de dados mas existente no contexto em que a medida foi realizada Um valor inaplicável é um valor ausente e inexistente no contexto em que a medida foi realizada. Ex: Sexo = Masculino e Número de Partos = null
23
Cardinalidade: Discreto versus Continuo
Variáveis binárias Em geral são codificadas como “0”, “1” “0” em geral indica ausência de propriedade Ex: Possui antenas? (Sim , não) Variáveis Discretas Qualquer variável que possui mais de 3 valores distintos. Ex: Departamentos do CIN
24
Cardinalidade: Discreto versus Continuo
Variáveis contínuas Podem, em principio, assumir qualquer valor dentro de uma faixa.
25
Mudança de Escala Interesse
Muitos modelos só se aplicam à variáveis de mesma escala Estandardização Justificativa: unidades diferentes ou dispersões muito heterogêneas
26
Mudança de Escala Intervalar Ordinal Ex: Idade O = [0, 150]
0-20: jovem; 20-60: adulto; >60: idoso O’={jovem, adulto, idoso} Trata-se de subdividir O em subintervalos contíguos e associar a cada um deles uma modalidade
27
Mudança de Escala Intervalar Ordinal Perda de informação
Distinção entre objetos de uma mesma categoria Amplitude da diferença entre objetos de categorias diferentes Formas de obtenção das modalidades Partição em intervalos iguais Partição por efetivos iguais Partição por minimização da variância Partição em intervalos arbitrários
28
Mudança de Escala Ordinal Nominal
Basta desconsiderar a ordem entre as modalidades Ordinal ou Nominal Binária Cada modalidade é transformada em uma variável binária Codificação disjuntiva Codificação aditiva
29
Mudança de Escala Ordinal ou Nominal Binária
Cor: 1(verde), 2(azul), 3(marrom) Idade: 1(0-20), 2(20-60), 3(> 60) Cor Idade w 1 2 w’ 2 1 Verde Azul Marrom >60 w w’
30
Representação de Dados para a Mineração
Representação dos Dados Tabelas de Dados (flat file): as colunas representam as variáveis e as linhas representam as observações
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.