A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

O Processo de Preparação de Dados

Apresentações semelhantes


Apresentação em tema: "O Processo de Preparação de Dados"— Transcrição da apresentação:

1 O Processo de Preparação de Dados
Prof. Francisco de A. T. de Carvalho CIN / UFPE

2 O Processo de Exploração de Dados
processo de vários estágios onde se usa uma metodologia estruturada para: descobrir e avaliar problemas; definir soluções e estratégias de implementação produzir resultados quantificáveis

3 Estágios do Processo de Exploração dos Dados
Exploração do Espaço de Problemas Exploração de Espaço de soluções Especificação do Método de Implementação Mineração de Dados Preparação dos Dados Inspeção dos Dados Modelagem dos Dados

4 Duração de cada estágio (em % do total)
Exploração do Espaço de Problemas 10 Exploração de Espaço de soluções Especificação do Método de Implementação 1 Mineração de Dados Preparação dos Dados 60 Inspeção dos Dados Modelagem dos Dados 5

5 Importância de cada estágio (em % do total)
Exploração do Espaço de Problemas 15 Exploração de Espaço de soluções Especificação do Método de Implementação 51 Mineração de Dados Preparação dos Dados 15 Inspeção dos Dados Modelagem dos Dados

6 Estágio 1: Exploração do Espaço de Problemas
Identificação dos Problemas Identificação dos problemas certos à resolver Definição precisa do problema Iniciar definindo problemas de uma maneira precisa: decompor enunciados gerais em componentes menores

7 Mapa Cognitivo (Cognitive Maps)
Figura com: os objetos que constituem o espaço de problemas as conexões e interações das variáveis Sol Nuvens Temperatura do oceano O sol aumenta a temperatura do oceano O aquecimento do oceano aumenta a quantidade de nuvens O crescimento da quantidade de nuvens diminui o aquecimento

8 Ordenação Dois a Dois e Construção da matriz do problema
0.5 0.25 Problema Importância Dificuldade Retorno a b c d e f 5 2 1 6 3 4 3.75 2.25 5.25 2.75 4.5

9 Estágio 2: Exploração do Espaço de Soluções
Especificar que produto é desejado: relatórios, mapas, gráficos, programas, planilhas, fórmulas,etc. O produto deve ser específico o bastante para que a solução possa ser implementada

10 Estágio 3: Especificação do Método de Implementação
A exploração de dados não é realizada apenas para descobrir novas visões: trata-se de aplicar os resultados para aumentar os lucros melhorar o desempenho melhorar a qualidade aumentar a satisfação do cliente reduzir o desperdício diminuir as fraudes etc

11 Estágio 3: Especificação do Método de Implementação
A especificação da implementação é onde é detalhado como as várias soluções dos problemas selecionados são realmente aplicadas na pratica A especificação precisa ser uma definição completa e pratica da solução: a que problema ela se destina que forma ela toma o que fornece a quem se destina como ela é realizada limitações e expectativas etc

12 Estágio 4: Minerar os Dados
Minerar os dados é um processo com múltiplos estágios: preparação dos dados para a modelização inspeção dos dados modelização dos dados

13 Preparação dos Dados para a Modelização
Preparar os dados também prepara o “garimpeiro”: ele fornece modelos mais adequados mais rapidamente “Bons” dados são essenciais para que os modelos sejam efetivos As ferramentas de preparação de dados formam uma coleção de técnicas desenvolvidas à partir da experiência na tentativa de “arrumar” os dados e construir modelos “decentes”

14 Inspeção dos Dados É durante a inspeção que se determina se os dados são adequados A inspeção tenta responder três questões: a) O que contém o conjunto de dados? b) A partir dele, obterei respostas as minhas questões? c) Quais são as áreas de perigo? A inspeção procura a estrutura geral dos dados e relata se ou não há uma quantidade de informações úteis envolvida no conjunto de dados A inspeção tenta descobrir se a resposta ao problema a ser modelado está nos dados antes de investir na construção do modelo A inspeção tenta identificar as áreas de perigo: viés, escassez, mudanças rápidas

15 Modelização dos Dados Trata-se de um processo de transformação das informações presentes nos dados para uma forma compreensível para os usuários

16 Escolhas Básicas Objetos
Objetos do mundo real: carros, arvores, beleza, justiça, etc Ponto de vista da mineração: um objeto é uma coleção de características sobre as quais podem ser realizadas medidas Medidas O que é possível medir sobre as características: meu carro é azul escuro, 2 portas, 6 cilindros, 5 passageiros

17 Tipos de Medidas Uma variável representa uma medida que toma um numero particular de valores, com a possibilidade de valores diferentes para cada observação. Variáveis escalares: são expressas por um valor em determinada escala. Variáveis vetoriais: são expressas por mais de um valor

18 Tipos de Medidas Uma variável representa uma medida que toma um numero particular de valores, com a possibilidade de valores diferentes para cada observação. Variáveis escalares: são expressas por um valor em determinada escala. Variáveis vetoriais: são expressas por mais de um valor

19 Escalas Escala Intervalar
Nessa escala, existe não apenas uma ordem entre os valores, mas também existe diferença entre esses valores. O zero é relativo. Ex: Temperatura em Graus Celsius Escala Proporcional Nessa escala, além da diferença, tem sentido calcular a proporção entre valores (o zero é absoluto). Ex: Peso, Altura, etc.

20 Cardinalidade dos atributos das variáveis
Qualitativo / quantitativo Variáveis qualitativas: escalas nominais ou ordinais Variáveis quantitativas: escalas intervalares e proporcionais

21 Cardinalidade dos atributos das variáveis
Qualitativo / quantitativo Variáveis qualitativas: escalas nominais ou ordinais Variáveis quantitativas: escalas intervalares e proporcionais

22 Cardinalidade: Discreto versus Continuo
Variáveis dicotômicas Ex: Sexo (M, F) Valores ausentes e valores inaplicáveis Um valor ausente é aquele ausente no conjunto de dados mas existente no contexto em que a medida foi realizada Um valor inaplicável é um valor ausente e inexistente no contexto em que a medida foi realizada. Ex: Sexo = Masculino e Número de Partos = null

23 Cardinalidade: Discreto versus Continuo
Variáveis binárias Em geral são codificadas como “0”, “1” “0” em geral indica ausência de propriedade Ex: Possui antenas? (Sim , não) Variáveis Discretas Qualquer variável que possui mais de 3 valores distintos. Ex: Departamentos do CIN

24 Cardinalidade: Discreto versus Continuo
Variáveis contínuas Podem, em principio, assumir qualquer valor dentro de uma faixa.

25 Mudança de Escala Interesse
Muitos modelos só se aplicam à variáveis de mesma escala Estandardização Justificativa: unidades diferentes ou dispersões muito heterogêneas

26 Mudança de Escala Intervalar Ordinal Ex: Idade O = [0, 150]
0-20: jovem; 20-60: adulto; >60: idoso O’={jovem, adulto, idoso} Trata-se de subdividir O em subintervalos contíguos e associar a cada um deles uma modalidade

27 Mudança de Escala Intervalar Ordinal Perda de informação
Distinção entre objetos de uma mesma categoria Amplitude da diferença entre objetos de categorias diferentes Formas de obtenção das modalidades Partição em intervalos iguais Partição por efetivos iguais Partição por minimização da variância Partição em intervalos arbitrários

28 Mudança de Escala Ordinal Nominal
Basta desconsiderar a ordem entre as modalidades Ordinal ou Nominal Binária Cada modalidade é transformada em uma variável binária Codificação disjuntiva Codificação aditiva

29 Mudança de Escala Ordinal ou Nominal Binária
Cor: 1(verde), 2(azul), 3(marrom) Idade: 1(0-20), 2(20-60), 3(> 60) Cor Idade w 1 2 w’ 2 1 Verde Azul Marrom >60 w w’

30 Representação de Dados para a Mineração
Representação dos Dados Tabelas de Dados (flat file): as colunas representam as variáveis e as linhas representam as observações


Carregar ppt "O Processo de Preparação de Dados"

Apresentações semelhantes


Anúncios Google