A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE.

Apresentações semelhantes


Apresentação em tema: "O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE."— Transcrição da apresentação:

1 O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE

2 processo de vários estágios onde se usa uma metodologia estruturada para: O Processo de Exploração de Dados descobrir e avaliar problemas; definir soluções e estratégias de implementação produzir resultados quantificáveis

3 Mineração de Dados Preparação dos Dados Inspeção dos Dados Modelagem dos Dados Estágios do Processo de Exploração dos Dados Exploração do Espaço de Problemas Exploração de Espaço de soluções Especificação do Método de Implementação

4 Exploração do Espaço de Problemas10 Exploração de Espaço de soluções 920 Especificação do Método de Implementação 1 Mineração de Dados Preparação dos Dados60 Inspeção dos Dados1580 Modelagem dos Dados 5 Duração de cada estágio (em % do total)

5 Exploração do Espaço de Problemas15 Exploração de Espaço de soluções1480 Especificação do Método de Implementação51 Mineração de Dados Preparação dos Dados15 Inspeção dos Dados 320 Modelagem dos Dados 2 Importância de cada estágio (em % do total)

6 Estágio 1: Exploração do Espaço de Problemas Identificação dos Problemas Identificação dos problemas certos à resolver Definição precisa do problema Iniciar definindo problemas de uma maneira precisa: decompor enunciados gerais em componentes menores

7 Mapa Cognitivo (Cognitive Maps) Figura com: os objetos que constituem o espaço de problemas as conexões e interações das variáveis Sol Nuvens Temperatura do oceano O sol aumenta a temperatura do oceano O aquecimento do oceano aumenta a quantidade de nuvens O crescimento da quantidade de nuvens diminui o aquecimento do oceano

8 Ordenação Dois a Dois e Construção da matriz do problema ProblemaImportânciaDificuldadeRetorno a b c d e f

9 Estágio 2: Exploração do Espaço de Soluções Especificar que produto é desejado: relatórios, mapas, gráficos, programas, planilhas, fórmulas,etc. O produto deve ser específico o bastante para que a solução possa ser implementada

10 Estágio 3: Especificação do Método de Implementação A exploração de dados não é realizada apenas para descobrir novas visões: trata-se de aplicar os resultados para aumentar os lucros melhorar o desempenho melhorar a qualidade aumentar a satisfação do cliente reduzir o desperdício diminuir as fraudes etc

11 Estágio 3: Especificação do Método de Implementação A especificação da implementação é onde é detalhado como as várias soluções dos problemas selecionados são realmente aplicadas na pratica A especificação precisa ser uma definição completa e pratica da solução: a que problema ela se destina que forma ela toma o que fornece a quem se destina como ela é realizada limitações e expectativas etc

12 Estágio 4: Minerar os Dados Minerar os dados é um processo com múltiplos estágios: preparação dos dados para a modelização inspeção dos dados modelização dos dados

13 Preparação dos Dados para a Modelização Preparar os dados também prepara o garimpeiro: ele fornece modelos mais adequados mais rapidamente Bons dados são essenciais para que os modelos sejam efetivos As ferramentas de preparação de dados formam uma coleção de técnicas desenvolvidas à partir da experiência na tentativa de arrumar os dados e construir modelos decentes

14 Inspeção dos Dados É durante a inspeção que se determina se os dados são adequados A inspeção tenta responder três questões: a) O que contém o conjunto de dados? b) A partir dele, obterei respostas as minhas questões? c) Quais são as áreas de perigo? A inspeção procura a estrutura geral dos dados e relata se ou não há uma quantidade de informações úteis envolvida no conjunto de dados A inspeção tenta descobrir se a resposta ao problema a ser modelado está nos dados antes de investir na construção do modelo A inspeção tenta identificar as áreas de perigo: viés, escassez, mudanças rápidas

15 Modelização dos Dados Trata-se de um processo de transformação das informações presentes nos dados para uma forma compreensível para os usuários

16 Escolhas Básicas Objetos do mundo real: carros, arvores, beleza, justiça, etc Ponto de vista da mineração: um objeto é uma coleção de características sobre as quais podem ser realizadas medidas Objetos Medidas O que é possível medir sobre as características: meu carro é azul escuro, 2 portas, 6 cilindros, 5 passageiros

17 Tipos de Medidas Uma variável representa uma medida que toma um numero particular de valores, com a possibilidade de valores diferentes para cada observação. Variáveis escalares: são expressas por um valor em determinada escala. Variáveis vetoriais: são expressas por mais de um valor

18 Tipos de Medidas Uma variável representa uma medida que toma um numero particular de valores, com a possibilidade de valores diferentes para cada observação. Variáveis escalares: são expressas por um valor em determinada escala. Variáveis vetoriais: são expressas por mais de um valor

19 Escalas Escala Intervalar Nessa escala, existe não apenas uma ordem entre os valores, mas também existe diferença entre esses valores. O zero é relativo. Ex: Temperatura em Graus Celsius Nessa escala, além da diferença, tem sentido calcular a proporção entre valores (o zero é absoluto). Ex: Peso, Altura, etc. Escala Proporcional

20 Cardinalidade dos atributos das variáveis Qualitativo / quantitativo Variáveis qualitativas: escalas nominais ou ordinais Variáveis quantitativas: escalas intervalares e proporcionais

21 Cardinalidade dos atributos das variáveis Qualitativo / quantitativo Variáveis qualitativas: escalas nominais ou ordinais Variáveis quantitativas: escalas intervalares e proporcionais

22 Cardinalidade: Discreto versus Continuo Variáveis dicotômicasEx: Sexo (M, F) Valores ausentes e valores inaplicáveis Um valor ausente é aquele ausente no conjunto de dados mas existente no contexto em que a medida foi realizada Um valor inaplicável é um valor ausente e inexistente no contexto em que a medida foi realizada. Ex: Sexo = Masculino e Número de Partos = null

23 Cardinalidade: Discreto versus Continuo Variáveis binárias Em geral são codificadas como 0, 1 Variáveis Discretas Qualquer variável que possui mais de 3 valores distintos. Ex: Departamentos do CIN 0 em geral indica ausência de propriedade Ex: Possui antenas? (Sim, não)

24 Cardinalidade: Discreto versus Continuo Variáveis contínuas Podem, em principio, assumir qualquer valor dentro de uma faixa.

25 Mudança de Escala Interesse Muitos modelos só se aplicam à variáveis de mesma escala Estandardização Justificativa: unidades diferentes ou dispersões muito heterogêneas

26 Mudança de Escala Intervalar Ex: Idade O = [0, 150] 0-20: jovem; 20-60: adulto; >60: idoso O={jovem, adulto, idoso} Trata-se de subdividir O em subintervalos contíguos e associar a cada um deles uma modalidade Ordinal

27 Mudança de Escala Intervalar Perda de informação Formas de obtenção das modalidades Ordinal Distinção entre objetos de uma mesma categoria Amplitude da diferença entre objetos de categorias diferentes Partição em intervalos iguaisPartição por efetivos iguais Partição em intervalos arbitrários Partição por minimização da variância

28 Mudança de Escala Ordinal Nominal Basta desconsiderar a ordem entre as modalidades Cada modalidade é transformada em uma variável binária Codificação disjuntiva Codificação aditiva Ordinal ou NominalBinária

29 Mudança de Escala Cor: 1(verde), 2(azul), 3(marrom) Idade: 1(0-20), 2(20-60), 3(> 60) CorIdade w12 w21 VerdeAzulMarrom >60 w w Ordinal ou NominalBinária

30 Representação de Dados para a Mineração Representação dos Dados Tabelas de Dados (flat file): as colunas representam as variáveis e as linhas representam as observações


Carregar ppt "O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE."

Apresentações semelhantes


Anúncios Google