A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Capítulo 2 Data Preparation for Data Mining

Apresentações semelhantes


Apresentação em tema: "Capítulo 2 Data Preparation for Data Mining"— Transcrição da apresentação:

1 Capítulo 2 Data Preparation for Data Mining
Natureza dos Dados Capítulo 2 Data Preparation for Data Mining

2 Tipologia da fontes de dados para mineração
Fontes convencionais preparadas para mineração: Arquivo texto chato padronizado (flat file) Data warehouse ou data mart relacional Data warehouse ou data mart multidimensional Fontes convencionais não preparadas para mineração Arquivos de log BD relacional Fontes não convencionais BD objeto-relacional BD orientado a objetos BD espacial BD temporal BD multimídia BD semi-estruturado Páginas web

3 Arquivo texto padronizado (flat file)
Meta-dados do cabeçote: 1a linha = nome do conceito ou relação a minerar, depois cada linha = tipo e/ou conjunto de valores possíveis de um atributo Dados no resto do arquivo: cada linha = um exemplo ou instância do conceito a aprender  um registro de uma tabela de BD relacional separadas em campos por separadores convencionais cada campo = um atributo ou propriedade da instância  campo de uma tabela de BD relacional

4 Exemplo de flat file: formato de entrada do Weka
@data sunny, 85, 85, false, no sunny, 80, 90, true, no overcast, 83, 86, false, yes rainy, 70, 96, false, yes rainy, 68, 80, false, yes rainy, 65, 70, true, no overcast, 64, 65, true, yes sunny, 72, 95, false, no sunny, 69, 70, false, yes rainy, 75, 80, false, yes sunny, 75, 70, true, yes overcast, 72, 90, true, yes overcast, 81, 75, false, yes rainy, 71, 91, true, no % Arff file for the weather data with some % numeric features @relation weather @attribute outlook { sunny, overcast, rainy } @attribute temperature numeric @attribute humidity numeric @attribute windy { true, false } @attribute play? { yes, no }

5 Arquivo texto chato padronizado (flat file)
Única entrada de vários ferramentas de mineração Pode ser criado a partir de BD relacional via Inadequado quando se tem naturalmente: muitas relações entre as instancias, ex, famílias relações recursivas entre as instancias, ex, ancestral dependências existenciais entre atributos, ex, casado, cônjuge poucos atributos definidos para todas as instancias ex, númeroDeRodas e númeroDePortas para veículos aninhamento ou hierarquias de valores para muitos atributos, ex, nordeste, RN, Natal ou seja quando o esquema de dados relevantes é não trivial

6 Tipologia dos atributos 1/3
Binário: Booleano, ex, Male  {True,False} Dicotômico, ex Sex  {Male,Female} Nominal ou categórico ou simbólico: partição finita de valores sem ordem nem medida são apenas = ou  ex, brasileiro, francês, americano

7 Tipologia dos atributos 2/3
Intervalar: partição finita de valor ordenada com medida m definindo distância d: X,Y, d(X,Y) = |m(X)-m(Y)| sem zero inerente ex, temperatura em grau Celsius Ordinal ou enumerado ou discreto: partição finita de valor ordenada (parcialmente ou totalmente) sem medida são apenas =, , , > ex, fraco, médio, bom, excelente

8 Tipologia dos atributos 3/3
Fracional ou proporcional: partição com distância zero inerente todos os operadores matemático aplicam-se ex, temperatura em grau Kelvin Contínuo: conjunto infinito de valores ordenadas com medida, isomorfo a R Probabilista: contínuo entre [0,1] apenas operadores probabilistas aplicam-se Complexo: estrutura interna de sub-atributos aninhados criando tipos compostos possivelmente com restrições de valores particulares entre os sub-atributos ex, data, endereço

9 Tipologia dos atributos
Simples Complexos Binárias Dicotômicas Booleanas Qualitativas Nominal Ordinal Quantitativas Intervalar Fracional Discreta Contínua Objeto Data Endereço R [0,1]

10 Minerar arquivo flat x minerar banco de dados
Para mineração como para outras aplicações, BD fornece: gerenciamento de memória segundaria consultas declarativas complexas para: selecionar dados agregar dados reagrupar dados derivar novos dados estender meta-dados segurança de acesso com usuário múltiplos tolerância a falha com tecnologia padronizada e escalável Minerando arquivos flat: aos poucos, necessidade desses serviços reaparece requerendo re-implementação: ad-hoc com tecnologia inapropriada por conta própria Conclusão: API para BD elemento chave na utilidade prática de uma ferramenta de mineração

11 Exemplo Dados do Vestibular
Campo Tipo Descrição INSCRICAO Fracional Inscrição do Vestibular ANO Ano de realização do Concurso SEXO Bin. Dicotômico Sexo: M e F NOME Nominal Nome do candidato

12 Dados de Candidatos do Vestibular
DT_NASCIMENTO Complexo Data de nascimento ESTADO Categórico Estado durante o concurso CIDADE Cidade durante o concurso BAIRRO Bairro durante o concurso OPCAO_LINGUA Opção de língua estrangeira: INGLÊS, ESPANHOL e FRANCÊS

13 TIPO_PARTICIPACAO Bin. Dicotômico Participação: POR EXPERIÊNCIA ou VALENDO UNIVERSIDADE ? GRUPO Categórico Grupo do curso escolhido: GRUPO 1 a GRUPO 5 CURSO Nome de um dos 75 cursos da UFPE e UFRPE TURNO Turno do curso: INTEGRAL, MATUTINO,NOTURNO e VESPERTINO.


Carregar ppt "Capítulo 2 Data Preparation for Data Mining"

Apresentações semelhantes


Anúncios Google