A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Natureza dos Dados Capítulo 2 Data Preparation for Data Mining.

Apresentações semelhantes


Apresentação em tema: "Natureza dos Dados Capítulo 2 Data Preparation for Data Mining."— Transcrição da apresentação:

1 Natureza dos Dados Capítulo 2 Data Preparation for Data Mining

2 Tipologia da fontes de dados para mineração Fontes convencionais preparadas para mineração: Arquivo texto chato padronizado (flat file) Data warehouse ou data mart relacional Data warehouse ou data mart multidimensional Fontes convencionais não preparadas para mineração Arquivos de log BD relacional Fontes não convencionais BD objeto-relacional BD orientado a objetos BD espacial BD temporal BD multimídia BD semi-estruturado Páginas web

3 Arquivo texto padronizado (flat file) Arquivo texto : Meta-dados do cabeçote: 1 a linha = nome do conceito ou relação a minerar, depois cada linha = tipo e/ou conjunto de valores possíveis de um atributo Dados no resto do arquivo: cada linha = um exemplo ou instância do conceito a aprender um registro de uma tabela de BD relacional separadas em campos por separadores convencionais cada campo = um atributo ou propriedade da instância campo de uma tabela de BD relacional

4 Exemplo de flat file: formato de entrada do Weka % Arff file for the weather data with some % numeric outlook { sunny, overcast, rainy temperature humidity windy { true, false play? { yes, no sunny, 85, 85, false, no sunny, 80, 90, true, no overcast, 83, 86, false, yes rainy, 70, 96, false, yes rainy, 68, 80, false, yes rainy, 65, 70, true, no overcast, 64, 65, true, yes sunny, 72, 95, false, no sunny, 69, 70, false, yes rainy, 75, 80, false, yes sunny, 75, 70, true, yes overcast, 72, 90, true, yes overcast, 81, 75, false, yes rainy, 71, 91, true, no

5 Arquivo texto chato padronizado (flat file) Única entrada de vários ferramentas de mineração Pode ser criado a partir de BD relacional via Inadequado quando se tem naturalmente: muitas relações entre as instancias, ex, famílias relações recursivas entre as instancias, ex, ancestral dependências existenciais entre atributos, ex, casado, cônjuge poucos atributos definidos para todas as instancias ex, númeroDeRodas e númeroDePortas para veículos aninhamento ou hierarquias de valores para muitos atributos, ex, nordeste, RN, Natal ou seja quando o esquema de dados relevantes é não trivial

6 Tipologia dos atributos 1/3 Binário: Booleano, ex, Male {True,False} Dicotômico, ex Sex {Male,Female} Nominal ou categórico ou simbólico: partição finita de valores sem ordem nem medida são apenas = ou ex, brasileiro, francês, americano

7 Tipologia dos atributos 2/3 Intervalar: partição finita de valor ordenada com medida m definindo distância d: X,Y, d(X,Y) = |m(X)-m(Y)| sem zero inerente ex, temperatura em grau Celsius Ordinal ou enumerado ou discreto: partição finita de valor ordenada (parcialmente ou totalmente) sem medida são apenas =,,, > ex, fraco, médio, bom, excelente

8 Tipologia dos atributos 3/3 Fracional ou proporcional: partição com distância zero inerente todos os operadores matemático aplicam-se ex, temperatura em grau Kelvin Contínuo: conjunto infinito de valores ordenadas com medida, isomorfo a R Probabilista: contínuo entre [0,1] apenas operadores probabilistas aplicam-se Complexo: estrutura interna de sub-atributos aninhados criando tipos compostos possivelmente com restrições de valores particulares entre os sub-atributos ex, data, endereço

9 Tipologia dos atributos Simples Complexos Binárias Dicotômicas Booleanas Qualitativas Nominal Ordinal Quantitativas Intervalar Fracional Discreta Contínua Objeto Data Endereço R [0,1]

10 Minerar arquivo flat x minerar banco de dados Para mineração como para outras aplicações, BD fornece: gerenciamento de memória segundaria consultas declarativas complexas para: selecionar dados agregar dados reagrupar dados derivar novos dados estender meta-dados segurança de acesso com usuário múltiplos tolerância a falha com tecnologia padronizada e escalável Minerando arquivos flat: aos poucos, necessidade desses serviços reaparece requerendo re-implementação: ad-hoc com tecnologia inapropriada por conta própria Conclusão: API para BD elemento chave na utilidade prática de uma ferramenta de mineração

11 Exemplo Dados do Vestibular CampoTipoDescrição INSCRICAOFracionalInscrição do Vestibular ANOFracional Ano de realização do Concurso SEXO Bin. DicotômicoSexo: M e F NOMENominalNome do candidato

12 Dados de Candidatos do Vestibular DT_NASCIMENTOComplexoData de nascimento ESTADOCategóricoEstado durante o concurso CIDADECategóricoCidade durante o concurso BAIRROCategóricoBairro durante o concurso OPCAO_LINGUACategórico Opção de língua estrangeira: INGLÊS, ESPANHOL e FRANCÊS

13 TIPO_PARTICIPAC AO Bin. Dicotômico Participação: POR EXPERIÊNCIA ou VALENDO UNIVERSIDADE Bin. Dicotômico? GRUPOCategórico Grupo do curso escolhido: GRUPO 1 a GRUPO 5 CURSOCategórico Nome de um dos 75 cursos da UFPE e UFRPE TURNOCategórico Turno do curso: INTEGRAL, MATUTINO,NOTURN O e VESPERTINO.


Carregar ppt "Natureza dos Dados Capítulo 2 Data Preparation for Data Mining."

Apresentações semelhantes


Anúncios Google