Carregar apresentação
A apresentação está carregando. Por favor, espere
1
Mineração da Dados
2
Entradas: Conceitos, instâncias, atributos
Terminologia O que é um conceito? Classificação, associação, agrupamento, predição numérica O que é um exemplo? Relações, arquivos flats, recursão O que é um atributo? Nominal, ordinal, intervalo Preparando a entrada ARFF, atributos, valores faltando
3
Terminologia Componentes da entrada: Conceitos: tipos
Propósito: descrição inteligível e operacional Instâncias: o exemplo independente do conceito Note:entradas mas complicadas são possíveis Atributos: medindo aspectos de uma instância Foco em nominais e numéricos
4
O que é um conceito? Estilo do aprendizado:
Classificação: predição de uma classe discreta Associação: detecção de associação entre características Agrupamento (Clustering): agrupamento de instâncias similares em grupos Predição numérica: predição de um valor numérico Conceito: aquilo que se aprende Descrição do conceito: saída do esquema de aprendizado
5
Classificação Exemplos de problemas: weather, contact lenses,
A tarefa de Classificação é supervisionada Os exemplos são fornecidos com a saída esperada A saída é chamada de classe Mede-se o sucesso em dados não vistos anteriormente, porem conhece se a classe Na pratica o sucesso é medido de forma subjetiva
6
Associação Pode ser aplicada se nenhuma classe é especificada e qualquer tipo de estrutura é considerada interessante Diferenças com a classificação: Podem predizer qualquer atributo e mais de um atributo Portanto: existem muito mais regras de associação do que regras de classificação Assim: restrições são necessárias Cobertura mínima e máxima acuracia
7
Agrupamento (Clustering)
Encontrar grupos de itens que são similares Agrupamento é não supervisionado A classe de um exemplo não é conhecida O sucesso é subjetivo … Iris virginica 1.9 5.1 2.7 5.8 102 101 52 51 2 1 2.5 6.0 3.3 6.3 Iris versicolor 1.5 4.5 3.2 6.4 1.4 4.7 7.0 Iris setosa 0.2 3.0 4.9 3.5 Type Petal width Petal length Sepal width Sepal length
8
Exemplo de descrição (I)
Análise de crédito renda débito + t +: exemplo Agrupamento Exemplo: vector quantization; Métodos
9
Predição Numerica Uma variante da classificação na qual a classe é numérica (também chamada de regressão) O aprendizado é supervisionado Os exemplos são fornecidos com o valor alvo Medida de sucesso nos dados de teste … 40 False Normal Mild Rainy 55 High Hot Overcast True Sunny 5 Play-time Windy Humidity Temperature Outlook
10
O que é um exemplo? Instância: tipo especifico de exemplo
Algo a ser classificado, associado ou agrupado Individual, exemplo independente do conceito alvo Caracterizado por um conjunto pre-determinado de atributos Entrada do algoritmo de aprendizado: conjunto de instâncias/bases Representados como uma relação simples/arquivo flat
11
Uma arvore de familia Peter M Peggy F Grace F Ray M = = Steven M
Graham M Pam F Ian M Pippa F Brian M = Anna F Nikki F
12
Arvore da familia representado como um arquivo
Ian Pam Female Nikki Anna Ray Grace Male Brian Pippa Peggy Peter Graham Steven ? parent2 Parent1 Gender Name
13
A relação “Irmão de” Assume-se Closed-world yes Anna Nikki … Yes Pippa
Ian Pam Steven No Graham Peter Peggy Sister of? Second person First person No All the rest Yes Anna Nikki Pippa Brian Ian Pam Graham Steven Sister of? Second person First person Assume-se Closed-world
14
Representação completa numa tabela
Ian Ray Peggy Parent2 Female Gender Pam Grace Peter Parent1 Name Male No All the rest Yes Anna Nikki Pippa Brian Graham Steven Sister of? Second person First person If second person’s gender = female and first person’s parent = second person’s parent then sister-of = yes
15
O que é um atributo? Cada instância é descrita como um predefinido conjunto de características, seus atributos Porém: o numero de atributos pode variar na pratica Possível solução: “valores irrelevantes” Possíveis tipos de atributos: Nominal, ordinal, intervalos
16
Atributos Nominais Os valores são símbolos diferentes
Exemplo: atributo “outlook” da base weather Valores: “sunny”,”overcast”, e “rainy” Não existe relação entre os valores nominais (sem ordem ou medida de distância) Somente testes de igualdade podem ser realizados
17
Atributos ordinais Impõe uma ordem nos valores
Porém: não existe distancia nos valores predefinidos Exemplo: atributo “temperature” nos dados weather Valores: “hot” > “mild” > “cool” Note: adição e subtração não tem sentido Exemplo de regra: temperature < hot Þ play = yes A diferença entre atributos nominais e ordinais não sempre é clara
18
Quantidades Intervalos
Os intervalos são ordenados e medidos em unidades fixas e iguais Exemplo 1: atributo “temperature” expresso em graus Fahrenheit Exemplo 2: atributo “year” A diferença entre 2 valores faz sentido A soma ou produto não fazem sentido
19
Atributos A maior parte dos algoritmos diferenciam 2 : nominal e ordinal Atributos Nominais são também chamados “categorical”, ”enumerated”, ou “discrete” Porém: “enumerated” e “discrete” implicam em uma ordem Caso especial: dicotomia (“boolean” ) Atributos ordinais são chamados de “numeric”, ou “continuous” Porém: “continuous” implica em continuidade matematica
20
O formato ARFF % % ARFF file for weather data with some numeric features @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature numeric @attribute humidity numeric @attribute windy {true, false} @attribute play? {yes, no} @data sunny, 85, 85, false, no sunny, 80, 90, true, no overcast, 83, 86, false, yes ...
21
Atributos adicionais ARFF suporta atributos string:
Similar a os atributos nominais porém uma lista de valores não é pre-especificada Suporta dados tipo data: Usa o formato ISO-8601 yyyy-MM-dd-THH:mm:ss @attribute description string @attribute today date
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.