A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

1 MD - junho/2008 Identificação do problema Ao final dessa etapa espera-se ter: Definição da área Definição do problema Definição dos dados.

Apresentações semelhantes


Apresentação em tema: "1 MD - junho/2008 Identificação do problema Ao final dessa etapa espera-se ter: Definição da área Definição do problema Definição dos dados."— Transcrição da apresentação:

1 1 MD - junho/2008 Identificação do problema Ao final dessa etapa espera-se ter: Definição da área Definição do problema Definição dos dados

2 2 MD - junho/2008 Exemplo - mushrooms Identificação do Problema Descrição da área: – Foram realizados experimentos com 23 espécies de cogumelos pertencentes a família Agaricus y Lepiota, nos EEUU. Estes cogumelos podem ser comestíveis, venenosos ou indefinidos (que não são próprios para consumo)

3 3 MD - junho/2008 Definição do problema: – Determinar quando um cogumelo é comestível ou venenoso em função de suas características (forma, cor, superfície, habitat, características do talo, odor, etc...)

4 4 MD - junho/2008 Descrição dos dados: – Fonte: repositório UCI (Registros de cogumelos extraídos de The Audubon Society Field Guide to North American Mushrooms) – Número de instâncias: 8124 – Número de atributos: 22 (nominais) – Valores ausentes em principalmente um atributo, (2480 registros) denotados com ?

5 5 MD - junho/2008 Alguns atributos: – Cap-shape: bell=b; conical=c; convex=x; flat=f; knobbed=k; sunken=s – Tap-surface: fibrous=f; grooves=g; staly=y; smooth=s; – Tap-color: brown=n; buff=b; cinnamon=c; gray=g; green=r; pink=p; purple=u; red=e; white=w; yellow=y

6 6 MD - junho/2008 Pré-processamento Foram considerados os registros correspondentes a classe comestíveis e venenosos. Assim foram usadas 2 classes apenas ao invés de 3. Ocorreu uma redução do número de exemplos, por seleção Os dados foram preparados para usar a ferramenta WEKA, com a geração de um arquivo.arff

7 7 MD - junho/2008 Extração de Padrões Seleção da tarefa: – classificação – Objetivo: classificar um novo cogumelo como comestível ou venenoso, de acordo com suas características

8 8 MD - junho/2008 Seleção do algoritmo: – Foi utilizado o Algoritmo J4.8 implementado na ferramenta WEKA, com os seguintes parametros: – weka.classifiers.j48.J48 -C 0.25 -M 2 – (variação de M: 10, 25, 50) – Foi utilizado 10-Folds Cross Validation

9 9 MD - junho/2008 Extração de Padrões 42080e 03916p ep Clasificadas como: Matriz de confusão

10 10 MD - junho/2008 Pós-processamento visualização

11 11 MD - junho/2008 Pós-processamento interpretação: – o número alto de folhas dificulta a interpretabilidade – aumentar o número mínimo de instâncias por folha para 25

12 12 MD - junho/2008 Extração de Padrões 42080e 113905p ep Clasificadas como: Matriz de confusão

13 13 MD - junho/2008 Exemplo – BD nutrição Identificação do problema Descrição da área: – Dados publicados pelo Departamento de Agricultura dos EEUU em agosto de 2002, referentes a componentes nutricionais dos alimentos mais consumidos no país

14 14 MD - junho/2008 Definição do problema: – O problema consiste em determinar as relações existentes entre os componentes nutricionais dos alimentos (lipídios, proteínas, calcio, ferro, etc.) e o nível da pirâmide nutricional a qual pertencem. Nível 1 Nível 2 Nível 3 Nível 4

15 15 MD - junho/2008 Descrição do conjunto de dados: – A base contém dados de 6220 tipos de comida e 117 componentes nutricionais – Os valores são qualitativos e quantitativos – Atributo meta: nível na pirâmide nutricional

16 16 MD - junho/2008 Número de registros dos arquivos primários e de suporte

17 17 MD - junho/2008 O modelo de dados descrito nas tabelas corresponde ao modelo relacional, que foram transformadas em uma tabela plana. Esta contém menor quantidade de informação descritiva, nutrientes e pesos dos alimentos.

18 18 MD - junho/2008 Descrição de atributos – Tabela plana (parte...)

19 19 MD - junho/2008 Pré-processamento Eliminação de atributos não relevantes: Selenium Thiamin Riboflavin Niasin Panto_acid Folate NDB_No Ash Zinc Copper Manganese

20 20 MD - junho/2008 Pré-processamento – Incorporação do atributo meta de tipo numérico, o qual descreve o nível em que se encontra o alimento dentro da pirâmide nutricional – Essa nova variável pode assumir valores inteiros, no conjunto {1, 2, 3, 4} – A redução de registros se baseou no fato de que alguns exemplos não tem maior importância, como condimentos, hervas aromáticas, etc. – Preparação dos dados para o formato WEKA


Carregar ppt "1 MD - junho/2008 Identificação do problema Ao final dessa etapa espera-se ter: Definição da área Definição do problema Definição dos dados."

Apresentações semelhantes


Anúncios Google