A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

MINERAÇÃO DE DADOS UTILIZANDO ALGORITMOS GENÉTICOS

Apresentações semelhantes


Apresentação em tema: "MINERAÇÃO DE DADOS UTILIZANDO ALGORITMOS GENÉTICOS"— Transcrição da apresentação:

1 MINERAÇÃO DE DADOS UTILIZANDO ALGORITMOS GENÉTICOS
Bom dia a todos, meu nome é Joilma Santos e vou apresentar minha monografia que se intitula Mineração de Dados Utilizando Algoritmos Genéticos, e foi realizada com a orientação da Profª. Daniela Barreiro Claro. Esta apresentação seguirá o seguinte roteiro: Primeiro farei uma breve introdução sobre os aspectos e a motivação para a realização deste trabalho, logo após falarei sobre Mineração de Dados, abordando sua definição e principais técnicas. Em seguida falarei sobre algoritmos genéticos, farei uma definição e falarei sobre seus principais elementos. Após a introdução destes conceitos, falarei sobre o Explorer Patterns Tree, a ferramenta desenvolvida neste trabalho, e finalizarei esta apresentação falando sobre os experimentos realizados neste trabalho. MINERAÇÃO DE DADOS UTILIZANDO ALGORITMOS GENÉTICOS Com o desenvolvimento tecnológico das ultimas decadas, o volume de dados armazenados tem crescido de maneira considerável. Algumas bases de dados atuais possuem milhares, muitas vezes milhões de registros com centenas ou milhares de atributos. Porém dados armazenados não são uteis se não forem devidamente analisados e aplicados de maneira correta. Para a realização desta análise de dados e posterior aplicação prática, surge o conceito de KDD – Knowledge Data Discovery, ou Processo de Descoberta de Conhecimento – um processo composto de várias fases que visa extrair conhecimento aplicável a resolução de problemas a partir bases de dados. A utilização prática de bases de dados possui aplicação em várias áreas. Empresas privadas podem utilizar o conhecimento adiquirido para a realização de estratégias para alcançar um certo publico alvo, por exemplo, ou governos podem fazer estudos sobre aplicação inteligente de seus recursos. As principais fases do processo de KDD, ilustradas nesta figura são: O Data Warehousing – nesta fase realiza-se a coleta e integração de objetos de várias bases de dados. O Pré-processamento – nesta fase é selecionado apenas o conteúdo relevante para a solução da tarefa proposta. Esta fase é reforçada por métodos de redução de ruídos, correção de erros e preenchimento de valores nulos, para garantir a confiabilidade dos dados a serem utilizados. É geralmente desejável a intervenção de um analista humano nas etapas citadas anteriormente, a fim de que seu conhecimento sobre as informações relevantes que devem ser extraídas pelo processo de KDD seja utilizado. A próxima etapa do processo de KDD é a Mineração de Dados. Nesta etapa é aplicado um algoritmo baseado na estratégia computacional escolhida para mineração de dados, e é extraído conhecimento dessa base de dados. A última etapa do processo, o pós-processamento, visa validar, interpretar e organizar o conhecimento encontrado, obtendo conhecimento realmente útil. Joilma Souza Santos Orientadora: Profª. Daniela Barreiro Claro  Salvador – Bahia 2008

2 ROTEIRO DA APRESENTAÇÃO
As regras de associação são regras encontradas a partir de um conjunto de exemplos e cada regra encontrada sinaliza que os conjuntos de itens X e Y são freqüentemente encontrados em um mesmo exemplo. Apesar de possuírem a mesma estrutura , as regras de associação e regras de classificação possuem diferenças decisivas: regras de associação podem possuir mais de um item na parte conseqüente da regra (Y), enquanto regras de classificação só podem possuir um atributo objetivo. Além disso, em regras de classificação, os atributos previsores (X) só podem ocorrer na parte antecedente da regra e o atributo objetivo (Y) somente ocorre na parte conseqüente da regra, o que não é uma constante em regras de associação. Introdução Mineração de Dados Algoritmos Genéticos O Explorer Patterns Tools Experimentos e Resultados Conclusão e Trabalhos Futuros As principais motivações para a utilização desta técnica ao processo de KDD são: a melhor interação entre atributos proporcionada pelos AGs se comparados com algoritmos baseados na estratégica gulosa para indução de regras de classificação, e que são geralmente mais utilizados para mineração de dados e a busca global realizada por esta técnica, o que, aumentaria a probabilidade de se obter um conjunto de regras com alta acurácia preditiva. algoritmos genéticos são métodos de busca globais e não utilizam apenas informação local e por isso não necessariamente prendem-se a soluções ótimas locais, como certos métodos de busca (LINDEN, 2006); AGs utilizam informação da população corrente para determinar o próximo estado da busca (LINDEN, 2006), e através de uma função objetivo e dos operadores genéticos de cruzamento (crossover) e mutação (mutation) promovem a interação entre os atributos de um objeto . A fase de Mineração de Dados é constantemente tratada como todo o processo de extração de conhecimento, porém a Mineração de Dados é apenas uma fase do processo de KDD. Serão discutidas a seguir algumas técnicas para a realização da Mineração de Dados Um cromossomo é uma coleção de genomas e é formado por vários genes

3 Fases do Processo de KDD (PAPPA, 2002 apud LIU; MOTODA, 1998)
INTRODUÇÃO A classificação tem como objetivo prever o valor de um atributo objetivo, a ser determinado por uma referência externa, baseado no valor dos demais atributos de um exemplo E pertencente a uma base de dados B Um algoritmo de classificação gera regras do tipo (lê-se: Se X então Y), onde Y (a parte conseqüente da regra) representa o atributo objetivo (classe) e X (a parte antecedente da regra) representa um conjunto de valores tomados por atributos, geralmente representados por uma conjunção Para a geração das regras de classificação, a base de dados é dividida em dois conjuntos de exemplos: C1 e C2, que possuem todos os seus exemplos já previamente classificados. O algoritmo de classificação recebe o conjunto de exemplos C1 (o conjunto de treinamento), aplica técnicas de estatísticas e/ou de aprendizado de máquina e gera as regras de classificação, baseado nos valores encontrados nos atributos de cada um dos exemplos. Posteriormente, o algoritmo aplica as regras de classificação geradas no conjunto de exemplos C2 (o conjunto de teste), e mede o quão confiáveis são as regras geradas no processo anterior. A propriedade que mede o quão confiável uma regra é, ou seja, quantos exemplos do conjunto de teste foram corretamente classificados por esta regra, é a acurácia. É importante que o algoritmo de classificação não tenha acesso ao conjunto de teste na etapa de geração de regras, ou então, a medição da acurácia das regras ficaria comprometida e a fase de testes não apresentaria resultados confiáveis. Fases do Processo de KDD (PAPPA, 2002 apud LIU; MOTODA, 1998) Utilização prática de bases de dados Fases do Processo de KDD Aplicação de algoritmos para extração de conhecimento a partir de bases de dados A clusterização visa classificar a informação a ser minerada em clusters ou classes. A clusterização realiza a classificação dos exemplos baseado nos valores dos atributos dos próprios exemplos, ou seja, “descobre” classes para os exemplos e os agrupa em classes sem que seja informada nenhuma referência externa – por isso é considerada uma forma de aprendizado não supervisionado, enquanto a classificação é uma forma de aprendizado supervisionado. Cada um desses clusters é formado por exemplos que possuem características similares em seus atributos. Essa classificação é feita de modo a maximizar as diferenças encontradas entre clusters diferentes e minimizar as diferenças entre exemplos pertencentes ao mesmo cluster.

4 INTRODUÇÃO Utilização de algoritmos genéticos no processo de KDD
Motivação para utilização desta técnica

5 MINERAÇÃO DE DADOS - ROTEIRO
Introdução Mineração de Dados Técnicas de Mineração de Dados Utilização de Algoritmos Genéticos no processo de KDD Algoritmos Genéticos O Explorer Patterns Tools Experimentos e Resultados Conclusão e Trabalhos Futuros

6 TÉCNICAS PARA MINERAÇÃO DE DADOS - REGRAS DE CLASSIFICAÇÃO
Exemplo de Classificação (CARVALHO, 2005)

7 TÉCNICAS PARA MINERAÇÃO DE DADOS - CLUSTERIZAÇÃO
Exemplo de dados organizados em clusters (CARVALHO, 2005)

8 TÉCNICAS PARA MINERAÇÃO DE DADOS – REGRAS DE ASSOCIAÇÃO

9 Algoritmos Genéticos - Roteiro
Introdução Mineração de Dados Técnicas de Mineração de Dados Utilização de Algoritmos Genéticos no processo de KDD Algoritmos Genéticos Aspectos de um Algoritmo Genético O Explorer Patterns Tools Experimentos e Resultados Conclusão e Trabalhos Futuros

10 Aspectos de um Algoritmo Genético
Método baseado nos princípios da seleção natural e evolução das espécies; Heurística de otimização global; Baseado na técnica de geração e teste;

11 Aspectos de um Algoritmo Genético
Esquema de um algoritmo genético (LINDEN, 2006)

12 Aspectos de um Algoritmo Genético
Representação Cromossomial Diversas maneiras de representação: Binária: ( ) Números Reais: ( ) Lista de Regras: (R1 R2 R3 ... Rn) Nichos Biológicos Elitismo Função de Avaliação (Função de Fitness) Determina a qualidade de um indivíduo como solução do problema em questão (LINDEN, 2006) Um Algoritmo Genético é uma busca dirigida controlada pela função de avaliação

13 OPERADORES GENÉTICOS - SELEÇÃO
Torneio Roleta É criada uma roleta, onde cada cromossomo recebe uma parte proporcional ao seu fitness em relação à soma total dos fitness de todos os cromossomos da população. Grupo de indivíduos e seus respectivos fitness e parcela na roleta (LINDEN, 2006) Indivíd uo Fitn ess Pedaço da Roleta (%) Pedaço da roleta (°) 0001 1 1.61 5.8 0011 9 14.51 52.2 0100 16 25.81 92.9 0110 36 58.07 209.1 Total 62 100 360.0 Roleta Viciada para a população exemplo da tabela 3.1 (LINDEN, 2006)

14 OPERADORES GENÉTICOS - RECOMBINAÇÃO OU CRUZAMENTO (CROSSOVER)
Tipos de cruzamento (crossover) (CARVALHO, 2005)

15 OPERADORES GENÉTICOS - MUTAÇÃO

16 OPERADORES GENÉTICOS - MUTAÇÃO

17 OPERADORES GENÉTICOS - MUTAÇÃO

18 Algoritmos Genéticos - Roteiro
Introdução Mineração de Dados Técnicas de Mineração de Dados Utilização de Algoritmos Genéticos no processo de KDD Algoritmos Genéticos Operadores Genéticos O Explorer Patterns Tools Aspectos da Implementação Experimentos e Resultados Conclusão e Trabalhos Futuros

19 Algoritmo Desenvolvido
Inicialização da População Operador de Seeding Elitismo Seleção de Pais Criação de nichos utilizando o operador sufrágio universal (universal suffrage) Cruzamento Cruzamento Uniforme (universal crossover) Mutação Probabilidade de mutação utilizada: 1/(tam. cadeia cromossômica) Função de Avaliação (Cálculo do Fitness do Indivíduo) 19

20 INICIALIZAÇÃO DA POPULAÇÃO
Seja e um exemplo pertencente ao conjunto de treinamento E Gere uma cadeia aleatória de bits definindo um indivíduo K Transforme em 1 o menor número de bits em K para que K cubra e Retorne (K) 20

21 Elitismo Nelit = 1 (o cromossomo de maior fitness é integralmente copiado para a próxima população) 21

22 SELEÇÃO DE PAIS Sufrágio Universal (Universal Suffrage) B(t) =
Selecione aleatoriamente, com reposição g * M exemplos de E Para cada exemplo K selecionado faça Para cada individuo I da população faça Se existe um indivíduo que cobre o K então armazene este indivíduo como um candidato Senão crie um novo indivíduo que cubra este exemplo e adicione a B(t) Fim Utilize o método da roleta para escolher apenas um indivíduo que receberá o voto deste exemplo e o adicione a B(t) 22

23 FUNÇÃO DE AVALIAÇÃO Verdadeiros Positivos (VP) Falsos Positivos (FP)
Falsos Negativos (FN) Verdadeiros Negativos (VN) Acurácia Figura Matriz de Confusão para uma Regra de Classificação (FREITAS, 2001).

24 FUNÇÃO DE AVALIAÇÃO Função de Fitness onde, e 24

25 Algoritmos Genéticos - Roteiro
Introdução Mineração de Dados Técnicas de Mineração de Dados Utilização de Algoritmos Genéticos no processo de KDD Algoritmos Genéticos Aspectos de um Algoritmo Genético; O Explorer Patterns Tools Aspectos da Implementação; Experimentos e Resultados Bases de Dados Utilizadas Aspectos dos Experimentos Resultados Conclusão e Trabalhos Futuros

26 Bases de Dados Utilizadas
Informações sobre os conjuntos de dados (SOUZA, 2008) Conjuntos de Dados Domínio Classes Atributos de entrada Qtde. de instâncias SPAMBASE Comercial 2 57 4601 Segment-challenge 7 19 1500 Segment-test 810 Iris Biológico 3 4 150

27 Algoritmos Genéticos - Roteiro
Introdução Mineração de Dados Técnicas de Mineração de Dados Utilização de Algoritmos Genéticos no processo de KDD Algoritmos Genéticos Operadores Genéticos O Explorer Patterns Tools Aspectos da Implementação Experimentos e Resultados Bases de Dados Utilizadas Aspectos dos Experimentos Resultados Conclusão e Trabalhos Futuros 27 27

28 DESCRIÇÃO DOS EXPERIMENTOS
Experimento 1 – Comparação entre as acurácias do algoritmo implementado e das árvores clássicas/fuzzy 300 execuções do algoritmo; 60% da base de dados utilizada para treinar o algoritmo utilizando o método de divisão por porcentagem; 10 folds quando utilizada a validação cruzada; Experimento 2 – Estudo do aumento de gerações X taxas de acurácia Validação cruzada com 10 folds; 28

29 Resultados – Experimento 1
Resultados Obtidos para o Algoritmo Genético Implementado – Média Aritmética dos Resultados Obtidos Conjuntos de Dados Precisão das Regras Taxa de VP Acurácia SPAMBASE 0,629 0,260 0,520 Segment-challenge 0,369 0,397 0,820 Segment-test 0,383 0,408 0,830 Iris 0,611 0,596 0,726 29

30 Resultados – Experimento 2

31 Algoritmos Genéticos - Roteiro
Introdução Mineração de Dados Técnicas de Mineração de Dados Utilização de Algoritmos Genéticos no processo de KDD Algoritmos Genéticos Aspectos de um Algoritmo Genético; O Explorer Patterns Tools Aspectos da Implementação; Experimentos e Resultados Bases de Dados; Aspectos dos Experimentos; Conclusão e Trabalhos Futuros

32 CONCLUSÃO Visão Geral O algoritmo implementado Resultados Obtidos

33 Trabalhos Futuros A implementação de um outro algoritmo genético que utilize operadores diferentes dos utilizados pelo algoritmo desenvolvido neste trabalho; A Implementação de métodos de seleção de atributos para diminuir o tempo de execução dos algoritmos implementados; Utilização de outras técnicas de mineração de dados diferentes da classificação.

34 MINERAÇÃO DE DADOS UTILIZANDO ALGORITMOS GENÉTICOS
Joilma Souza Santos Salvador – Bahia 2008


Carregar ppt "MINERAÇÃO DE DADOS UTILIZANDO ALGORITMOS GENÉTICOS"

Apresentações semelhantes


Anúncios Google