Universidade Federal do Paraná

Slides:



Advertisements
Apresentações semelhantes
Agenda Introdução Justificativa Objetivo Detecção de Spam
Advertisements

Administração de Sistemas de Informação
SIN - Sistemas de Informação
INTELIGÊNGIA COMPUTACIONAL
Felipe Carvalho – UFES 2009/2
Uma das tarefas descritivas da
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Aprendizado de Máquina
Mineração dePreferências Contextuais A. Soulet et al AULA 19 Data Mining Profa. Sandra de Amo.
Universidade Federal do Paraná
Aprendizagem Viviane Torres da Silva
Mineração de Dados ou Descoberta de conhecimento em BDs
Reconhecimento de Padrões Dissimilaridade
Mineração de Dados Introdução.
FACENS – Engenharia da Computação Inteligência Artificial
Agrupamento de Dados: uma Revisão Data Clustering
INTELIGÊNCIA TECNOLÓGICA Aplicações desenvolvidas no ITA
KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002.
Instituto Tecnológico da Aeronáutica – ITA Divisão de Ciência de Engenharia Eletrônica e Computação EE-09 Inteligência Artificial Prof. Adilson Marques.
Jackson D. N. Mourão Pietrângelo V. Ferronato
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
II. M o d e l o s d e C o n h e c i m e n t o
Data Mining como ferramenta de Gestão
Data Warehouse & Data Mining
Link Mining Víctor Medeiros.
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
Sistema Recomendador para Comércio Eletrônico
Site: Estatística Prof. Edson Nemer Site:
Área de Pesquisa: Redes de Computadores
4.2. Data Mining (Mineração de Dados)
BI - Conceito É o conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apóia a tomada de decisões.
Capacidades do Data Warehouse
Aprendizado de Máquina - Introdução
Mineração de Dados e Aprendizado de Máquina Marcilio Souto DIMAp/UFRN.
1 Gerenciamento da Informação O que é gerenciamento? O que é gerenciamento? Como uma idéia geral, gerenciamento, gestão ou administração é a atividade.
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
SATISFAÇÃO, VALOR E RETENÇÃO DE CLIENTES
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Etapas do Processo.
Sistemas Baseados em Aprendizado (Aprendizado de Máquina)
Sistemas de Informação
Mineração de Dados: Classificação e Predição
O paradigma Indutivo Álvaro Degas
Gestão da Tecnologia da Informação
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG O Problema Dados –Um banco de transações de compra –Cada transação é um conjunto de ítens comprados Encontrar.
Universidade Federal de Lavras Departamento de Ciência da Computação
Mineração de Dados: Introdução
Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.
Inteligência Artificial I
Regras. Regras Rudimentarias 1R: aprende uma regra por atributo  atribuí a classe mais freqüente  taxa de erro: proporção de instâncias que não pertence.
Padrões de projeto M.Sc. Sílvio Bacalá Jr..
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Paradigmas de Mineração de Dados
Aprendizado de Máquinas
Universidade Federal do Paraná Mineração de Dados e Aprendizado de Máquinas. Aurora Trinidad Ramírez Pozo.
Introdução à Inteligência Artificial Fundamentos Prof. Horácio.
Gestão do Conhecimento e da Informação
B. I., DATAMINING e OLAP Henrique Liduario Joab Esequiel
Projeto de Banco de Dados
Aprendizado por Indução
INTELIGÊNCIA ARTIFICIAL Grupo: Amora Figueiredo Érika Diniz
DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina | Fernando.
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Classificadores Bayesianos Classificadores Bayesianos são classificadores estatísticos que classificam um objeto numa determinada classe baseando-se na.
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Mineração de Dados Classificação Felipe Carvalho – UFES 2009/2.
Marketing de Relacionamento CARLOS FREIRE – Estratégia de Marketing e Posicionamento Competitivo – Hooley, Saunders e Piercy – Prentice Hall.
Reconhecimento de Padrões Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra Padrões e processos em Dinâmica de uso e Cobertura.
Universidade Federal do Paraná
Transcrição da apresentação:

Universidade Federal do Paraná Mineração de Dados e Computação Evolutiva Aurora Trinidad Ramírez Pozo

Ementa A disciplina integra duas áreas da ciência da computação: mineração de dados e algoritmos evolutivos. Em geral mineração de dados consiste na extração de conhecimento de dados. Conhecimento que poderá ser potencialmente útil na tomada de decisões inteligentes. A idéia de utilizar algoritmos evolutivos nesta atividade se justifica por eles serem métodos de busca robustos. Na disciplina se apresentara o conceito básico de ambas áreas focando-se na sua integração.

Descoberta de Conhecimento (KDD) Volume Valor $ Conhec. Informação Dados O conhecimento descoberto poderá ser utilizado para melhorar o processo de tomada de decisão nas organizações.

Motivação Que tipo de produto cada perfil do usuário compra?? Que predispõe um paciente a uma determinada doença ???

O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise de dados e algoritmos de descobrimento que produzem uma enumeração de padrões (ou modelos) particular sobre os dados. Usama Fayyad, Ai Magazine, 1996.

Mineração de dados Extrair informações úteis de bilhões de bits de dados. O processo não-trivial de identificar padrões válidos, novos, potencialmente úteis e compreensíveis em dados. Técnicas /ferramentas para apresentar e analisar dados.

Mineração de dados Descobre padrões, tendências, infere regras Suporta, revisa e examina decisões

Exemplo de conhecimento extraído Banco de dados de lojas de produtos eletrônicos OLAP Quantos videogames do tipo XYZ foram vendidos para o cliente ABC na data dd/mm/aa? Mineração Se (idade < 18) E (profissão = "estudante") Então (compra= "videogame") (90%) Utilidade: estratégias de marketing.

Áreas de pesquisa relacionadas Aprendizagem de máquina, reconhecimento de padrões, bancos de dados, estatística e Visualização de dados.

Aprendizado de Maquina Abordagens Baseado em lógica Algoritmos genéticos Programação genética Redes neurais Tarefas Associação Agrupamento (Clustering) Classificação

Programa

Aprendizado de Máquinas

Objetivo A área de aprendizado de máquina preocupa-se em construir programas que automaticamente melhorem seu desempenho com a experiência.

Conceito AM estuda métodos computacionais para adquirir novos conhecimentos, novas habilidades e novos meios de organizar o conhecimento já existentes.

O que é aprendizado Ganhar conhecimento, habilidades aprendendo, por instrução ou experiência Modificação do comportamento pela experiência Uma maquina aprende quando muda sua estrutura de programa ou dados de tal maneira que espera-se melhorarias de sua performance no futuro.

Definição Um programa de computador aprende da experiência E com referência a algum tipo de tarefa T e medida de performance P. Se sua performance na tarefa T, medida por P, melhora com a experiência E.

Jose Augusto Baranauskas

Tarefa de Classificação Cada exemplo pertence a uma classe pré-definida Cada exemplo consiste de: Um atributo classe Um conjunto de atributos preditores O objetivo é predizer a classe do exemplo dado seus valores de atributos preditores.

Exemplo: Extraído de Freitas & Lavington 98 Uma editora internacional publica o livro “Guia de Restaurantes Franceses na Inglaterra” em 3 países: Inglaterra, França e Alemanha. A editora tem um banco de dados sobre clientes nesses 3 países, e deseja saber quais clientes são mais prováveis compradores do livro (para fins de mala direta direcionada). Atributo meta: comprar (sim/não) Para coletar mais dados: enviar material de propaganda para uma amostra de clientes, registrando se cada cliente que recebeu a propaganda comprou ou não o livro.

Exemplo de Classificação Sexo País Idade Compra M França 25 Sim Inglaterra 21 F 23 34 30 Não Alemanha 20 18 55

Árvores de Decisão País Inglaterra Alemanha Não Sim França Idade > 25 < 25 Sim Não

Modelo de Dependências Descoberta de dependências entre atributos Regras de Associação

Descoberta de Regras de Associação Definição original: tipo especial de dados, chamado “basket data” (dados de cesta)[Agrawal et al 96] Cada registro corresponde a uma transação de um cliente, com itens assumindo valores binários (sim/não), indicando se o cliente comprou ou não o respectivo item.

Exemplo: [Freitas & Lavington 98]   leite café cerveja pão manteiga arroz feijão 1 não sim 2 3 4 5 6 7 8 9 10

Descoberta de Regras de Associação Uma regra de associação é um relacionamento SE (X) ENTÃO (Y), onde X e Y são conjuntos de itens, com interseção vazia. A cada regra são atribuídos 2 fatores: Suporte (Sup.) = No. de registros com X e Y /No. Total de registros Confiança (Conf.) = No. de registros com X e Y/ No. de registros com X Tarefa: descobrir todas as regras de associação com um mínimo Sup e um mínimo Conf.

Conjunto de Items Frequente: café, pão. Sup. = 0,3 Sup. = No. de registros com X e Y /No. Total de registros, Conf = No. de registros com X e Y/ No. de registros com X Conjunto de Items Frequente: café, pão. Sup. = 0,3 Regra: SE (café) ENTÃO (pão). Conf. = 1 Conjunto de Items Frequente: café, manteiga. Sup. = 0,3 Regra: SE (café) ENTÃO (manteiga). Conf. = 1 Conjunto de Items Frequente: pão, manteiga. Sup = 0,4 Regra: SE (pão) ENTÃO (manteiga). Conf. = 0,8

Regra: SE (manteiga) ENTÃO (pão). Conf. = 0,8 Sup. = No. de registros com X e Y /No. Total de registros, Conf = No. de registros com X e Y/ No. de registros com X Regra: SE (manteiga) ENTÃO (pão). Conf. = 0,8 Conjunto de Items Frequente: café,pão,manteiga Sup.=0,3 Regra: SE (café E pão) ENTÃO (manteiga). Conf.=1 Regra: SE (café E manteiga) ENTÃO (pão). Conf.=1 Regra: SE (café) ENTÃO (manteiga E pão). Conf.=1

Associação vs. Classificação [Freitas 2000] Associação: problema é "simétrico": todos os items podem aparecer ou no antecedente ou no consequente de uma regra; qualidade de uma regra é avaliada por fatores de Conf e Sup definidos pelo usuário; definição do problema é determinística: o sistema tem de achar todas regras com Sup e Conf maior ou igual a limiares pré­definidos; Na maioria da literatura, o desafio é projetar algoritmos eficientes.

Classificação: problema é assimétrico: um único atributo meta a ser previsto, dados demais atributos; regras são avaliadas em dados de teste não vistos durante treinamento (prever o futuro); qualidade de uma regra é muito mais difícil de avaliar, logo não é muito claro quais regras deveriam ser descobertas pelo sistema; eficiência ainda é importante, mas o desafio principal é projetar algoritmos eficazes. problema é não­determinístico (indução)

“Clustering” (Agrupamento) O sistema “inventa” classes, agrupando registros semelhantes (isto é, com valores de atributos semelhantes) em uma mesma classe.

Clusters Antes Depois

Cluster Após clustering, pode­se aplicar métodos de classificação e sumarização para descobrir regras de classificação (que discriminem registros de diferentes classes) e regras de sumarização (que produzem descrições características de cada classe)

Classificação versus clustering. há um único atributo meta, e os demais atributos são previsores; parte do problema consiste em determinar automaticamente a importância dos atributos previsores; há medidas objetivas para medir a qualidade da classificação (ex. taxa de acerto); classificação é usada principalmente para previsão.

Classificação versus clustering não há um atributo especial; a importância de cada atributo é geralmente considerada equivalente à dos demais; é difícil medir a qualidade de clustering; Clustering é usado principalmente para exploração e sumarização de dados.

Weka Relatório com apresentação 10 min. Uma exploração do software nos conceitos vistos. Explorar alguma aplicação interessante Relatório Introdução, objetivos, desenvolvimento (conceitos envolvidos, experimentos) e conclusão.