Mineração de Dados e Aprendizado de Máquina Marcilio Souto DIMAp/UFRN.

Slides:



Advertisements
Apresentações semelhantes
1 Seleção de Atributos Marcílio Souto DIMAp/UFRN.
Advertisements

Administração de Sistemas de Informação
SIN - Sistemas de Informação
INTELIGÊNGIA COMPUTACIONAL
Felipe Carvalho – UFES 2009/2
Modelos de Mineração de Dados
Planejamento Estratégico de TI
Planejamento Estratégico de TI
Sistemas de Apoio à Decisão (SAD) Helena Galhardas
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
PROBLEMAS E DECISÕES EMPRESARIAIS
Aprendizado de Máquina
A PPLYING D ATA M INING T ECHNIQUES TO S EMI -A UTOMATICALLY D ISCOVER G UIDELINES FOR M ETAMODELS {andreza, franklin, patricia,
2/18/2014Mestrado em Ciencia da Computacao Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade.
Universidade Federal do Paraná
Mineração de Dados ou Descoberta de conhecimento em BDs
Mineração de Dados Introdução.
Agrupamento de Dados: uma Revisão Data Clustering
Agrupamento de padrões Métodos hierárquicos
KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002.
DATA MINING Inteligência Artificial
Data Warehouse Um Data Warehouse é um armazém de dados, contendo dados extraídos do ambiente de produção da empresa. De acordo com INMON (1997), um.
Paulo J Azevedo Departamento de Informática
Data Mining como ferramenta de Gestão
Novos desafios em estudos de mercado: Knowledge Discovery e Data Mining 7º Congresso da APODEMO Novembro de 2000.
Data Mining, Data Warehousing e OLAP
Tomada de Decisão e Sistemas de Informação
Data Warehouse & Data Mining
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Dos dados ao Conhecimento: O Papel da Estatística no Marketing de Resultados UFRJ - 31/03/2005.
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
Marcus Vinicius Silva Soares Orientador: Luiz Merschmann Outubro / 2010.
Gerhard M¨unz, Sa Li, Georg Carle Computer Networks and Internet Wilhelm Schickard Institute for Computer Science University of Tuebingen, Germany Traffic.
Sociedade da Informação: Ambiente de TI nas Organizações
Tecnologia da Informação
4.2. Data Mining (Mineração de Dados)
BI - Conceito É o conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apóia a tomada de decisões.
Capacidades do Data Warehouse
Aprendizado de Máquina - Introdução
Data Mining: Conceitos e Técnicas
Sistemas de Informação e as decisões gerenciais na era da Internet
J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades.
1 Gerenciamento da Informação O que é gerenciamento? O que é gerenciamento? Como uma idéia geral, gerenciamento, gestão ou administração é a atividade.
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
DATA MINING Fabiany Lamboia Luciano Machado Pereira Fabiany Lamboia Luciano Machado Pereira.
Objetivos do Capítulo Explicar a importância da implementação de processos e tecnologias de gerenciamento de dados numa organização. Explicar as vantagens.
Análise de Agrupamentos Marcílio Souto DIMAp/UFRN.
A Lexicon-Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews Bruno Andrade.
INE5644 – Data Mining Profa Vania Bogorny
Uma proposta para OLAP ontológica Adriana Ribeiro.
Gestão da Tecnologia da Informação
Prof. Ana Martins – UCB Unidade 02 Aula 03
24/4/2015IA - Prof. Paulemir Campos1 WEKA UPE – Caruaru – Sistemas de Informação Disciplina: Inteligência Artificial Prof.: Paulemir G. Campos.
Mineração de Dados: Introdução
Sistemas de Apoio à Decisão (SAD) Decision Support Systems
Universidade Federal do Paraná
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Universidade Federal do Paraná Mineração de Dados e Aprendizado de Máquinas. Aurora Trinidad Ramírez Pozo.
KDD E MINERAÇÃO DE DADOS
O PROCESSO DE KDD Elaborado por: Jader Gustavo de Campos Santos Rhafael Freitas da Costa.
Classificação de Textos
B. I., DATAMINING e OLAP Henrique Liduario Joab Esequiel
DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina | Fernando.
Data Warehouse Introdução ao Data Warehouse Introdução ao Data Warehouse Sistemas de Apoio à Decisão Sistemas de Apoio à Decisão Conceituação de Data Warehouse.
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Mineração de Dados Classificação Felipe Carvalho – UFES 2009/2.
Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.
Reconhecimento de Padrões Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra Padrões e processos em Dinâmica de uso e Cobertura.
Transcrição da apresentação:

Mineração de Dados e Aprendizado de Máquina Marcilio Souto DIMAp/UFRN

O que NÃO é Mineração de Dados ● “An unethical Econometric practice of massaging and manipulating the data to obtain the desired results.” (W. S. Brown “Introducting Econometrics”) ● “A buzz word for what is known in Machine Learning as Classification, Regression, Association, and Clustering.” (An anonymous machine learning skeptic)

O que é Mineração de Dados? ● Processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados (Fayyad et al, 1996) – Encontra informações úteis embutidas em GRANDES volumes de dados – Análise de dados e o uso de técnicas de software para encontrar padrões e regularidades em conjuntos de dados – O computador é responsável por encontrar os padrões por meio da identificação de regras e características implícitas nos dados – É possível “achar ouro” em lugares inesperados na medida em que o software de mineração de dados extrai padrões antes não discerníveis ou tão obvios que ninguém tinha notado antes – Analogia com a mineração ● Grandes volumes de dados são “peneirados” na tentativa de se encontrar alguma coisa de valor

Exemplos ● Qual produto de alta lucratividade venderia mais com a promoção de um item de baixa lucratividade, analisando os dados dos últimos dez anos? ● Quais são os clientes potenciais para praticar fraudes? ● Quais clientes gostariam de comprar o novo produto X? ● Que genes são determinantes para o diagnóstico de um determinado tipo de doença?

Descoberta de Conhecimento ● Descoberta de conhecimento ou Knowledge Discovery in Database (KDD) é um outro termo para o processo de Mineração de Dados ● Alguns autores consideram os termos KDD Mineração de Dados referentes a processos distintos – Mineração de Dados seria uma etapa do processo de KDD

Mineração de Dados - uma área multidisciplinar ● Banco de Dados ● Estatística ● Computação de Alto-desempenho ● Aprendizado de Máquina ● Visualização ● Matemática

Mineração de Dados e Aprendizado de Máquina ● Grandes conjuntos de dados em Mineração de Dados ● Eficiência do algoritmo é importante ● Escalabilidade do algoritmo é importante ● Dados do mundo real ● Muitos valores faltosos ● Conhecimento do Domínio na forma de restrições de integridade disponível

Mineração de Dados e Sistemas Gerenciadores de Banco de Dados (SGBD) ● Exemplo de um relatório de um SGBD – Vendas dos últimos meses para cada tipo de serviço – Vendas por serviço agrupadas por sexo do cliente ou idade – Lista dos clientes que tiveram suas apólices canceladas ● Perguntas respondidas usando Mineração de Dados – Que características têm os clientes que tiveram suas apólices canceladas e como elas diferem daquelas do cleintes que as renovaram? – Quais clientes que possuem seguros de carro que seriam potenciais clientes para seguros de casa?

Data Warehouse ● Data Warehouse: repositório de dados centralizado que contém dados limpos, agregados e consolidados – Extrai dados operacionias históricos – Supera inconsistências entre diferentes formatos de dados – Incorpora informações adicionais ou de especialistas

On-line Analytical Processing (OLAP) ● Multi-Dimensional Data Model (Data Cube) ● Operações – Roll-up – Drill-down – Slice and dice – Rotate

Multidimensional Data ● Sales volume as a function of product, month, and region Product Region Month Dimensions: Product, Location, Time Hierarchical summarization paths Industry Region Year Category Country Quarter Product City Month Week Office Day

Objetivos da Mineração de Dados ● Atividades Preditivas: Classificação e Regressão – Sistemas de mineração de Dados aprendem a partir de exemplos como particionar ou classificar os dados (p. ex., gerando regras de classificação) – Exemplo - base de dados de clientes de um banco ● Pergunta: Um novo cliente solicitando um empréstimo é um bom ou mau investimento? ● Regra típica formulada: – Se STATUS = cassado e RENDA > 2000 e PROPRIETARIO- IMÓVEL = sim então TIPO-DE-INVESTIMENTO = bom

Objetivos da Mineração de Dados ● Atividades Descritivas: Associação, Clustering, Sumarização – Regras de Associação ● Regras que associam um atributo de uma relação a outro ● Abordagens orientadas a conjuntos são os meios mais eficientes para a descobertas de tais regras ● Exemplo - base de dados de um supermercado – 72% de todos os registros que contêm itens A e B também contêm item C – A porcentagem específica de ocorrências é o fator de confiança da regra

SGBD, OLAP e Mineração de Dados

Estágios do Processo de Mineração de Dados ● Identificação do Problema – Quais são as principais metas do processo? – Quais critérios de desempenho são importantes? – O conhecimento extraído deve ser compreensível a seres humanos ou um modelo tipo caixa-preta é apropriado? – Qual a deve ser a relação entre simplicidade e precisão do conhecimento extraído? ● Pré-processamento – Extração e Integração – Limpeza – Transformação – Seleção e Redução ● Criação de um modelo - Aprendizado de Máquina – Escolha da tarefa - classificação, regressão, associação, clustering,... – Escolha do(s) algoritmo(s) – Aplicação do(s) algoritmo(s) ● Teste do modelo ● Interpretação e avaliação

Técnicas de Aprendizado de Máquina ● k-NN ● Naive Bayesian Learning ● Árvores de Decisão ● Regras ● Redes Neurais Artificias ● Support Vector Machines ● Ensembles ● Regras de Associação ● k-means ● Métodos de agrupamento hierárquico

Aplicações de Mineração de Dados ● Atribuição de crédito ● Predição no mercado financeiro ● Diagnóstico de falhas em linhas de produção ● Descobertas médicas ● Detecção de fraudes ● Análise de tendências de compra ● Marketing direcionado ●....

Bibliografia ● Rezende, S. O. et al. (2003). Mineração de Dados. In Rezende, S. O. (org.) Sistemas Inteligentes: Fundamentos e Aplicações, Capítulo 12, pp Editora Manole Ltda. ● Witten, I. H. and Frank, E. (1999). Data Mining: practical machine learning tools and techniques with Java implementations. Chapter 1 - What's it all about?, pp