A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08.

Apresentações semelhantes


Apresentação em tema: "CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08."— Transcrição da apresentação:

1 CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08

2 CE245 – Tecnologias da Informação Sumário Introdução Definições Técnicas Aplicações Ferramentas Conclusões

3 CE245 – Tecnologias da Informação Referências Luiz Homero Bastos Cunico. Técnicas em Data Mining aplicadas na predição de satisfação de Funcionários de uma rede de lojas do comércio varejista. Dissertação Mestrado. Universidade Federal do Paraná. Curitiba, Marcos Corrêa Neves; Corina Costa Freitas; Gilberto Câmara. Mineração de Dados em Grandes Bancos de Dados Geográficos. Relatório Técnico. INPE, Novembro, Rafael Santos. Data Mining em Java: Conceitos, Algoritmos e Implementações. Laboratório Associado de Computação e Matemática Aplicada. INPE.

4 CE245 – Tecnologias da Informação Um Bando de Dados Fonte:

5 CE245 – Tecnologias da Informação A busca por informação útil Fonte:

6 CE245 – Tecnologias da Informação Necessidade Grandes Volumes de DadosInformação Útil KDD Data Mining

7 CE245 – Tecnologias da Informação Definições KDD - Knowledge Discovery in Databases Descoberta de Conhecimento em Bancos de Dados - Processo não trivial de identificação de padrões válidos, novos, úteis e implicitamente presentes em grandes volumes de dados.

8 CE245 – Tecnologias da Informação Definições Data Mining (DM) – Consiste da busca, automática ou semi-automática, em grandes quantidades de dados com o objetivo de descobrir padrões importantes, utilizando algoritmos com eficiência computacional aceitável. Núcleo do processo de KDD.

9 CE245 – Tecnologias da Informação Valor estratégico dos dados

10 CE245 – Tecnologias da Informação Evolução da recuperação de dados Fonte:

11 CE245 – Tecnologias da Informação Data Mining - Tarefas Classificação: aprendizado de uma função que mapeia um dado em uma de várias classes conhecidas. Regressão (predição): aprendizado de uma função que mapeia um dado em um valor real. Agrupamento (clustering): identificação de grupos de dados onde os dados tem características semelhantes entre si e os grupos tem características diferentes. Sumarização: descrição do que caracteriza um conjunto de dados (ex. conjunto de regras). Detecção de desvios ou outliers: identificação de dados que deveriam seguir um padrão mas não o fazem.

12 CE245 – Tecnologias da Informação Data Mining - Atividades e Tarefas

13 CE245 – Tecnologias da Informação Data Mining Campo interdisciplinar que envolve outras áreas do conhecimento como Estatística, Inteligência Artificial e Aprendizado de Máquina.

14 CE245 – Tecnologias da Informação Data Mining e Estatística Uso de conceitos estatísticos Distribuição normal, variância, análise de regressão, análise de Cluster, desvios simples, análises de conjuntos, análises de discriminantes e intervalos de confiança

15 CE245 – Tecnologias da Informação Data Mining e Inteligência Artificial Construída a partir dos fundamentos da heurística, em oposto à Estatística, tenta imitar a maneira como o homem pensa na resolução dos problemas estatísticos. Redes neurais, regras de indução, árvores de decisão, séries temporais, etc.

16 CE245 – Tecnologias da Informação Data Mining e Aprendizado de Máquina Casamento da Estatística e da Inteligência Artificial. Programas de computador aprendem com os dados estudados, a fim de tomar decisões baseadas nas características destes dados. Uso da Estatística para os conceitos fundamentais; e Uso de heurísticas avançadas da IA e algoritmos para alcançar os objetivos.

17 CE245 – Tecnologias da Informação Data Mining e Data Warehouse Data Warehouse - repositório centralizado de dados; Data Mining – extração inteligente de dados Funciona melhor com o Data Warehouse Data Warehouse: A Memória da Empresa Data Mining: A Inteligência da Empresa

18 CE245 – Tecnologias da Informação Aplicações de Data Mining Logística Medicina BioInformática Marketing Economia e Finanças Segurança Ciências Espaciais – GIS Governo Astronomia Entre outras

19 CE245 – Tecnologias da Informação Exemplos de Ferramentas de Software Weka: software de domínio público (Java), desenvolvido pela Universidade de Waikato. Intelligent Miner: desenvolvido pela IBM, é uma ferramenta de DM interligada diretamente com o DB2 da IBM. Oracle Data Miner: desenvolvido pela Oracle, permite interligação direta com o SGBD Oracle. Enterprise Miner: tradicionalmente utilizado na área de negócios, marketing e inteligência competitiva. Statistica Data Miner: acrescenta as facilidades de mineração de dados ao tradicional pacote utilizado em aplicações de estatística. TANAGRA – Software livre de mineração de dados e de igual maneira estatística.

20 CE245 – Tecnologias da Informação Alguns Casos de Sucesso Wal*Mart: utilizando DM para previsão de itens por cada loja da empresa; modificou seus sistemas de ressuprimento automático de produtos. ShopKo: rede varejista americana, que utilizou DM para determinar quais produtos são vendidos através da venda indireta de outros produtos. Banco Itaú: reduziu em um quinto a conta com despesas postais com malas diretas aos correntistas, aumentando a taxa de resposta de 2% para 30%. Amazon: recomendações de livros e interesses.

21 CE245 – Tecnologias da Informação Conclusões A partir dos conceitos gerais sobre Data Mining, conclui-se que se trata de uma Tecnologia da Informação atual e com um vasto campo de atuação. Aliada a outras áreas do conhecimento, como Estatística e IA, constitui um poderoso mecanismo de obtenção de informações úteis e conhecimento, muitas vezes camuflados, em grandes volumes de dados.


Carregar ppt "CE245 – Tecnologias da Informação Data Mining Gláucia Braga e Silva abril/08."

Apresentações semelhantes


Anúncios Google