Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouSuzana Gonçalves Klettenberg Alterado mais de 8 anos atrás
1
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com
2
Conceitos – Visão geral Data Warehouse (armazém de dados) – armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada. Data Mart (repositório de dados) – é sub-conjunto de dados de um Data warehouse. Business Intelligence (Inteligência empresarial) – refere-se ao processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. Data Mining (Mineração de Dados) – processo de exploração de grandes quantidades de dados a fim de reunir grupos semelhantes (padrões) para detectar relacionamentos entre variáveis e assim detectar novos subconjuntos de dados.
3
Hoje... Introdução sumarizada: o que é mineração de dados? – Para que serve? – Como se relaciona com outras disciplinas/técnicas/áreas? Descoberta de conhecimentos em bancos de dados. – Passos do processo. – Relação com mineração de dados
4
Motivação Crescimento explosivo na capacidade de gerar e coletar dados: – Científicos (coleta automática por sensores). – Sociais (censos, pesquisas). – Econômicos e comerciais (transações bancárias e comerciais de código de barras). Crescimento na capacidade de relacionar estes dados Crescimento na capacidade de armazenar estes da Crescimento (ainda não suficiente) na capacidade de processar estes dados.
5
Volume de dados Stanford Linear Accelerator Center (SLAC): mais de um petabyte de dados coletados e armazenados – Um petabyte = 1.048.576G Uma cena de satélite Landsat, 3 bandas (185x185k resolução 30x30m): 108M – Imagem de todo o território brasileiro: 26.4G CERN: espera chegar em 5 a 20 petabytes. Dados gerados automaticamente: – Bilhões de chamadas telefônicas por dia. – Dezenas a milhões de registros/dia em logs de servidores – Tráfego de rede. – Impossível armazenar dados! Análise deve ser feita on-the-fly – Questão da privacidade.
6
Perguntas Quem vê tudo isso? – É viável? É automatizável? Como identificar padrões, exceções, tendências e correlações? O que existe de interessante nestes dados? – Como definir interessante ?
7
Como processar esses dados Consultas simples? SQL resolve: – Quem comprou queijo gorgonzola? – Quem comprou queijo e vinho? – Qual é o gasto médio das compras deste perfil? E descoberta de novas associações e conhecimentos? – Qual item é comprado com mais freqüência juntamente com vinho? – Quais conjuntos de itens são comprados com mais freqüência? – Como prever perfis de consumo? – Como prever que usuários vão mudar de provedor? – Como identificar coisas parecidas? – Como identificar o que é diferente do resto? – Porquê? Procuramos novas informações sobre os dados e não comprovar informações já consideradas
8
Definições Data Mining: é um dos processos de Descoberta de Conhecimento em Banco de Dados (KDD) Processo geral de descoberta de conhecimentos úteis (previamente desconhecidos) a partir de (grandes) bancos de dados Processo em várias etapas interdependentes, que podem ser repetidas e que nem sempre tem distinções claras entre si. Definir: conhecimento, útil, bancos de dados. Considerar: dados previamente desconhecidos, grande BD
9
Processo de KDD Compreender o domínio da aplicação, entender as expectativas do usuário final do processo. Criar/selecionar uma coleção de dados para aplicação Pré-processar e limpar os dados (eliminar impureza de dados irrelevantes). Transformar (reduzir e reprojetar) os dados (encontrar atributos úteis e interessantes). Escolher a tarefa, métodos, modelos, parâmetros, etc do processo de data mining e executar este processo. Interpretar os resultados, iterar se necessário. Consolidar o conhecimento, resolver conflitos, iterar se necessário.
10
Processo KDD
11
KDD/DM não é...
12
Data Mining Envolve várias áreas de conhecimento: – Estatística e Matemática. – Computação Aplicada (Inteligência Artificial, Machine Learning). – Visualização de Dados (Computação Gráfica). – Bancos de Dados. – Sistemas Distribuídos, Algoritmos Paralelos, Alta Performance. Áreas de aplicação: – Economia, comércio eletrônico, marketing, detecção de fraudes. – WWW. – Bioinformática e medicina
13
Data Mining Tarefas principais: – Classificação: aprendizado de uma função que mapeia um dado em uma de várias classes conhecidas. – Regressão (predição): aprendizado de uma função mapeia um dado em um valor real. – Deteção de desvios: identificação de dados que deveriam seguir um padrão mas não o fazem
14
Aplicações de Sucesso Amazon: recomendações de livros e interesses – Usuário compra mais de um livro, a associação é armazenada e usada para recomendações. Verizon Wireless: redução de desistências contratuais – Verificou que tipo usuários tinham tendência maior a mudar de operadora, fez marketing/ofertas específicas a perfis Análise de crédito – Como avaliar o risco de oferecer crédito para um cliente? – Quem é mais confiável precisa menos de crédito!
15
Data Mining e Privacidade... Dados pessoais (histórico bancário, saúde, censo, etc. já são coletados). Alguns podem ser coletados sem esforço: – Logs de navegação. – Compras. – Localização e movimentação. Até que ponto isso pode ser feito de forma: – Ética? – Que mantenha a privacidade? – Que possa ser útil?
16
Em resumo... Dados para mineração: – Transacionais, séries temporais, texto, multimídia, heterogêneos, legados, WWW, etc. Conhecimento a ser extraído: – Caracterização, discriminação, associação, classificação, tendências, desvios, etc. Técnicas utilizadas: – Técnicas de bancos de dados, machine learning, estatística, IA, visualização, etc. Aplicações – Vendas/marketing, telecomunicações, bancos/mercados financeiros deteção de fraudes, bioinformática, medicina, WWW, etc.
17
Exercício Verificar em http://www.kdnuggets.com/dmcourse/data_ mining_course/course_notes.pdf exemplos de aplicação de Data Mining. http://www.kdnuggets.com/dmcourse/data_ mining_course/course_notes.pdf Ver se existe algum exemplo com alguma similaridade ou aplicabilidade ao seu TCC. Pesquisar a ferramenta WEKA e trazer na próxima aula um exemplo prático de Data mining. (Valendo até 2 pontos na prova!!)
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.