A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes

Apresentações semelhantes


Apresentação em tema: "Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes"— Transcrição da apresentação:

1 Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com

2 Conceitos – Visão geral Data Warehouse (armazém de dados) – armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada. Data Mart (repositório de dados) – é sub-conjunto de dados de um Data warehouse. Business Intelligence (Inteligência empresarial) – refere-se ao processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. Data Mining (Mineração de Dados) – processo de exploração de grandes quantidades de dados a fim de reunir grupos semelhantes (padrões) para detectar relacionamentos entre variáveis e assim detectar novos subconjuntos de dados.

3 Hoje... Introdução sumarizada: o que é mineração de dados? – Para que serve? – Como se relaciona com outras disciplinas/técnicas/áreas? Descoberta de conhecimentos em bancos de dados. – Passos do processo. – Relação com mineração de dados

4 Motivação Crescimento explosivo na capacidade de gerar e coletar dados: – Científicos (coleta automática por sensores). – Sociais (censos, pesquisas). – Econômicos e comerciais (transações bancárias e comerciais de código de barras). Crescimento na capacidade de relacionar estes dados Crescimento na capacidade de armazenar estes da Crescimento (ainda não suficiente) na capacidade de processar estes dados.

5 Volume de dados Stanford Linear Accelerator Center (SLAC): mais de um petabyte de dados coletados e armazenados – Um petabyte = 1.048.576G Uma cena de satélite Landsat, 3 bandas (185x185k resolução 30x30m): 108M – Imagem de todo o território brasileiro: 26.4G CERN: espera chegar em 5 a 20 petabytes. Dados gerados automaticamente: – Bilhões de chamadas telefônicas por dia. – Dezenas a milhões de registros/dia em logs de servidores – Tráfego de rede. – Impossível armazenar dados! Análise deve ser feita on-the-fly – Questão da privacidade.

6 Perguntas Quem vê tudo isso? – É viável? É automatizável? Como identificar padrões, exceções, tendências e correlações? O que existe de interessante nestes dados? – Como definir interessante ?

7 Como processar esses dados Consultas simples? SQL resolve: – Quem comprou queijo gorgonzola? – Quem comprou queijo e vinho? – Qual é o gasto médio das compras deste perfil? E descoberta de novas associações e conhecimentos? – Qual item é comprado com mais freqüência juntamente com vinho? – Quais conjuntos de itens são comprados com mais freqüência? – Como prever perfis de consumo? – Como prever que usuários vão mudar de provedor? – Como identificar coisas parecidas? – Como identificar o que é diferente do resto? – Porquê? Procuramos novas informações sobre os dados e não comprovar informações já consideradas

8 Definições Data Mining: é um dos processos de Descoberta de Conhecimento em Banco de Dados (KDD) Processo geral de descoberta de conhecimentos úteis (previamente desconhecidos) a partir de (grandes) bancos de dados Processo em várias etapas interdependentes, que podem ser repetidas e que nem sempre tem distinções claras entre si. Definir: conhecimento, útil, bancos de dados. Considerar: dados previamente desconhecidos, grande BD

9 Processo de KDD Compreender o domínio da aplicação, entender as expectativas do usuário final do processo. Criar/selecionar uma coleção de dados para aplicação Pré-processar e limpar os dados (eliminar impureza de dados irrelevantes). Transformar (reduzir e reprojetar) os dados (encontrar atributos úteis e interessantes). Escolher a tarefa, métodos, modelos, parâmetros, etc do processo de data mining e executar este processo. Interpretar os resultados, iterar se necessário. Consolidar o conhecimento, resolver conflitos, iterar se necessário.

10 Processo KDD

11 KDD/DM não é...

12 Data Mining Envolve várias áreas de conhecimento: – Estatística e Matemática. – Computação Aplicada (Inteligência Artificial, Machine Learning). – Visualização de Dados (Computação Gráfica). – Bancos de Dados. – Sistemas Distribuídos, Algoritmos Paralelos, Alta Performance. Áreas de aplicação: – Economia, comércio eletrônico, marketing, detecção de fraudes. – WWW. – Bioinformática e medicina

13 Data Mining Tarefas principais: – Classificação: aprendizado de uma função que mapeia um dado em uma de várias classes conhecidas. – Regressão (predição): aprendizado de uma função mapeia um dado em um valor real. – Deteção de desvios: identificação de dados que deveriam seguir um padrão mas não o fazem

14 Aplicações de Sucesso Amazon: recomendações de livros e interesses – Usuário compra mais de um livro, a associação é armazenada e usada para recomendações. Verizon Wireless: redução de desistências contratuais – Verificou que tipo usuários tinham tendência maior a mudar de operadora, fez marketing/ofertas específicas a perfis Análise de crédito – Como avaliar o risco de oferecer crédito para um cliente? – Quem é mais confiável precisa menos de crédito!

15 Data Mining e Privacidade... Dados pessoais (histórico bancário, saúde, censo, etc. já são coletados). Alguns podem ser coletados sem esforço: – Logs de navegação. – Compras. – Localização e movimentação. Até que ponto isso pode ser feito de forma: – Ética? – Que mantenha a privacidade? – Que possa ser útil?

16 Em resumo... Dados para mineração: – Transacionais, séries temporais, texto, multimídia, heterogêneos, legados, WWW, etc. Conhecimento a ser extraído: – Caracterização, discriminação, associação, classificação, tendências, desvios, etc. Técnicas utilizadas: – Técnicas de bancos de dados, machine learning, estatística, IA, visualização, etc. Aplicações – Vendas/marketing, telecomunicações, bancos/mercados financeiros deteção de fraudes, bioinformática, medicina, WWW, etc.

17 Exercício Verificar em http://www.kdnuggets.com/dmcourse/data_ mining_course/course_notes.pdf exemplos de aplicação de Data Mining. http://www.kdnuggets.com/dmcourse/data_ mining_course/course_notes.pdf Ver se existe algum exemplo com alguma similaridade ou aplicabilidade ao seu TCC. Pesquisar a ferramenta WEKA e trazer na próxima aula um exemplo prático de Data mining. (Valendo até 2 pontos na prova!!)


Carregar ppt "Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes"

Apresentações semelhantes


Anúncios Google