KDD E MINERAÇÃO DE DADOS:

Slides:



Advertisements
Apresentações semelhantes
Teoria e Prática Prof.Ms. Nilson Aguilar
Advertisements

Administração de Sistemas de Informação
SIN - Sistemas de Informação
INTELIGÊNGIA COMPUTACIONAL
ENGENHEIRIA DE PRODUÇÃO
Trabalho 6 Ferramentas para garantir a segurança
Felipe Carvalho – UFES 2009/2
Aplicações práticas da descoberta de conhecimento em BD
Inteligência Artificial Alex F. V. Machado. Tecnologia de Processamento da Informação que envolve processos de raciocínio, aprendizado e percepção. Winston.
Mecanismo de Proteção (Prevenção e Detecção)
Universidade Federal do Paraná
Mineração de Dados ou Descoberta de conhecimento em BDs
Mineração de Dados Introdução.
Introdução à Programação Fundamentos da Computação Prof. Filipo Studzinski Perotto 2009.
Parte 2 – Marcos Regulatórios Prof. Luís Fernando Garcia
KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002.
O Surgimento dos Sistemas de Bioinformática
III – Uso Infraestrutura Escola Politécnica da USP MBA EPUSP em Gestão e Engenharia do Produto EP018 O Produto Internet e suas Aplicações Tecnologias de.
Paulo J Azevedo Departamento de Informática
Data Warehouse & Data Mining
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
Faculdade de engenharia química Gestão estratégica da produção Sistemas de Informação e tecnologia Trabalho 6 Tecnologias e Ferramentas para Garantir a.
Planejamento de recursos empresariais (ERP)
Capacidades do Data Warehouse
Aprendizado de Máquina - Introdução
Gerenciamento de Redes Utilizando Agentes Móveis
Recuperação de Informação
Sistemas de Informação e as decisões gerenciais na era da Internet
Escola de Engenharia de Piracicaba Administração Sistema de Comunicação de Dados Aula 6 – A Internet Alberto Martins Júnior Flávio I. Callegari.
Sistemas de Informação
Uso estratégico de TIC com segurança para transformação dos serviços públicos Luís Minoru Shibata Foz do Iguaçu, 30 de maio de 2014.
Ações CRW Consultoria Estratégica Comunicação Digital.
INE5644 – Data Mining Profa Vania Bogorny
Sistemas Distribuidos
Gestão da Tecnologia da Informação
TECNOLOGIAS DE PROCESSO
Por Márcia May Gomel ® março Tecnologia da informação para gestão. cap.2. p Turban et al. Tecnologia da informação para gestão. cap.2. p
É realmente grande, e não tem volta..  Ciência  Mercado  Saúde  Lazer  (criatividade...) Temple of Possibilities, Irvine Peacock.
Filtragem de Informação
A Tecnologia da Informação ti_01-intro.ppt: fonte prof: PauloPereira_conceitosDeTI
Mineração de Dados: Introdução
Sistemas de Informação para Operações
Águas de São Pedro 1º Cidade 100% Digital e Inteligente
AUTOMAÇÃO E ROBÓTICA Mário Luiz Tronco.
KDD E MINERAÇÃO DE DADOS
Overview dos Trabalhos da Área de Eletrônica
TIPOS DE SISTEMAS DE INFORMAÇÃO BASEADOS NA WEB
KDD E MINERAÇÃO DE DADOS
ALUNOS IGOR CAMILO ANDSON SILVA LEVI PEDRO LUCAS VIEIRA.
Gestão do Conhecimento e da Informação
Aplicações em Redes Neurais Artificiais De acordo com Turbam, McLean e Wetherbe (2004), “a computação neural também pode ser combinada com outros sistemas.
TIC Tecnologias de Informação e Comunicação
III – Uso da Infraestrutura Tecnológica Tecnologias de Informação e Comunicação em Desenvolvimento de Produtos III – Uso da Infraestrutura Tecnológica.
SISTEMAS de INFORMAÇÃO segunda-feira, 1 de fevereiro de 2010
III – Uso Infraestrutura – Sociedade Digital Escola Politécnica da USP MBA EPUSP em Gestão e Engenharia do Produto EP018 O Produto Internet e suas Aplicações.
B. I., DATAMINING e OLAP Henrique Liduario Joab Esequiel
Compreendendo a Cadeia de Suprimentos
DISCIPLINA Pesquisa de Tecnologias Emergentes - PTE Profa. Eliane.
SISTEMA SIM e CRM Aula 12.
PROGRAMA DE INCLUSÃO SOCIAL E COMBATE À EVASÃO ESCOLAR Freqüência Digital.
Escola de Engenharia de Piracicaba Administração Sistema de Comunicação de Dados Aula 6 – A Internet Alberto Martins Júnior Flávio I. Callegari.
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
GILBERTO JOSÉ PACHECO WEB MARKETING MERCADO TECNOLÓGICO.
Alunas: Ana Paula/ Beatriz / Gracielle / Márci Alunas: Ana Paula/ Beatriz / Gracielle / Márci a Professor Antônio.
ACL – (Audit Command Language)
AULA 04 PRODUÇÃO DE CONHECIMENTO. Um desafio empresarial crítico com o qual nossos clientes se defrontam é a necessidade de melhorar significativamente.
1 ABA Mídia 2016 – Brasília – DF, 05 de maio Fábio Buiati fabiobuiati MONITORAMENTO INTELIGENTE CIDADES MARCAS PESSOAS.
Informação Nos últimos 30 anos do século XX, foram produzidas mais informações do que nos cinco mil anos anteriores. Nos últimos 30 anos do século XX,
José Alberto Cuminato. Objetivo geral Promover e incentivar o uso de técnicas Matemáticas, Estatísticas e Computacionais no Setor Produtivo e em outras.
Temas de Pesquisa para 2016 Prof. Elvis Fusco. Data Science e Big Data Analytics Estudo e aplicações do conceito de Data Science no desenvolvimento de.
Transcrição da apresentação:

KDD E MINERAÇÃO DE DADOS: POSICIONAMENTO E MOTIVAÇÃO Prof. Ronaldo R. Goldschmidt Instituto Militar de Engenharia Seção de Engenharia de Computação (SE/8) ronaldo.rgold@ime.eb.br / ronaldo.rgold@gmail.com

POSICIONAMENTO E MOTIVAÇÃO Coleta de dados em vários formatos, por meio de diversos recursos/aplicações em várias áreas: Internet, dispositivos móveis, sensores, sistemas de automação, sistemas de informação, ... Redes sociais, AVAs, redes de telecomunicações, operações com cartões de crédito, ... Governo, (Bio)Ciências, Finanças, Seguros, Segurança, ... IoT (Internet of Things – Internet das Coisas) Quanta informação é criada a cada ano?

POSICIONAMENTO E MOTIVAÇÃO Segundo a revista Science (2011): o mundo foi capaz de armazenar 295 exabytes de informação no ano de 2007. 1 exabyte = 1012 megabytes Cerca de 800 megabytes para cada ser humano. Equivalente ao conteúdo textual de mais de 300 livros. Atualmente a NASA possui dados na ordem de bilhões de gigabytes. Estima-se que em 2020, a humanidade disporá de 44 zettabytes de dados. 1 zettabyte = 44 trilhões de gigabytes (44 x 270 bytes) Taxa de crescimento de dados mundial em torno de 40% ao ano na próxima década. Fontes: www.sciencemag.org/content/early/2011/02/09/science.1200970.full.pdf http://www.nasa.gov/open/plan/data-gov.html www.emc.com/leadership/digital-universe/index.htm

POSICIONAMENTO E MOTIVAÇÃO Nossa situação atual é a de sobrecarga de informação...

POSICIONAMENTO E MOTIVAÇÃO Grandes Volumes de Dados Distribuídos Vários formatos: texto, imagem, vídeos, sons, gráficos, etc... 5

POSICIONAMENTO E MOTIVAÇÃO Em vez de reduzir o problema, mecanismos de busca o amplificam, pois tornam novos documentos textuais rapidamente disponíveis. Muitos dados, pouca informação. Google: 150M consultas/dia (2000/segundo) Google: 4.2B documentos em seu índice Consequência: mais difícil extrair algo útil a partir dos dados (padrões, relacionamentos ou tendências subjacentes aos dados) A extração manual de informação é impossível. Fonte: The Anatomy of a Large-Scale Hypertextual Web Search Engine Sergey Brin and Lawrence Page, http://www-db.stanford.edu/~backrub/google.html

POSICIONAMENTO E MOTIVAÇÃO Exemplos de Instituições com BDs Massivos: FedEx UPS Wal-Mart NASA Projeto Genoma Caixa Econômica Banco do Brasil Dentre muitos outros …

POSICIONAMENTO E MOTIVAÇÃO Necessidade: Ferramentas inteligentes que auxiliem na análise de dados e na busca por conhecimentos em GRANDES conjuntos de dados (nos mais diversos formatos).

POSICIONAMENTO E MOTIVAÇÃO Avanços em TI Crescimento Exponencial de BDs Necessidade de Ferramentas para Análise Grandes BDs Área da Descoberta do Conhecimento em Bases de Dados (KDD)

POSICIONAMENTO E MOTIVAÇÃO “É um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos de dados.” [Fayyad et al., 1996] Descoberta de Conhecimento em Bases de Dados – KDD Dados Estruturados Modelo de Conhecimento

POSICIONAMENTO E MOTIVAÇÃO Hierarquia Dado - Informação - Conhecimento: CONHECIMENTO INFORMAÇÃO DADO 2.345,20; 463,00; 10.048,21; 294,12 Capacidade de Endividamento Mensal = 1 – Despesa Mensal / Renda Mensal SE Capacidade de Endividamento Mensal > 0.6 ENTÃO Crédito = Sim Renda Mensal, Despesa Mensal

POSICIONAMENTO E MOTIVAÇÃO Exemplo de aplicação de KDD na área de concessão de crédito: Conjunto de dados (Fatos)

POSICIONAMENTO E MOTIVAÇÃO Exemplo de aplicação de KDD na área de concessão de crédito: Padrão: Se renda > R$ t Então Crédito = SIM (Cto)

POSICIONAMENTO E MOTIVAÇÃO “BUSCA” VS “DESCOBERTA” Data Retrieval Data Mining Dados estruturados Dados não-estruturados (Texto) Information Retrieval Text Mining

POSICIONAMENTO E MOTIVAÇÃO Na verdade, há vários tipos de “mining”, dependendo da natureza dos dados: Data Mining Web Mining Conteúdo Estrutura Log dos servidores Multimídia Mining (Som, Imagem, …) Text Mining Terminologia acima não é um consenso.

POSICIONAMENTO E MOTIVAÇÃO DESCOBERTA DE CONHECIMENTO - UMA TAXONOMIA Dados Estruturados Dados Textuais Dados Multimídia Mineração de Dados Clássica Mineração de Dados Textuais Mineração de Dados Multimídia

POSICIONAMENTO E MOTIVAÇÃO Áreas de Origem ESTATÍSTICA RECONHECIMENTO DE PADRÕES VISUALIZAÇÃO BANCO DE DADOS APRENDIZADO DE MÁQUINA INTELIGÊNCIA ARTIFICIAL DATA WAREHOUSING KDD

POSICIONAMENTO E MOTIVAÇÃO EXEMPLOS DE ÁREAS DE APLICAÇÃO: Energia Finanças Telecomunicações Medicina Meio-Ambiente Indústria Comércio Educação Etc...

POSICIONAMENTO E MOTIVAÇÃO Comércio / Marketing Perfil do Consumidor (Marketing Direto), Promoção de Produtos, Segmentação de Mercado, etc;... Finanças Análise de Investimentos, Análise de Crédito, Detecção de Fraudes em compras de Cartão de Crédito, etc;... Medicina Diagnóstico e Prevenção de Doenças, Detecção de Fraudes em Planos de Saúde, etc;...

POSICIONAMENTO E MOTIVAÇÃO Educação Análise de Matrículas e Demandas por Escolas, Evasão Escolar, Um Computador por Aluno;... Energia Previsão de Demanda, Distribuição de Recursos;... Telecomunicações Detecção de falhas, Dimensionamento de Sistemas de Comunicação, Detecção de Fraudes;...

POSICIONAMENTO E MOTIVAÇÃO Meio Ambiente Monitoramento ambiental, Prevenção de desequilíbrios ecológicos;... Indústria Previsão de demanda, Planejamento da produção e distribuição;... Área Social Caracterização de Perfil para Reintegração Social;...

POSICIONAMENTO E MOTIVAÇÃO Exemplos na área da Segurança Como saber se uma mensagem é lixo ou de fato interessa? Como saber se um dado comportamento de usuário é suspeito e com lidar com isto? Detecção de intrusão e filtragem de spam

POSICIONAMENTO E MOTIVAÇÃO Exemplos de aplicação de Mineração de Dados: Classificação de imagens baseada em conteúdo Reconhecimento automático de assinaturas Identificação por impressões digitais

POSICIONAMENTO E MOTIVAÇÃO Exemplos de aplicação de Mineração de Dados: Classificação de imagens baseada em conteúdo Autêntico ou Fraude Projeto PORTINARI

POSICIONAMENTO E MOTIVAÇÃO Exemplos de aplicação de Mineração de Dados: Extração e correção de padrões em músicas

POSICIONAMENTO E MOTIVAÇÃO Exemplos de aplicação de Mineração de Dados: Reconhecimento e classificação de sons Reconhecimento de Voz e de Locutores

POSICIONAMENTO E MOTIVAÇÃO Exemplos de aplicação de Mineração de Dados: Reconhecimento e busca de objetos em imagens ou vídeos Reconhecimento de face Identificação de Elementos

POSICIONAMENTO E MOTIVAÇÃO Exemplos de aplicação de Mineração de Dados: Reconhecimento e busca de objetos em imagens ou vídeos Diagnóstico a partir de ressonância magnética Diagnóstico a partir de radiografia Diagnóstico a partir de tomografia computadorizada

POSICIONAMENTO E MOTIVAÇÃO Exemplos na área Financeira Previsão da cotação de ações na bolsa de valores

POSICIONAMENTO E MOTIVAÇÃO Exemplos na área de Energia (Petróleo) Identificação de locais para perfuração de poços de petróleo

POSICIONAMENTO E MOTIVAÇÃO Exemplos de aplicação de Mineração de Dados: Reconhecimento de imagens baseada em conteúdo Reconhecimento de usuários pela íris

POSICIONAMENTO E MOTIVAÇÃO Descoberta de Conhecimento e Mineração de Dados Exs de Fontes de Conhecimento Dados Não/Semi Estruturados Dados Multimídia Dados Estruturados Exs de Aplicação Identificação de vendas casadas Filtros detectores de spam Reconhecimento de indivíduos

POSICIONAMENTO E MOTIVAÇÃO Atividades em KDD - uma Taxonomia Desenvolvimento Tecnológico Execução de KDD Aplicação de Resultados [Goldschmidt et al., 2002a]

POSICIONAMENTO E MOTIVAÇÃO Atividades em KDD - uma Taxonomia Desenvolvimento Tecnológico Tarefas, Algoritmos e Técnicas Otimização de Desempenho Processo de KDD [Goldschmidt et al., 2002a]

POSICIONAMENTO E MOTIVAÇÃO Tópicos Relacionados: Mineração de Textos Mineração de Dados Multimídia Mineração de Grafos Big Data Mineração de Dados Paralela e Distribuída

POSICIONAMENTO E MOTIVAÇÃO Tópicos Relacionados: Opinion Mining Educational Data Mining Social Data Mining Web Mining Etc…