A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

“Conhecimento é o melhor investimento que podemos fazer....”Einstein.

Apresentações semelhantes


Apresentação em tema: "“Conhecimento é o melhor investimento que podemos fazer....”Einstein."— Transcrição da apresentação:

1 “Conhecimento é o melhor investimento que podemos fazer....”Einstein

2 Mauricio Abreu MSc Administração e Sistemas de Informação Administração e Sistemas de Informação Data, Text e Web Mining

3 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Tecnologias:  Data Warehouse, Data Mart, Metadado e ODS;  Data / Text / Web Mining;  BPM;  Portal Corporativo. Tecnologias:  Data Warehouse, Data Mart, Metadado e ODS;  Data / Text / Web Mining;  BPM;  Portal Corporativo. Agenda Geral

4 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento  Introdução  Tecnologias:  Introdução  Tecnologias: Agenda  Data Mining  Text Mining  Web Mining

5 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Introdução

6 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Fatores de Produção da Economia Conhecimento: 55% da riqueza mundial (OCDE: 2000) TERRA CAPITAL TRABALHO Introdução Realidade Mundial

7 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Introdução Realidade Mundial

8 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento “Palm top”: tem mais memória que toda a capacidade de memória existente em 1961! Computadores: x mais baratos que há 30 anos Se o Mercedes classe A tivesse a mesma evolução: • custaria U$ 2 • andaria na velocidade do som • 800 km com 1l de gasolina Conhecimento: o principal fator de produção do sec. XXI Introdução

9 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Sigatoga amarela x banana pioneira • Mesmo sabor • 20% maior • frutos 3 meses antes 1 hectare produz 70% mais Introdução Conhecimento: o principal fator de produção do sec. XXI

10 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Na década de 40 a Boeing projetou o bombardeiro B-17 com menos de 100 engenheiros; na década de 90 o projeto do Boeing 777 envolveu profissionais de nível superior espalhados em 8 localidades. EMBRAER: Custo da concepção >>> produção Introdução Conhecimento: o principal fator de produção do sec. XXI

11 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Um novo valor: o conteúdo {Produtos com conteúdo} Relógio de pulso da Philips com pequenas câmeras e pequenos alto-falantes acoplados que colocará as pessoas em contato via satélite. Moderno cartão postal através do qual o usuário pode capturar imagens congeladas, vídeos ou sons (Philips). {Serviços com produtos agregados} Introdução

12 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Nova Indústria? Conteúdo Informática • Computadores • Software • Interfaces • Redes de: • TV a cabo • Telefonia • Satélites • Bancos de dados • Filmes / Imagens • Música • Propaganda TeleCom Equipamentos de rede e multimídia TV a cabo e multimídia online Jogos Multimídia Interativa Introdução

13 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Surge uma organização diferente! $ $ $ @ Introdução

14 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Principais características da Sociedade do Conhecimento  Famílias cada vez menores, muitas pessoas solteiras morando sozinhas, núcleos de 1 a 3 pessoas;  Surge o trabalhador do conhecimento;  O computador e a Internet representam esta nova economia;  A indústria de serviços e de entretenimento ganha força;  Alguns produtos começam a ser distribuídos online;  As fronteiras organizacionais encontram-se cada vez mais tênues;  Surge o comércio eletrônico. Introdução

15 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Quem é o trabalhador do conhecimento? Trabalhador do Conhecimento pensar mentais não-linear informação criado Trabalhador Tradicional fazer físicas linear produto aplicado Características principal tarefa principais habilidades processo de trabalho resultado do trabalho conhecimento utilizado Introdução

16 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento • Biotecnologia • Software • Aeroespacial • Petróleo / Energia • Cultural / Entretenimento Brasil na Sociedade do Conhecimento Introdução

17 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Pontos relevantes para a Vantagem Competitiva Pontos relevantes para a Vantagem Competitiva Fonte: Mercer Marketplace 2000 Survey 00.8 Criar/Manter relacionamento com o Cliente Transformar informação em conhecimento Flexibilidade Velocidade nas ações de negócio Habilidade de inovação Crescimento da qualidade continuamente Posicionamento dos custos Investimento em RH Relacionamento com os fornecedores Percentual de Consenso Introdução

18 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento O pessoal de TECNOLOGIA acredita que:  A informação é facilmente armazenada nos computadores na forma de dados;  Criar banco de dados em computadores é o único modo de administrar a complexidade da informação;  A informação deve ser comum a toda a empresa;  As mudanças tecnológicas irão aperfeiçoar o ambiente de informações. Introdução Realidade Mundial

19 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Em vez de se concentrarem na tecnologia, os ambientes de informação devem ser basear na maneira como as pessoas criam, distribuem, compreendem e usam a informação e o conhecimento, acreditando que:  A informação não é facilmente armazenada e não é somente constituída de dados;  Quanto mais complexa a arquitetura de informações, menor será sua utilidade;  A informação e o conhecimento podem ter vários significados em uma organização;  A tecnologia é apenas um dos componentes do ambiente de informações. Introdução Realidade Mundial

20 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Caso 1 Um fabricante de satélite necessitava de um planejamento mais preciso para suas células de trabalho, de modo a cumprir um novo prazo de produção, bem mais curto. Acreditando que a tecnologia podia resolver o problema ele desenvolveu um complexo e caro ambiente de informações. Entretanto os administradores das células continuavam fornecendo dados inexatos à respeito do prazo de conclusão das tarefas. Por fim, descobriu-se que o responsável pelo problema era o fator humano: os profissionais que revelassem atraso no trabalho seriam punidos mais tarde. Introdução Realidade Mundial

21 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Caso 2 Uma empresa farmacêutica queria aperfeiçoar a troca de informações entre seus departamentos de pesquisa e de desenvolvimento. Contrataram um consultor para criar uma arquitetura que incluísse banco de dados e programas centralizados, porém o trabalho acabou não funcionando, uma vez que os pesquisadores e o pessoal do setor de desenvolvimento não chegaram a um acordo quanto as aplicações que deveriam ser utilizadas para circular os resultados das pesquisas. Decidiram que a melhor maneira de trocar informações entre projetos de pesquisa era criar equipes de desenvolvimento, cada uma com seu especialista informacional. Introdução Realidade Mundial

22 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento SOCIALIZAÇÃOEXTERNALIZAÇÃO INTERNALIZAÇÃOCOMBINAÇÃO Fonte: Nonaka & Takeuchi Brainstorming Observação Prática Interação Dedução Metáfora Analogia Incorporação Verbalização Diagramação Sistematização Classificação Ensino Fases de Conversão Introdução

23 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento SOCIALIZAÇÃOEXTERNALIZAÇÃO INTERNALIZAÇÃOCOMBINAÇÃO Fonte: Nonaka & Takeuchi Cultura:LiderançaEducaçãoTreinamento Tecnologia:FerramentasTreinamento Fases de Conversão Introdução

24 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Fonte: Baumard Aprendizagem Implícita Assimilação Consciência Interiorização Articulação Apropiação Extensão Fases de Conversão Introdução

25 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Tecnologias Data Mining Text Mining Web Mining Tecnologias Data Mining Text Mining Web Mining

26 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Data Mining (Mineração de Dados) Data Mining (Mineração de Dados)

27 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento AEWIOLBAAXAAUCQCKATGVFNUAEWIOLBAAXAAUCQCKATGVFNU DEETPOEWQGUJOOLBESDFDHBTDEETPOEWQGUJOOLBESDFDHBT YRIDVWEDEDTVMRELPKMUSXQUYRIDVWEDEDTVMRELPKMUSXQU KMURÇQAFRYNIGTIMWACLAFDEKMURÇQAFRYNIGTIMWACLAFDE EWMTCWZGHJNLCXSAZWSVGVGREWMTCWZGHJNLCXSAZWSVGVGR ORBMKDCDCERWSMYSKDFFHYLBORBMKDCDCERWSMYSKDFFHYLB ITMEXQOGRGJPSXRTYPNDESWAITMEXQOGRGJPSXRTYPNDESWA EPHZSQKAFTBHKLMDSEDEFVKBEPHZSQKAFTBHKLMDSEDEFVKB EWJLCDÇSXVBTTGLPDECBNMUGEWJLCDÇSXVBTTGLPDECBNMUG ECBJKÃLGTFFFVTNDSEHKMUWSECBJKÃLGTFFFVTNDSEHKMUWS WGYVORRDVBNMKIJUHGDXCSENWGYVORRDVBNMKIJUHGDXCSEN EKIPGFDXCESWFVGHYJUIKJNHEKIPGFDXCESWFVGHYJUIKJNH EHUKOMNFRDESACCDFVBNDJIJEHUKOMNFRDESACCDFVBNDJIJ OTGBVFDCVNMLKIÃESWAXAVBNOTGBVFDCVNMLKIÃESWAXAVBN EYOLKUJMNHGFDSORVBGHDMJYEYOLKUJMNHGFDSORVBGHDMJY WYIBGRDCSASXCVFGHJKIOOHFWYIBGRDCSASXCVFGHJKIOOHF WERTXÃNJHLGFDRTGBNHJSPAQWERTXÃNJHLGFDRTGBNHJSPAQ VMGXSWAKLCONHECIMENTOCVFVMGXSWAKLCONHECIMENTOCVF ESCBNMKLPUTGHJKKLODSXCVSESCBNMKLPUTGHJKKLODSXCVS EHJKLIBVFCÃSWAXVNMLPOKJUEHJKLIBVFCÃSWAXVNMLPOKJU QOICIRUAMKLOPIGBNDCSXAZZQOICIRUAMKLOPIGBNDCSXAZZ O Conceito de Mineração Data Mining

28 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento AEWIOLBAAXAAUCQCKATGVFNUAEWIOLBAAXAAUCQCKATGVFNU DEETPOEWQGUJOOLBESDFDHBTDEETPOEWQGUJOOLBESDFDHBT YRIDVWEDEDTVMRELPKMUSXQUYRIDVWEDEDTVMRELPKMUSXQU KMURÇQAFRYNIGTIMWACLAFDEKMURÇQAFRYNIGTIMWACLAFDE EWMTCWZGHJNLCXSAZWSVGVGREWMTCWZGHJNLCXSAZWSVGVGR ORBMKDCDCERWSMYSKDFFHYLBORBMKDCDCERWSMYSKDFFHYLB ITMEXQOGRGJPSXRTYPNDESWAITMEXQOGRGJPSXRTYPNDESWA EPHZSQKAFTBHKLMDSEDEFVKBEPHZSQKAFTBHKLMDSEDEFVKB EWJLCDÇSXVBTTGLPDECBNMUGEWJLCDÇSXVBTTGLPDECBNMUG ECBJKÃLGTFFFVTNDSEHKMUWSECBJKÃLGTFFFVTNDSEHKMUWS WGYVORRDVBNMKIJUHGDXCSENWGYVORRDVBNMKIJUHGDXCSEN EKIPGFDXCESWFVGHYJUIKJNHEKIPGFDXCESWFVGHYJUIKJNH EHUKOMNFRDESACCDFVBNDJIJEHUKOMNFRDESACCDFVBNDJIJ OTGBVFDCVNMLKIÃESWAXAVBNOTGBVFDCVNMLKIÃESWAXAVBN EYOLKUJMNHGFDSORVBGHDMJYEYOLKUJMNHGFDSORVBGHDMJY WYIBGRDCSASXCVFGHJKIOOHFWYIBGRDCSASXCVFGHJKIOOHF WERTXÃNJHLGFDRTGBNHJSPAQWERTXÃNJHLGFDRTGBNHJSPAQ VMGXSWAKLCONHECIMENTOCVFVMGXSWAKLCONHECIMENTOCVF ESCBNMKLPUTGHJKKLODSXCVSESCBNMKLPUTGHJKKLODSXCVS EHJKLIBVFCÃSWAXVNMLPOKJUEHJKLIBVFCÃSWAXVNMLPOKJU QOICIRUAMKLOPIGBNDCSXAZZQOICIRUAMKLOPIGBNDCSXAZZ O Conceito de Mineração Data Mining

29 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento •Mineração de Dados é um processo analítico concebido para explorar conjuntos de dados, de grandes dimensões, na detecção de padrões consistentes e/ou relações sistemáticas entre as variáveis, bem como validar os resultados e aplicando os padrões detectados em novos conjuntos de dados. •É uma poderosa ferramenta para análise de informação, da qual se espera revelar estruturas de conhecimento que podem direcionar as decisões. Mineração de Dados (Data Mining) Mineração de Dados (Data Mining) Data Mining

30 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Motivação  A informatização dos meios produtivos permitiu a geração de grandes volumes de dados:  Transações eletrônicas;  Novos equipamentos científicos e industriais para observação e controle;  Dispositivos de armazenamento de massa.  Aproveitamento da informação permite ganho de competitividade: “conhecimento é poder (e poder = $$$$)”;  Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução;  Decisões tomadas com base na intuição;  “Morrendo de sede por conhecimento em um oceano de informações/dados”. Data Mining

31 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Data Mining Métodos Estatísticos Análise Multivarida Redes Neurais Lógica Fuzzy Banco de Dados SQL, OLAP Computação de Alto desempenho Inteligência Artificial Sistemas Baseados em Conhecimento Métodos de Visualização Tecnologias e Métodos envolvidos em Data Mining Data Mining Han, J., Data Mining: Concepts and Techniques, Morgan Kaufmann, 2001.

32 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Diferentes Visões do Conhecimento Escondido Data Mining Dados Rasos (descobertos com SQL) Dados Multi-Dimensionais (descobertos com OLAP) Dados Escondidos (descobertos com DCBD) Dados Profundos (descobertos somente com pistas)

33 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Descoberta de Conhecimento em Bancos de Dados (DCBD)  “..... processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados”;  “Torture os dados até eles confessarem…”;  O que é um padrão interessante? (válido, novo, útil e interpretável). Data Mining

34 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento DCBD x Data Mining  Mineração de dados é um passo do processo de DCBD que produz um conjunto de padrões sob um custo computacional aceitável;  DCBD utiliza algoritmos de mineração de dados para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento, amostragem de dados e interpretação de resultados. Data Mining

35 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Etapas do Processo DCBD DADOCONHECIMENTO Seleção Interpretação / Avaliação Mineração dos Dados Transformação Pre-processamento BD INTERMEDIÁRIO DADOS PRÉ-PROCESSADOS DADOS TRANSFORMADOS PADRÕES DESCOBERTOS Data Mining

36 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Etapas do Processo DCBD DADOCONHECIMENTO Seleção Interpretação / Avaliação Mineração dos Dados Transformação Pre-processamento BD INTERMEDIÁRIO DADOS PRÉ-PROCESSADOS DADOS TRANSFORMADOS PADRÕES DESCOBERTOS • Compreensão do domínio e dos objetivos da tarefa; • Criação do conjunto de dados envolvendo as variáveis necessárias. Data Mining

37 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Etapas do Processo DCBD DADOCONHECIMENTO Seleção Interpretação / Avaliação Mineração dos Dados Transformação Pre-processamento BD INTERMEDIÁRIO DADOS PRÉ-PROCESSADOS DADOS TRANSFORMADOS PADRÕES DESCOBERTOS • Selecionar ou segmentar dados de acordo com critérios definidos. Data Mining

38 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento DADOCONHECIMENTO Seleção Interpretação / Avaliação Mineração dos Dados Transformação Pre-processamento BD INTERMEDIÁRIO DADOS PRÉ-PROCESSADOS DADOS TRANSFORMADOS PADRÕES DESCOBERTOS • Operações como:  identificação de ruídos, sujeiras, inconsistências;  tratamento da falta de dados em alguns campos; • Informações julgadas desnecessárias são removidas; • Reconfiguração dos dados para assegurar formatos consistentes (identificação). Ex. : sexo = “F” ou “M” sexo = “M” ou “H” Data Mining Pyle, D., Data Preparation for Data Mining, Morgan Kaufmann, Etapas do Processo DCBD

39 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Etapas do Processo DCBD DADOCONHECIMENTO Seleção Interpretação / Avaliação Mineração dos Dados Transformação Pre-processamento BD INTERMEDIÁRIO DADOS PRÉ-PROCESSADOS DADOS TRANSFORMADOS PADRÕES DESCOBERTOS • Redução de dimensionalidade, combinação de atributos; • Transformação dos dados em formatos utilizáveis. Esta etapa depende da técnica de mineração dos dados a ser adotada; • Disponibilizar os dados de maneira utilizável e navegável. Data Mining

40 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Etapas do Processo DCBD DADOCONHECIMENTO Seleção Interpretação / Avaliação Mineração dos Dados Transformação Pre-processamento BD INTERMEDIÁRIO DADOS PRÉ-PROCESSADOS DADOS TRANSFORMADOS PADRÕES DESCOBERTOS • Escolha e execução do algoritmo de aprendizagem de acordo com a tarefa a ser cumprida na busca de um certo tipo de padrão interessante: • Descoberta de Regras de Associação; • Classificação; e/ou • Agrupamento (cluster); • É a verdadeira extração dos padrões de comportamento dos dados. Data Mining • Fácil de ser entendido; • Inesperado; • Potencialmente útil; • Acontece com um certo grau de segurança; • Confirma uma hipótese feita pelo usuário.

41 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Cada registro corresponde a uma transação de um cliente, com itens assumindo valores binários (sim/não), indicando se o cliente comprou ou não o respectivo item. Descoberta de Regras de Associação Data Mining SE (café) ENTÃO (pão) sup=0.3 conf.=1 SE (café) ENTÃO (manteiga) sup=0.3 conf.=1 SE (pão) ENTÃO (manteiga) sup=0.4 conf.=0.8 SE (manteiga) ENTÃO (pão) sup=0.4 conf.=0.8 SE (café E pão) ENTÃO (manteiga) sup=0.3 conf.=1 SE (café E manteiga) ENTÃO (manteiga) sup=0.3 conf.=1 SE (café) ENTÃO (manteiga E manteiga) sup=0.3 conf.=1

42 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento NomeIdadeRendaProfissãoClasse Daniel≤ 30MédiaEstudanteSim João31..50Média-AltaProfessorSim Carlos31..50Média-AltaMédicoSim Maria31..50BaixaVendedoraNão Paulo≤ 30BaixaPorteiroNão Otavio> 60Média-AltaAposentadoNão Classificação Data Mining IDADE RENDA PROFISSÃO ≤ 30 B M A > Prof Vend Eng Não Sim Não Sim Árvore de Decisão Med M-A Se Idade ≤ 30 e Renda é Baixa então Não compra Eletrônico Se Idade = e Prof é Médico então compra Eletrônico

43 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Esta técnica agrupa informações homogêneas de grupos heterogêneos entre os demais e aponta o item que melhor representa cada grupo, permitindo, desta forma, que consigamos perceber a característica de cada grupo. Agrupamento (Cluster Analisys)  BD com n amostras  K = número de clusters  desejado (parâmetro)  K ≤ n Data Mining

44 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Clusterização versus Classificação  Classificação –Aprendizado Supervisionado  Amostras de treinamento são classificadas  Número de Classes é conhecido –Aprendizado por Exemplo  Clusterização –Aprendizado Não Supervisionado –Aprendizado por Observação Data Mining

45 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Etapas do Processo DCBD DADOCONHECIMENTO Seleção Interpretação / Avaliação Mineração dos Dados Transformação Pre-processamento BD INTERMEDIÁRIO DADOS PRÉ-PROCESSADOS DADOS TRANSFORMADOS PADRÕES DESCOBERTOS • Interpretação dos resultados, com possível retorno aos passos anteriores; • Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas. Data Mining

46 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Etapas do Processo DCBD DADOCONHECIMENTO Seleção Interpretação / Avaliação Mineração dos Dados Transformação Pre-processamento BD INTERMEDIÁRIO DADOS PRÉ-PROCESSADOS DADOS TRANSFORMADOS PADRÕES DESCOBERTOS • Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados. Data Mining

47 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Vendas: • Identificar padrões de comportamento dos consumidores; • Encontrar características dos consumidores de acordo com a região demográficas; • Prever quais consumidores serão atingidos nas campanhas de marketing; • Campanhas de marketing direto (mailing campaigns); • Identificar consumidores “leais”. Finanças: • Detectar padrões de fraudes no uso dos cartões de crédito; • Identificar os consumidores que estão tendendo a mudar a companhia do cartão de crédito. Áreas de Aplicação Seguros e Planos de Saúde: • Determinar quais procedimentos médicos são requisitados ao mesmo tempo; • Prever quais consumidores comprarão novas apólices; • Identificar comportamentos fraudulentos. Medicina: • Caracterizar o comportamento dos pacientes para prever novas consultas; • Identificar terapias de sucessos para diferentes tratamentos. Transporte: • Determinar a distribuição dos horários entre os vários caminhos; • Analisar padrões de sobrecarga. Data Mining

48 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento W Wall Mart - Fraldas e cervejas –O que as cervejas tem a ver com as fraldas? –homens casados, entre 25 e 30 anos; –compravam fraldas e/ou cervejas às sextas- feiras à tarde no caminho do trabalho para casa; –Wall-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; –Resultado: o consumo cresceu 30%. Exemplo - 1 Data Mining

49 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento W Bank of America –Selecionou entre seus 36 milhões de clientes •Aqueles com menor risco de dar calotes; •Tinham filhos com idades entre 18 e 21 anos; •Resultado: em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos. Exemplo - 2 Data Mining

50 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento  Mineração de dados é um processo que permite compreender o comportamento dos dados;  O processo de mineração analisa os dados usando técnicas de aprendizagem para encontrar padrões e regularidades nestes conjuntos de dados;  É um problema multi-disciplinar, envolvendo Inteligência Artificial, Estatística, Computação Gráfica, Banco de Dados, etc;  Pode ser aplicado em diversas áreas.  Site interessantes:  Portal de sobre data/text/web mining:  Busca baseada em clusterização: clusty.com  Software Livre: • WEKA: • CLUTO / gCLUTO: • CBA / IAS: Resumo Data Mining

51 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Text Mining (Mineração de Textos) Text Mining (Mineração de Textos)

52 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Definição Text Mining

53 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Aplicações u Marketing: Descoberta de grupos distintos de potenciais compradores de acordo com os perfis textuais preenchidos por pessoas. Ex: encarte de revista u Negócio: Identificação de competidores através da análise das páginas web. u Busca de emprego: Identificação de parâmetros nas pesquisas de emprego. Ex.: Text Mining

54 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento   Apólices de Seguro  Artigos de Jornal  Páginas Web  Patentes  Artigos Científicos  Cartas de Clientes  Contratos  Transcriçõs de telefonemas  Documentos Técnicos Conhecimento Corporativo Text Mining

55 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento  Recuperação de Informação –Indexação e recuperação de documentos textuais  Extração de Informação –Extração de conhecimentos a partir de documentos textuais  Agrupamento de texto (Clustering) –Geração de coleções de documentos textuais similares  Web Mining –Indexação e recuperação de documentos textuais e extração de conhecimentos a partir de documentos textuais usando a Web Métodos Text Mining

56 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento  Documentos textuais  Necessidade de pesquisa baseada em texto Sistema RI Pesquisa Ex.: Lua / Imagem Documentos fonte •Encontra: • Um conjunto de documentos (ordenados) relevantes para atender a pesquisa Documentos Ordenados Documento Recuperação de Informação Text Mining

57 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Sistema de Extração Documentos fonte Documentos Ordenados Info Relevante 1 Info Relevante 2 Info Relevante 3 Pesquisa 1 (ex.: título emprego) Pesquisa 2 (ex.: salário) Combinando o resultado da Pesquisa Extração de Informação  É dado: –A fonte de documentos textuais –Um grupo limitado para busca baseada em texto  Encontra: relevante –Sentenças com informação relevante –Extrai a informação relevante e ignora as informações irrelevantes –Conecta a informação relevante e executa a saída da mesma em um formato pré-definido Text Mining

58 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Notícia u Salvadoran President-elect Alfredo Cristiania condemned the terrorist killing of Attorney General Roberto Garcia Alvarado and accused the Farabundo Marti Natinal Liberation Front (FMLN) of the crime. … Garcia Alvarado, 56, was killed when a bomb placed by urban guerillas on his vehicle exploded as it came to a halt at an intersection in downtown San Salvador. … According to the police and Garcia Alvarado’s driver, who escaped unscathed, the attorney general was traveling with two bodyguards. One of them was injured.  Data do Incidente: 19 Abr 1989  Tipo do Incidente: Atentado à bomba  Perpetrador: “guerilhas urbanas”  Nome do alvo humano: “Roberto Garcia Alvarado ” ... Extração de Informação Text Mining

59 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento foodscience.com-Job2 JobTitle: Ice Cream Guru Employer: foodscience.com JobCategory: Travel/Hospitality JobFunction: Food Services JobLocation: Upper Midwest Contact Phone: DateExtracted: January 8, 2001 Source: OtherCompanyJobs: foodscience.com-Job1 Extração de Informação Text Mining

60 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento  É dado: –Documentos textuais –Medida de similiraridade •Ex.: quantas palavras são comuns nestes documentos Sistema de Agrupamento Medida de similaridade Documentos fonte Doc •Encontra: • Vários agrupamentos de documentos relevantes Agrupamento de Texto Text Mining

61 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento “Pesquisar” versus “Descobrir” Data Mining Text Mining Recuperação de Dado Recuperação da Informação PesquisarDescobrir Dado Estruturado Dado não estruturado (Texto) Text Mining

62 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Desafios do Text Mining  Grande número de dimensões possíveis para pesquisa e análise: –Todas as possíveis tipos de palavras e frases em uma língua  Complexidade dos relacionamentos entre os diversos conceitos encontrados em um texto: –“AOL se funde com a Time-Warner” –“Time-Warner é comprada pela AOL”  Ambigüidade e sensibilidade ao contexto –automóvel = carro = veículo = Toyota –Apple (a empresa) ou apple (a fruta) Text Mining

63 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Text Mining: Exemplos  Ex 1: Suporte à decisão em CRM -O que os clientes normalmente reclamam? -Qual é a tendência do número de clientes satisfeitos em Curitiba?  Ex 2: Gestão do conhecimento –Procura por pessoas e competências.  Ex 3: Personalização no e-Bussiness -Sugestão de produtos mais ajustados ao perfil de interesse do cliente (baseado na informação de personalidade de compra). Text Mining

64 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Ferramentas Comerciais  IBM Intelligent Miner for Text  Semio Map  InXight LinguistX / ThingFinder  LexiQuest  ClearForest  Temis  SRA NetOwl Extractor  Autonomy Text Mining

65 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Web Mining (Mineração de Páginas Web) Web Mining (Mineração de Páginas Web)

66 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Visão Geral  World Wide Web –O enorme crescimento do número de fontes de informação disponíveis na Web tornou imperativo o uso de ferramentas automatizadas para a busca, extração, filtragem e avaliação de recursos e informações; –Com a transformação da Web no principal meio para a realização do comércio eletrônico, é fundamental para as empresas, que investem milhões em tecnologias internet e intranet, rastrear e analisar os padrões de acesso dos usuários. Web Mining

67 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Visão Geral Uma combinação natural... Data/Text Mining World Wide Web  As duas áreas têm o mesmo desafio: extração de informação relevante à partir de um volume enorme de dados;  A natureza semi-estruturada ou não estruturada, distribuída, heterogênea e dinâmica dos dados na Web é o principal complicador. Web Mining Web Content Mining Web Content Mining Web Usage Mining Web Usage Mining

68 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento  Web Content Mining –Ferramentas tradicionais de busca e indexação como Alta Vista, Lycos, WebCrawler e outros não conseguem, de um modo geral, prover informação estrutural e nem categorizar, filtrar e interpretar documentos –O problema tem sido atacado de duas formas: •ferramentas mais inteligentes para a recuperação de informação: agentes inteligentes ou rôbos; •extensão de técnicas de banco de dados e data mining visando a obtenção de um nível mais alto de organização dos dados semi-estruturados disponíveis na Web. –Abordagens baseadas em agentes inteligentes •Agentes de busca •Agentes para filtragem/categorização de informação •Agentes personalizados –Abordagens baseadas em banco de dados Visão Geral Web Mining

69 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento  Web Usage Mining –Estratégias e técnicas para análise de mercado têm sito revisitadas dentro do novo contexto da Web; –Volumes enormes de dados são gerados e coletados automaticamente pelos servidores Web; –A análise destes dados pode trazer diversos benefícios: •Estabelecimento de estratégias de marketing; •Determinação da eficácia de campanhas promocionais; •Descoberta de padrões de comportamento de navegação no web site; •Melhor estruturação do Web site; •Melhor gerenciamento da infra-estrutura. Visão Geral Web Mining

70 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Que dado na Web está sendo minerado?  Conteúdo – dados a partir dos documentos Web – textos e gráficos;  Estrutura – dados a partir da estrutura Web – HTML ou tags XML;  Uso – dados a partir do log do Site Web – endereço IP, data e tempo de acesso, navegação no site web (clickstream);  Perfil de usuário – dados específicos do usuário – registro e perfil do cliente. Visão Geral Web Mining

71 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Sistema RI / EI Pesquisa Documentos fonte Documentos ordenados 1. Doc1 2. Doc2 3. Doc3. Web Spider Visão Geral Web Mining

72 © Mauricio Administração em Sistemas de Informação Soluções na Era do Conhecimento Mauricio Abreu UFF / COPPE / CRIE CASI


Carregar ppt "“Conhecimento é o melhor investimento que podemos fazer....”Einstein."

Apresentações semelhantes


Anúncios Google