“Conhecimento é o melhor investimento que podemos fazer....” Einstein.

Slides:



Advertisements
Apresentações semelhantes
Teoria e Prática Prof.Ms. Nilson Aguilar
Advertisements

‘ Por que estudar sistemas de informação?
Administração de Sistemas de Informação
Objetivos do Capítulo Explicar por que o conhecimento dos sistemas de informação é importante para os profissionais das empresas e identificar as cinco.
Sistema de Informação Gerencial
INTELIGÊNGIA COMPUTACIONAL
Customer Relationship Management
Felipe Carvalho – UFES 2009/2
Disciplina:Tópicos Avançados de Sistemas de Informação
Sistema de Informação Professores Edson E. Scalabrin Marcos A. H. Shmeil telefone: 0xx {scalabrin, download:
Universidade Federal do Paraná
Tendências do mercado Consumidor
Gestão de Empresas na Sociedade do Conhecimento
Mineração de Dados ou Descoberta de conhecimento em BDs
Mineração de Dados Introdução.
ESTRATÉGIAS DE MARKETING
34 © 2004 by Pearson Education Liquidez Liquidez é um conceito econômico que considera a facilidade com que um ativo pode ser convertido no meio de troca.
Cadeia de Valor Fatores Críticos de Sucesso
Business Intelligence – BI Análise de sistemas de informação
Visão Geral do Desenvolvimento de Sistemas e Papéis no Desenvolvimento de Software Marcely Dias
ENTERPRISE RESOURSE PLANNING
Sistema de Informação Pós graduação em gestão de RH
Gestão do Conhecimento com WINISIS
Categorias do E-Business
gestão em inteligência competitiva
Data Mining como ferramenta de Gestão
Data Warehouse & Data Mining
Link Mining Víctor Medeiros.
Universidade São Marcos Curso: Gestão de Negócios Internacionais
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
Metolodogia de Desenvolvimento de Data Warehouse
IFSul – Campus Venâncio Aires
Tema Gestão do Conhecimento:.
Gerenciamento de Dados
Prof. Cárbio Almeida Waqued
Tecnologia da Informação
Tecnologia da informação
Tema Gestão do Conhecimento:.
Planejamento de recursos empresariais (ERP)
BI - Conceito É o conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apóia a tomada de decisões.
Profª. Selma Maria da Silva
GESTÃO DAS INFORMAÇÕES DA ORGANIZAÇÃO
Nomes: Alice C.Cazalli Allison Willian Everton Costa Denis A. Araujo
Recuperação de Informação
Por que estudar sistemas de informação?
Sistemas de Informação e as decisões gerenciais na era da Internet
SATISFAÇÃO, VALOR E RETENÇÃO DE CLIENTES
Administração 2°semestre - Aula 1
Sistemas de Informação
Objetivos do Capítulo Explicar a importância da implementação de processos e tecnologias de gerenciamento de dados numa organização. Explicar as vantagens.
Sistemas de Informações Gerenciais
Gabriel Bastos Machado
Aplicações de redes em sistemas de informação
Estruturas Organizacionais
 São métodos formais de tornar disponíveis para a administração, quando oportuno, as informações necessárias para facilitar o processo de tomada de.
Mineração de Dados: Introdução
Segmentação e Posicionamento de Mercado
TIPOS DE SISTEMAS DE INFORMAÇÃO BASEADOS NA WEB
Banco de Dados Representa o arquivo físico de dados, armazenado em dispositivos periféricos, para consulta e atualização pelo usuário. Possui uma série.
Gestão do Conhecimento e da Informação
 São métodos formais de tornar disponíveis para a administração, quando oportuno, as informações necessárias para facilitar o processo de tomada de decisão.
Disciplina: Inteligência Artificial
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Projeto de Redes 4º Semestre Aula 3 Prof. Carlos Vinícius SERVIÇO NACIONAL DE APRENDIZAGEM COMERCIAL FACULDADE DE TECNOLOGIA SENAC.
Introdução à Administração
Objetivos do Capítulo Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel.
Informação Nos últimos 30 anos do século XX, foram produzidas mais informações do que nos cinco mil anos anteriores. Nos últimos 30 anos do século XX,
Internet - Intranet - Extranet Internet Rede pública mundial Padrões e protocolos multiplataforma Intranet Rede privada, corporativa Mesmos protocolos.
Transcrição da apresentação:

“Conhecimento é o melhor investimento que podemos fazer....” Einstein

e Sistemas de Informação Administração e Sistemas de Informação Mauricio Abreu MSc sumnet.consultores@gmail.com Data, Text e Web Mining

Agenda Geral Tecnologias: Data Warehouse, Data Mart, Metadado e ODS; Data / Text / Web Mining; BPM; Portal Corporativo. Agenda Geral

Introdução Tecnologias: Data Mining Text Mining Web Mining Agenda

Introdução

Fatores de Produção da Economia Realidade Mundial Fatores de Produção da Economia TRABALHO CONHECIMENTO @ Introdução CAPITAL TERRA Conhecimento: 55% da riqueza mundial (OCDE: 2000)

Realidade Mundial Introdução

Conhecimento: o principal fator de produção do sec. XXI “Palm top”: tem mais memória que toda a capacidade de memória existente em 1961! Computadores: 8.000 x mais baratos que há 30 anos Introdução Se o Mercedes classe A tivesse a mesma evolução: custaria U$ 2 andaria na velocidade do som 800 km com 1l de gasolina

Conhecimento: o principal fator de produção do sec. XXI Sigatoga amarela x banana pioneira Mesmo sabor 20% maior frutos 3 meses antes Introdução 1 hectare produz 70% mais

Conhecimento: o principal fator de produção do sec. XXI Na década de 40 a Boeing projetou o bombardeiro B-17 com menos de 100 engenheiros; na década de 90 o projeto do Boeing 777 envolveu 5.600 profissionais de nível superior espalhados em 8 localidades. EMBRAER: Custo da concepção >>> produção Introdução

Um novo valor: o conteúdo {Serviços com produtos agregados} {Produtos com conteúdo} Introdução Relógio de pulso da Philips com pequenas câmeras e pequenos alto-falantes acoplados que colocará as pessoas em contato via satélite. Moderno cartão postal através do qual o usuário pode capturar imagens congeladas, vídeos ou sons (Philips).

Nova Indústria? Introdução Conteúdo TV a cabo e multimídia online Equipamentos de rede e multimídia Bancos de dados Filmes / Imagens Música Propaganda TV a cabo e multimídia online Introdução Multimídia Interativa TeleCom Informática Redes de: TV a cabo Telefonia Satélites Computadores Software Interfaces Jogos

Surge uma organização diferente! $ @ Introdução

Principais características da Sociedade do Conhecimento Famílias cada vez menores, muitas pessoas solteiras morando sozinhas, núcleos de 1 a 3 pessoas; Surge o trabalhador do conhecimento; O computador e a Internet representam esta nova economia; A indústria de serviços e de entretenimento ganha força; Alguns produtos começam a ser distribuídos online; As fronteiras organizacionais encontram-se cada vez mais tênues; Surge o comércio eletrônico. Introdução

Quem é o trabalhador do conhecimento? Trabalhador Tradicional fazer físicas linear produto aplicado Trabalhador do Conhecimento pensar mentais não-linear informação criado Características principal tarefa principais habilidades processo de trabalho resultado do trabalho conhecimento utilizado Introdução

Brasil na Sociedade do Conhecimento Biotecnologia Software Introdução Aeroespacial Petróleo / Energia Cultural / Entretenimento

Pontos relevantes para a Vantagem Competitiva Percentual de Consenso Criar/Manter relacionamento com o Cliente Transformar informação em conhecimento Flexibilidade Velocidade nas ações de negócio Habilidade de inovação Crescimento da qualidade continuamente Posicionamento dos custos Investimento em RH Relacionamento com os fornecedores Introdução 0.8 Fonte: Mercer Marketplace 2000 Survey

Realidade Mundial Introdução O pessoal de TECNOLOGIA acredita que: A informação é facilmente armazenada nos computadores na forma de dados; Criar banco de dados em computadores é o único modo de administrar a complexidade da informação; A informação deve ser comum a toda a empresa; As mudanças tecnológicas irão aperfeiçoar o ambiente de informações. Introdução

Realidade Mundial Introdução Em vez de se concentrarem na tecnologia, os ambientes de informação devem ser basear na maneira como as pessoas criam, distribuem, compreendem e usam a informação e o conhecimento, acreditando que: A informação não é facilmente armazenada e não é somente constituída de dados; Quanto mais complexa a arquitetura de informações, menor será sua utilidade; A informação e o conhecimento podem ter vários significados em uma organização; A tecnologia é apenas um dos componentes do ambiente de informações. Introdução

Realidade Mundial Introdução Caso 1 Um fabricante de satélite necessitava de um planejamento mais preciso para suas células de trabalho, de modo a cumprir um novo prazo de produção, bem mais curto. Acreditando que a tecnologia podia resolver o problema ele desenvolveu um complexo e caro ambiente de informações. Entretanto os administradores das células continuavam fornecendo dados inexatos à respeito do prazo de conclusão das tarefas. Por fim, descobriu-se que o responsável pelo problema era o fator humano: os profissionais que revelassem atraso no trabalho seriam punidos mais tarde. Introdução

Realidade Mundial Introdução Caso 2 Uma empresa farmacêutica queria aperfeiçoar a troca de informações entre seus departamentos de pesquisa e de desenvolvimento. Contrataram um consultor para criar uma arquitetura que incluísse banco de dados e programas centralizados, porém o trabalho acabou não funcionando, uma vez que os pesquisadores e o pessoal do setor de desenvolvimento não chegaram a um acordo quanto as aplicações que deveriam ser utilizadas para circular os resultados das pesquisas. Decidiram que a melhor maneira de trocar informações entre projetos de pesquisa era criar equipes de desenvolvimento, cada uma com seu especialista informacional. Introdução

Fonte: Nonaka & Takeuchi Fases de Conversão Brainstorming Observação Prática Interação Dedução Metáfora Analogia EM CONHECIMENTO TÁCITO EXPLÍCITO SOCIALIZAÇÃO EXTERNALIZAÇÃO Introdução TÁCITO DO CONHECIMENTO INTERNALIZAÇÃO COMBINAÇÃO EXPLÍCITO Incorporação Verbalização Diagramação Sistematização Classificação Ensino Fonte: Nonaka & Takeuchi

Fonte: Nonaka & Takeuchi Fases de Conversão EM CONHECIMENTO TÁCITO EXPLÍCITO Cultura: Liderança Educação Treinamento Tecnologia: Ferramentas Treinamento SOCIALIZAÇÃO EXTERNALIZAÇÃO Introdução TÁCITO DO CONHECIMENTO INTERNALIZAÇÃO COMBINAÇÃO EXPLÍCITO Fonte: Nonaka & Takeuchi

Aprendizagem Implícita Fases de Conversão INDIVIDUAL COLETIVO Apropiação Extensão Introdução EXPLÍCITO Consciência Articulação Assimilação Interiorização TÁCITO Aprendizagem Implícita Fonte: Baumard

Tecnologias Data Mining Text Mining Web Mining

Data Mining (Mineração de Dados)

O Conceito de Mineração W I O L B X U C Q K T G V F N D E T P O W Q G U J L B S F H Y R I D V W E T M L P K U S X Q K M U R Ç Q A F Y N I G T W C L D E E W M T C Z G H J N L X S A V R O R B M K D C E W S Y F H L I T M E X Q O G R J P S Y N D W A E P H Z S Q K A F T B L M D V E W J L C D Ç S X V B T G P N M U E C B J K Ã L G T F V N D S H M U W W G Y V O R D B N M K I J U H X C S E E K I P G F D X C S W V H Y J U N E H U K O M N F R D S A C V B J I O T G B V F D C N M L K I Ã E S W A X E Y O L K U J M N H G F D S R V B W Y I B G R D C S A X V F H J K O W E R T X Ã N J H L G F D B S P A Q V M G X S W A K L C O N H E I T F E S C B N M K L P U T G H J O D X V E H J K L I B V F C Ã S W A X N M P O U Q O I C R U A M K L P G B N D S X Z Data Mining

O Conceito de Mineração W I O L B X U C Q K T G V F N D E T P O W Q G U J L B S F H Y R I D V W E T M L P K U S X Q K M U R Ç Q A F Y N I G T W C L D E E W M T C Z G H J N L X S A V R O R B M K D C E W S Y F H L I T M E X Q O G R J P S Y N D W A E P H Z S Q K A F T B L M D V E W J L C D Ç S X V B T G P N M U E C B J K Ã L G T F V N D S H M U W W G Y V O R D B N M K I J U H X C S E E K I P G F D X C S W V H Y J U N E H U K O M N F R D S A C V B J I O T G B V F D C N M L K I Ã E S W A X E Y O L K U J M N H G F D S R V B W Y I B G R D C S A X V F H J K O W E R T X Ã N J H L G F D B S P A Q V M G X S W A K L C O N H E I T F E S C B N M K L P U T G H J O D X V E H J K L I B V F C Ã S W A X N M P O U Q O I C R U A M K L P G B N D S X Z Data Mining

Mineração de Dados Data Mining (Data Mining) Mineração de Dados é um processo analítico concebido para explorar conjuntos de dados, de grandes dimensões, na detecção de padrões consistentes e/ou relações sistemáticas entre as variáveis, bem como validar os resultados e aplicando os padrões detectados em novos conjuntos de dados. É uma poderosa ferramenta para análise de informação, da qual se espera revelar estruturas de conhecimento que podem direcionar as decisões. Data Mining

Motivação A informatização dos meios produtivos permitiu a geração de grandes volumes de dados: Transações eletrônicas; Novos equipamentos científicos e industriais para observação e controle; Dispositivos de armazenamento de massa. Aproveitamento da informação permite ganho de competitividade: “conhecimento é poder (e poder = $$$$)”; Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução; Decisões tomadas com base na intuição; “Morrendo de sede por conhecimento em um oceano de informações/dados”. Data Mining

Tecnologias e Métodos envolvidos em Data Mining Banco de Dados SQL, OLAP Computação de Alto desempenho Métodos Estatísticos Análise Multivarida Data Mining Data Mining Métodos de Visualização Redes Neurais Lógica Fuzzy Inteligência Artificial Sistemas Baseados em Conhecimento Han, J., Data Mining: Concepts and Techniques, Morgan Kaufmann, 2001.

Diferentes Visões do Conhecimento Escondido Data Mining Dados Rasos (descobertos com SQL) Dados Multi-Dimensionais (descobertos com OLAP) Dados Escondidos (descobertos com DCBD) Dados Profundos (descobertos somente com pistas)

Descoberta de Conhecimento em Bancos de Dados (DCBD) “..... processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados”; “Torture os dados até eles confessarem…”; O que é um padrão interessante? (válido, novo, útil e interpretável). Data Mining

DCBD x Data Mining Data Mining Mineração de dados é um passo do processo de DCBD que produz um conjunto de padrões sob um custo computacional aceitável; DCBD utiliza algoritmos de mineração de dados para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento, amostragem de dados e interpretação de resultados. Data Mining

Etapas do Processo DCBD Interpretação / Avaliação CONHECIMENTO Mineração dos Dados Transformação Data Mining Pre-processamento PADRÕES DESCOBERTOS Seleção DADOS TRANSFORMADOS DADOS PRÉ-PROCESSADOS DADO BD INTERMEDIÁRIO

Etapas do Processo DCBD Interpretação / Avaliação CONHECIMENTO Mineração dos Dados Compreensão do domínio e dos objetivos da tarefa; Criação do conjunto de dados envolvendo as variáveis necessárias. Transformação Data Mining Pre-processamento PADRÕES DESCOBERTOS Seleção DADOS TRANSFORMADOS DADOS PRÉ-PROCESSADOS DADO BD INTERMEDIÁRIO

Etapas do Processo DCBD Interpretação / Avaliação CONHECIMENTO Mineração dos Dados Selecionar ou segmentar dados de acordo com critérios definidos. Transformação Data Mining Pre-processamento PADRÕES DESCOBERTOS Seleção DADOS TRANSFORMADOS DADOS PRÉ-PROCESSADOS DADO BD INTERMEDIÁRIO

Etapas do Processo DCBD Interpretação / Avaliação Operações como: identificação de ruídos, sujeiras, inconsistências; tratamento da falta de dados em alguns campos; Informações julgadas desnecessárias são removidas; Reconfiguração dos dados para assegurar formatos consistentes (identificação). Ex. : sexo = “F” ou “M” sexo = “M” ou “H” CONHECIMENTO Mineração dos Dados Transformação Data Mining Pre-processamento PADRÕES DESCOBERTOS Seleção DADOS TRANSFORMADOS DADOS PRÉ-PROCESSADOS DADO BD INTERMEDIÁRIO Pyle, D., Data Preparation for Data Mining, Morgan Kaufmann, 1999.

Etapas do Processo DCBD Interpretação / Avaliação CONHECIMENTO Mineração dos Dados Transformação Data Mining Pre-processamento Redução de dimensionalidade, combinação de atributos; Transformação dos dados em formatos utilizáveis. Esta etapa depende da técnica de mineração dos dados a ser adotada; Disponibilizar os dados de maneira utilizável e navegável. PADRÕES DESCOBERTOS Seleção DADOS TRANSFORMADOS DADOS PRÉ-PROCESSADOS DADO BD INTERMEDIÁRIO

Etapas do Processo DCBD Interpretação / Avaliação CONHECIMENTO Mineração dos Dados Escolha e execução do algoritmo de aprendizagem de acordo com a tarefa a ser cumprida na busca de um certo tipo de padrão interessante: Descoberta de Regras de Associação; Classificação; e/ou Agrupamento (cluster); É a verdadeira extração dos padrões de comportamento dos dados. Transformação Data Mining Pre-processamento PADRÕES DESCOBERTOS Seleção DADOS TRANSFORMADOS Fácil de ser entendido; Inesperado; Potencialmente útil; Acontece com um certo grau de segurança; Confirma uma hipótese feita pelo usuário. DADOS PRÉ-PROCESSADOS DADO BD INTERMEDIÁRIO

Descoberta de Regras de Associação Cada registro corresponde a uma transação de um cliente, com itens assumindo valores binários (sim/não), indicando se o cliente comprou ou não o respectivo item. Data Mining SE (café) ENTÃO (pão) sup=0.3 conf.=1 SE (café) ENTÃO (manteiga) sup=0.3 conf.=1 SE (pão) ENTÃO (manteiga) sup=0.4 conf.=0.8 SE (manteiga) ENTÃO (pão) sup=0.4 conf.=0.8 SE (café E pão) ENTÃO (manteiga) sup=0.3 conf.=1 SE (café E manteiga) ENTÃO (manteiga) sup=0.3 conf.=1 SE (café) ENTÃO (manteiga E manteiga) sup=0.3 conf.=1

Data Mining Classificação Nome Idade Renda Profissão Classe Daniel ≤ 30 Média Estudante Sim João 31..50 Média-Alta Professor Carlos Médico Maria Baixa Vendedora Não Paulo Porteiro Otavio > 60 Aposentado Data Mining IDADE RENDA PROFISSÃO ≤ 30 B M A >60 51-60 Prof Vend Eng Não Sim Árvore de Decisão Med M-A 31-50 Se Idade ≤ 30 e Renda é Baixa então Não compra Eletrônico Se Idade = 31-50 e Prof é Médico então compra Eletrônico

Agrupamento (Cluster Analisys) Esta técnica agrupa informações homogêneas de grupos heterogêneos entre os demais e aponta o item que melhor representa cada grupo, permitindo, desta forma, que consigamos perceber a característica de cada grupo. BD com n amostras K = número de clusters desejado (parâmetro) K ≤ n Data Mining

Clusterização versus Classificação Aprendizado Supervisionado Amostras de treinamento são classificadas Número de Classes é conhecido Aprendizado por Exemplo Clusterização Aprendizado Não Supervisionado Aprendizado por Observação Data Mining

Etapas do Processo DCBD Interpretação / Avaliação CONHECIMENTO Mineração dos Dados Transformação Data Mining Pre-processamento PADRÕES DESCOBERTOS Interpretação dos resultados, com possível retorno aos passos anteriores; Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas. Seleção DADOS TRANSFORMADOS DADOS PRÉ-PROCESSADOS DADO BD INTERMEDIÁRIO

Etapas do Processo DCBD Interpretação / Avaliação CONHECIMENTO Mineração dos Dados Transformação Data Mining Pre-processamento PADRÕES DESCOBERTOS Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados. Seleção DADOS TRANSFORMADOS DADOS PRÉ-PROCESSADOS DADO BD INTERMEDIÁRIO

Áreas de Aplicação Data Mining Vendas: Finanças: Identificar padrões de comportamento dos consumidores; Encontrar características dos consumidores de acordo com a região demográficas; Prever quais consumidores serão atingidos nas campanhas de marketing; Campanhas de marketing direto (mailing campaigns); Identificar consumidores “leais”. Finanças: Detectar padrões de fraudes no uso dos cartões de crédito; Identificar os consumidores que estão tendendo a mudar a companhia do cartão de crédito. Data Mining Seguros e Planos de Saúde: Determinar quais procedimentos médicos são requisitados ao mesmo tempo; Prever quais consumidores comprarão novas apólices; Identificar comportamentos fraudulentos. Medicina: Caracterizar o comportamento dos pacientes para prever novas consultas; Identificar terapias de sucessos para diferentes tratamentos. Transporte: Determinar a distribuição dos horários entre os vários caminhos; Analisar padrões de sobrecarga.

Exemplo - 1 Data Mining Wall Mart - Fraldas e cervejas O que as cervejas tem a ver com as fraldas? homens casados, entre 25 e 30 anos; compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa; Wall-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; Resultado: o consumo cresceu 30% . Data Mining

Exemplo - 2 Data Mining Bank of America Selecionou entre seus 36 milhões de clientes Aqueles com menor risco de dar calotes; Tinham filhos com idades entre 18 e 21 anos; Resultado: em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos. Data Mining

Resumo Mineração de dados é um processo que permite compreender o comportamento dos dados; O processo de mineração analisa os dados usando técnicas de aprendizagem para encontrar padrões e regularidades nestes conjuntos de dados; É um problema multi-disciplinar, envolvendo Inteligência Artificial, Estatística, Computação Gráfica, Banco de Dados, etc; Pode ser aplicado em diversas áreas. Site interessantes: Portal de sobre data/text/web mining: www.kdnuggets.com Busca baseada em clusterização: clusty.com Software Livre: WEKA: www.cs.waikato.ac.nz/ml/weka CLUTO / gCLUTO: http://www-users.cs.umn.edu/~karypis/cluto/ CBA / IAS: www.comp.nus.edu.sg/~dm2/p_download.html Data Mining

Text Mining (Mineração de Textos)

Definição Text Mining

Aplicações Text Mining Marketing: Descoberta de grupos distintos de potenciais compradores de acordo com os perfis textuais preenchidos por pessoas. Ex: encarte de revista Negócio: Identificação de competidores através da análise das páginas web. Busca de emprego: Identificação de parâmetros nas pesquisas de emprego. Ex.: www.monster.com Text Mining

Conhecimento Corporativo E-mail Apólices de Seguro Artigos de Jornal Páginas Web Patentes Artigos Científicos Cartas de Clientes Contratos Transcriçõs de telefonemas Documentos Técnicos Text Mining Examples are: Letters from customers, email correspondence, recordings of phone calls with customers, contracts, technical documentation, patents, etc. With ever dropping prices of mass storage, companies collect more and more of such data. But what can we get from this data? That’s where text mining comes in. The goal of text mining is to extract knowledge from this ninety percent unstructured masses of text.

Métodos Text Mining Recuperação de Informação Extração de Informação Indexação e recuperação de documentos textuais Extração de Informação Extração de conhecimentos a partir de documentos textuais Agrupamento de texto (Clustering) Geração de coleções de documentos textuais similares Web Mining Indexação e recuperação de documentos textuais e extração de conhecimentos a partir de documentos textuais usando a Web Text Mining

Recuperação de Informação Documentos textuais Necessidade de pesquisa baseada em texto Documentos fonte Text Mining Sistema RI Pesquisa Ex.: Lua / Imagem Documento Encontra: Um conjunto de documentos (ordenados) relevantes para atender a pesquisa Documento Documentos Ordenados Documento

Extração de Informação É dado: A fonte de documentos textuais Um grupo limitado para busca baseada em texto Documentos fonte Pesquisa 1 (ex.: título emprego) Pesquisa 2 (ex.: salário) Sistema de Extração Text Mining Combinando o resultado da Pesquisa Encontra: Sentenças com informação relevante Extrai a informação relevante e ignora as informações irrelevantes Conecta a informação relevante e executa a saída da mesma em um formato pré-definido Documentos Ordenados Info Relevante 1 Info Relevante 2 Info Relevante 3

Extração de Informação Notícia Salvadoran President-elect Alfredo Cristiania condemned the terrorist killing of Attorney General Roberto Garcia Alvarado and accused the Farabundo Marti Natinal Liberation Front (FMLN) of the crime. … Garcia Alvarado, 56, was killed when a bomb placed by urban guerillas on his vehicle exploded as it came to a halt at an intersection in downtown San Salvador. … According to the police and Garcia Alvarado’s driver, who escaped unscathed, the attorney general was traveling with two bodyguards. One of them was injured. Data do Incidente: 19 Abr 1989 Tipo do Incidente: Atentado à bomba Perpetrador: “guerilhas urbanas” Nome do alvo humano: “Roberto Garcia Alvarado” ... Text Mining

Extração de Informação foodscience.com-Job2 JobTitle: Ice Cream Guru Employer: foodscience.com JobCategory: Travel/Hospitality JobFunction: Food Services JobLocation: Upper Midwest Contact Phone: 800-488-2611 DateExtracted: January 8, 2001 Source: www.foodscience.com/jobs_midwest.html OtherCompanyJobs: foodscience.com-Job1 Text Mining WB’s first application area is extracting job openings from the web. Start at company home page, automatically follow links to find the job openings section, segment job openings from each other, and extract job title, location, description, and all of these fields. (Notice that capitalization, position on page, bold face are just as much indicators of this being a job title as the words themselves. Notice also that part of the IE task is figuring out which links to follow.)

Medida de similaridade Agrupamento de Texto É dado: Documentos textuais Medida de similiraridade Ex.: quantas palavras são comuns nestes documentos Documentos fonte Medida de similaridade Sistema de Agrupamento Text Mining Doc Encontra: Vários agrupamentos de documentos relevantes

“Pesquisar” versus “Descobrir” Text Mining Dado Estruturado Recuperação de Dado Data Mining Dado não estruturado (Texto) Recuperação da Informação Text Mining

Desafios do Text Mining Grande número de dimensões possíveis para pesquisa e análise: Todas as possíveis tipos de palavras e frases em uma língua Complexidade dos relacionamentos entre os diversos conceitos encontrados em um texto: “AOL se funde com a Time-Warner” “Time-Warner é comprada pela AOL” Ambigüidade e sensibilidade ao contexto automóvel = carro = veículo = Toyota Apple (a empresa) ou apple (a fruta) Text Mining Why aren’t there more products that do text mining? Because it’s hard!!! First, there are many possible dimensions of text. Consider just the classes of nouns that might be represented in a text collection. Then, add to that noun phrases (nouns plus adjectives or multi-word concepts). Second, different documents can look quite different. Never mind issues like formatting differences. Third, the relationships between words and concepts in text is subtle. Figuring out that a relationship exists is easy, providing the information about the nature of the relationship is tricky. Finally, the same word can have many meanings (e.g. “interest”), or many words can have the same meaning.

Text Mining: Exemplos Text Mining Ex 1: Suporte à decisão em CRM O que os clientes normalmente reclamam? Qual é a tendência do número de clientes satisfeitos em Curitiba? Ex 2: Gestão do conhecimento Procura por pessoas e competências. Ex 3: Personalização no e-Bussiness Sugestão de produtos mais ajustados ao perfil de interesse do cliente (baseado na informação de personalidade de compra). Text Mining A couple specific business applications of text mining. Gotta get that “e” in there!

Ferramentas Comerciais IBM Intelligent Miner for Text Semio Map InXight LinguistX / ThingFinder LexiQuest ClearForest Temis SRA NetOwl Extractor Autonomy Text Mining

(Mineração de Páginas Web) Web Mining (Mineração de Páginas Web)

Visão Geral Web Mining World Wide Web O enorme crescimento do número de fontes de informação disponíveis na Web tornou imperativo o uso de ferramentas automatizadas para a busca, extração, filtragem e avaliação de recursos e informações; Com a transformação da Web no principal meio para a realização do comércio eletrônico, é fundamental para as empresas, que investem milhões em tecnologias internet e intranet, rastrear e analisar os padrões de acesso dos usuários. Web Mining

Visão Geral Web Mining Uma combinação natural... Data/Text World Wide Web Content Mining Web Usage As duas áreas têm o mesmo desafio: extração de informação relevante à partir de um volume enorme de dados; A natureza semi-estruturada ou não estruturada, distribuída, heterogênea e dinâmica dos dados na Web é o principal complicador.

Visão Geral Web Mining Web Content Mining Ferramentas tradicionais de busca e indexação como Alta Vista, Lycos, WebCrawler e outros não conseguem, de um modo geral, prover informação estrutural e nem categorizar, filtrar e interpretar documentos O problema tem sido atacado de duas formas: ferramentas mais inteligentes para a recuperação de informação: agentes inteligentes ou rôbos; extensão de técnicas de banco de dados e data mining visando a obtenção de um nível mais alto de organização dos dados semi-estruturados disponíveis na Web. Abordagens baseadas em agentes inteligentes Agentes de busca Agentes para filtragem/categorização de informação Agentes personalizados Abordagens baseadas em banco de dados Web Mining

Visão Geral Web Mining Web Usage Mining Estratégias e técnicas para análise de mercado têm sito revisitadas dentro do novo contexto da Web; Volumes enormes de dados são gerados e coletados automaticamente pelos servidores Web; A análise destes dados pode trazer diversos benefícios: Estabelecimento de estratégias de marketing; Determinação da eficácia de campanhas promocionais; Descoberta de padrões de comportamento de navegação no web site; Melhor estruturação do Web site; Melhor gerenciamento da infra-estrutura. Web Mining

Que dado na Web está sendo minerado? Visão Geral Que dado na Web está sendo minerado? Conteúdo – dados a partir dos documentos Web – textos e gráficos; Estrutura – dados a partir da estrutura Web – HTML ou tags XML; Uso – dados a partir do log do Site Web – endereço IP, data e tempo de acesso, navegação no site web (clickstream); Perfil de usuário – dados específicos do usuário – registro e perfil do cliente. Web Mining

Visão Geral Web Mining Web Spider Documentos fonte Sistema Pesquisa RI / EI Pesquisa 1. Doc1 2. Doc2 3. Doc3 . Documentos ordenados

CASI Mauricio Abreu UFF / COPPE / CRIE sumnet@microlink.com.br