A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

1 Gabriel David FEUP - Rua dos Bragas, 4050-123 Porto - PORTUGAL Tel. 351 222041842 - Fax: 351 222000808 URL: Sumário.

Apresentações semelhantes


Apresentação em tema: "1 Gabriel David FEUP - Rua dos Bragas, 4050-123 Porto - PORTUGAL Tel. 351 222041842 - Fax: 351 222000808 URL: Sumário."— Transcrição da apresentação:

1 1 Gabriel David FEUP - Rua dos Bragas, Porto - PORTUGAL Tel Fax: URL: Sumário m Pesquisa de informação implícita (data mining) m Armazéns de dados Dados para sistemas de apoio à decisão

2 Informação implícita - 2 m Processamento de transacções q registo da actividade exemplo: vendas em cadeia de retalho, com nome e cartão de crédito dos clientes, artigos comprados, preços pagos e datas de aquisição; tipo de artigo, fabricante, modelo, côr e tamanho; informação do cliente, história de crédito, rendimento anual, residência, idade, habilitações literárias q grandes quantidades de informação armazenada pode permitir detectar tendências e antecipar variações na procura determinar padrões de consumo e orientar o marketing: são as mulheres jovens com rendimento alto que adquirem mais carros de desporto pequenos m Sistemas de apoio à decisão q processamentos para os quais SQL é pouco prático q análise estatística de dados; recurso a pacotes de SW próprios q técnicas de descoberta de conhecimento; data mining q articulação de dados de fontes diversas num armazém de dados Aplicações das bases de dados

3 Informação implícita - 3 Análise de dados m Funções de agregação (count, sum, avg, max, min) standard do SQL são insuficientes m Geração de histogramas q por percentis (não é SQL standard) select percentil, avg(balanço) from conta group by N_tile(balanço, 3) as percentil -- 3 categorias por gamas (select 0-999, avg(balanço) from conta where balanço < 1000) union (select , avg(balanço) from conta where balanço between 1000 and 1999) union (select > 2000, avg(balanço) from conta where balanço > 2000)

4 Informação implícita - 4 Dados multidimensionais m tabela cruzada (diferente de uma tabela relacional) q geradores de relatórios costumam fazer relação estendida Vendas(côr, tamanho, quantidade) - todos indica uma linha de agregação, ou de rollup; como gerar em SQL? - deslocar de granularidade grossa para fina é escavar, ou drill-down; requer os dados originais ou agregações mais finas - n dimensões: 2 n subconjuntos de agregação representáveis como vértices de um hipercubo

5 Informação implícita - 5 EIS m Sistemas de Informação para Executivos q dados multidimensionais com informação agregada a vários níveis e habitualmente com uma componente temporal q configuração relativamente elaborada para um fim específico, por exemplo, controlar a execução orçamental ou a evolução da produção q dados extraídos de uma BD e preprocessados para facilitar a visualização; implica actualizações periódicas e recondicionamentos mais ou menos demorados q muito visual, com várias perspectivas sobre os dados e marcadores para os valores que se desviam mais do que um certo limite q permite uma vista global e depois detalhar apenas alguns aspectos, por exemplo, um departamento com maus resultados

6 Informação implícita - 6 Data Mining m Encontrar informação relevante, descobrir conhecimento a partir de informação implícita, sob a forma de regras estatísticas ou padrões m usa técnicas da Inteligência Artificial e das Redes Neuronais, em particular da Aprendizagem Automática m diferença: a grande quantidade de dados que manipula obriga a guardá-los em disco e a desenvolver algoritmos eficientes para esse caso

7 Informação implícita - 7 Representação do conhecimento m Forma geral de uma regra q X Consequente Antecedente Exemplo: relação Compra(transacção, artigo) m Regra que significa quem compra pão também compra leite q transacção T, compra(T, leite) compra(T, pão) q população - valores que T pode tomar q suporte - fracção da população que satisfaz o antecedente e o consequente; mede a significância estatística e o interesse prático; o valor mínimo depende da aplicação q confiança - percentagem de casos em que, verificando-se o antecedente, também se verifica o consequente; normalmente estes valores andam longe dos 100% em aplicações de empresa

8 Informação implícita - 8 Problemas de classificação m descobrir regras que particionem os dados em grupos disjuntos q objectivo: decidir da atribuição de um cartão de crédito q sabe-se idade, habilitações, rendimento, residência e dívidas q processo: classificar uma amostra de clientes actuais como Excelente, Bom, Médio e Mau, com base na história de pagamentos; procurar as regras que, usando o tipo de informação disponível sobre o cliente potencial, classificam correctamente os clientes existentes; aplicar ao cliente potencial q pessoas P, P.crédito=Excelente P.grau=Mestrado e P.rendimento>300 q pessoas P, P.crédito=Bom P.grau=Licenciado ou (P.rendimento>100 e P.rendimento <300)

9 Informação implícita - 9 Problemas de associação m Lojas de retalho gostam de saber até que ponto a compra de certos produtos está associada q quem compra pão compra leite, com suporte e confiança dados q esta informação pode ser usada para colocar os produtos juntos e facilitar a vida ao cliente; ou para colocar os produtos em extremos opostos para obrigar os clientes a passar por outros produtos; ou para decidir não promover em simultâneo ambos os produtos, uma vez que quem compra um compra o outro m Outra aplicação típica: análise de correlações em sequências q exemplo: séries temporais, com informação sobre a evolução de acções e de obrigações em dias consecutivos

10 Informação implícita - 10 Descoberta guiada pelo utilizador m O utilizador formula uma hipótese e corre testes sobre a BD para a confirmar ou infirmar q se a hipótese (exemplo: pessoas com mestrado tem bom comportamento no crédito) der uma confiança superior à média geral, pode considerar-se como interessante e tentar-se refiná-la a seguir com mais critérios que permitam aumentar essa confiança até valores elevados (perto de 1) mas sem deixar diminuir excessivamente o suporte m os sistemas de visualização de dados são bons auxiliares na formulação de hipóteses quer de classificação, pela detecção de grupos, quer de associação, pela representação de matrizes coloridas função da percentagem de coincidências

11 Informação implícita - 11 Descoberta de regras automática m Área muito influenciada pelo trabalho em Machine-Learning m Processo de descoberta de regras de classificação q conjunto de treino: amostra de dados cujo agrupamento é conhecido (clientes existentes) q o sistema de data-mining começa por considerar antecedentes com uma condição simples num único atributo de forma a obter conjuntos disjuntos cada valor em atributos enumerados - habilitações = nenhuma, secundário, licenciatura, mestrado, gamas em atributos numéricos - rendimento de 0 a 100, 101 a 200, >201 q se algum dos atributos for suficientemente discriminante, com elevada confiança e suporte, o processo pára

12 Informação implícita - 12 Descoberta automática q senão, escolhe-se o atributo que melhor particionar os dados como primeiro classificador e, dentro de cada grupo, repete-se o processo com outro atributo q constrói-se assim uma árvore de classificação; em cada ramo, o processo pára quando se obtém uma boa classificação ou quando todos os atributos já foram considerados o número de regras geradas pode ser reduzido se intervalos adjacentes pertencerem ao mesmo grupo de classificação e se se usarem técnicas de explorar vários ramos com uma só passagem habilitações rendimento nenhuma secundáriolicenciatura mestrado 0 a a 200 >201 excelentebom

13 Informação implícita - 13 Descoberta de associações m Se o número de itens com interesse não for muito grande, associa-se um bitmap a cada transacção com um bit por cada um deles; os que ocorrerem na transacção ficam a 1 m para descobrir todas as regras da forma transacção T, compra(T, i 0 ) compra(T, i 1 ) e … e compra(T, i n ) q tem que se considerar todos os subconjuntos dos itens com interesse, mantendo uma contagem do número de regras em que ocorrem simultanemente os itens de um conjunto q com uma simples passagem, para cada transacção incrementa-se um contador se esta contiver todos os bits do conjunto q os conjuntos com valores elevados no fim são os significativos

14 Informação implícita - 14 Armazéns de dados m Relacionar informação de toda uma grande organização pode significar q juntar dados produzidos em muitos locais diferentes q com sistemas operativos, bases de dados e linguagens diversas q esquemas de dados incompatíveis q dados históricos já não são mantidos pelos seus produtores e estão arquivados off-line m um armazém de dados (data warehouse) é um repositório de informação coligida de várias fontes e armazenada sob um único esquema, num só local m o objectivo é servir os sistemas de apoio à decisão que necessitam de dados históricos da empresa

15 Informação implícita - 15 Arquitectura m Uma vez coligidos, os dados permanecem longamente para permitir análises históricas m assim o suporte à decisão não interfere com o processamento das transacções carregadores de dados ferramentas de interrogação e análise SGBD fonte de dados 1 fonte de dados 2 fonte de dados n armazém de dados

16 Informação implícita - 16 Aspectos a considerar m Como e quando coligir dados? q Iniciativa da fonte ou do destino; contínua ou periódica m Que esquema usar? q Fontes têm esquemas e até modelos de dados diferentes q parte das tarefas da data warehouse é executar a integração de esquemas e a correspondente conversão dos dados produzindo vistas materializadas m Como propagar as actualizações? q As actualizações nas fontes devem ser propagadas para o armazém, sem implicar uma cópia completa, mas sim incremental, sofrendo do problema da actualização de vistas m Que dados agregar? q Os dados primários das transacções podem ser demasiados para armazenar em-linha q talvez se possa responder a muitas perguntas usando apenas valores agregados, obtidos da relação original, em vez desta (as perguntas continuam a ser feitas à relação original)


Carregar ppt "1 Gabriel David FEUP - Rua dos Bragas, 4050-123 Porto - PORTUGAL Tel. 351 222041842 - Fax: 351 222000808 URL: Sumário."

Apresentações semelhantes


Anúncios Google