Dados para sistemas de apoio à decisão

Dados para sistemas de apoio à decisão
Sumário Pesquisa de informação implícita (data mining) Armazéns de dados Gabriel David FEUP - Rua dos Bragas, Porto - PORTUGAL Tel Fax: URL:

Aplicações das bases de dados
Processamento de transacções registo da actividade exemplo: vendas em cadeia de retalho, com nome e cartão de crédito dos clientes, artigos comprados, preços pagos e datas de aquisição; tipo de artigo, fabricante, modelo, côr e tamanho; informação do cliente, história de crédito, rendimento anual, residência, idade, habilitações literárias grandes quantidades de informação armazenada pode permitir detectar tendências e antecipar variações na procura determinar padrões de consumo e orientar o marketing: são as mulheres jovens com rendimento alto que adquirem mais carros de desporto pequenos Sistemas de apoio à decisão processamentos para os quais SQL é pouco prático análise estatística de dados; recurso a pacotes de SW próprios técnicas de descoberta de conhecimento; data mining articulação de dados de fontes diversas num armazém de dados

Análise de dados Funções de agregação (count, sum, avg, max, min) standard do SQL são insuficientes Geração de histogramas por percentis (não é SQL standard) select percentil, avg(balanço) from conta group by N_tile(balanço, 3) as percentil -- 3 categorias por gamas (select ‘0-999’, avg(balanço) from conta where balanço < 1000) union (select ‘ ’, avg(balanço) from conta where balanço between 1000 and 1999) (select ‘> 2000’, avg(balanço) from conta where balanço > 2000)

Dados multidimensionais
tabela cruzada (diferente de uma tabela relacional) geradores de relatórios costumam fazer relação estendida Vendas(côr, tamanho, quantidade) - todos indica uma linha de agregação, ou de rollup; como gerar em SQL? - deslocar de granularidade grossa para fina é escavar, ou drill-down; requer os dados originais ou agregações mais finas - n dimensões: 2n subconjuntos de agregação representáveis como vértices de um hipercubo

EIS Sistemas de Informação para Executivos
dados multidimensionais com informação agregada a vários níveis e habitualmente com uma componente temporal configuração relativamente elaborada para um fim específico, por exemplo, controlar a execução orçamental ou a evolução da produção dados extraídos de uma BD e preprocessados para facilitar a visualização; implica actualizações periódicas e recondicionamentos mais ou menos demorados muito visual, com várias perspectivas sobre os dados e marcadores para os valores que se desviam mais do que um certo limite permite uma vista global e depois detalhar apenas alguns aspectos, por exemplo, um departamento com maus resultados

Data Mining Encontrar informação relevante, descobrir conhecimento a partir de informação implícita, sob a forma de regras estatísticas ou padrões usa técnicas da Inteligência Artificial e das Redes Neuronais, em particular da Aprendizagem Automática diferença: a grande quantidade de dados que manipula obriga a guardá-los em disco e a desenvolver algoritmos eficientes para esse caso

Representação do conhecimento
Forma geral de uma regra X Consequente  Antecedente Exemplo: relação Compra(transacção, artigo) Regra que significa quem compra pão também compra leite transacção T, compra(T, leite)  compra(T, pão) população - valores que T pode tomar suporte - fracção da população que satisfaz o antecedente e o consequente; mede a significância estatística e o interesse prático; o valor mínimo depende da aplicação confiança - percentagem de casos em que, verificando-se o antecedente, também se verifica o consequente; normalmente estes valores andam longe dos 100% em aplicações de empresa

Problemas de classificação
descobrir regras que particionem os dados em grupos disjuntos objectivo: decidir da atribuição de um cartão de crédito sabe-se idade, habilitações, rendimento, residência e dívidas processo: classificar uma amostra de clientes actuais como Excelente, Bom, Médio e Mau, com base na história de pagamentos; procurar as regras que, usando o tipo de informação disponível sobre o cliente potencial, classificam correctamente os clientes existentes; aplicar ao cliente potencial pessoas P, P.crédito=Excelente  P.grau=Mestrado e P.rendimento>300 pessoas P, P.crédito=Bom  P.grau=Licenciado ou (P.rendimento>100 e P.rendimento <300)

Problemas de associação
Lojas de retalho gostam de saber até que ponto a compra de certos produtos está associada quem compra pão compra leite, com suporte e confiança dados esta informação pode ser usada para colocar os produtos juntos e facilitar a vida ao cliente; ou para colocar os produtos em extremos opostos para obrigar os clientes a passar por outros produtos; ou para decidir não promover em simultâneo ambos os produtos, uma vez que quem compra um compra o outro Outra aplicação típica: análise de correlações em sequências exemplo: séries temporais, com informação sobre a evolução de acções e de obrigações em dias consecutivos

Descoberta guiada pelo utilizador
O utilizador formula uma hipótese e corre testes sobre a BD para a confirmar ou infirmar se a hipótese (exemplo: pessoas com mestrado tem bom comportamento no crédito) der uma confiança superior à média geral, pode considerar-se como interessante e tentar-se refiná-la a seguir com mais critérios que permitam aumentar essa confiança até valores elevados (perto de 1) mas sem deixar diminuir excessivamente o suporte os sistemas de visualização de dados são bons auxiliares na formulação de hipóteses quer de classificação, pela detecção de grupos, quer de associação, pela representação de matrizes coloridas função da percentagem de coincidências

Descoberta de regras automática
Área muito influenciada pelo trabalho em Machine-Learning Processo de descoberta de regras de classificação conjunto de treino: amostra de dados cujo agrupamento é conhecido (clientes existentes) o sistema de data-mining começa por considerar antecedentes com uma condição simples num único atributo de forma a obter conjuntos disjuntos cada valor em atributos enumerados - habilitações = nenhuma, secundário, licenciatura, mestrado, gamas em atributos numéricos - rendimento de 0 a 100, 101 a 200, >201 se algum dos atributos for suficientemente discriminante, com elevada confiança e suporte, o processo pára

Descoberta automática
senão, escolhe-se o atributo que melhor particionar os dados como primeiro classificador e, dentro de cada grupo, repete-se o processo com outro atributo constrói-se assim uma árvore de classificação; em cada ramo, o processo pára quando se obtém uma boa classificação ou quando todos os atributos já foram considerados o número de regras geradas pode ser reduzido se intervalos adjacentes pertencerem ao mesmo grupo de classificação e se se usarem técnicas de explorar vários ramos com uma só passagem habilitações nenhuma mestrado secundário licenciatura rendimento rendimento rendimento rendimento 0 a 100 >201 101 a 200 bom excelente bom

Descoberta de associações
Se o número de itens com interesse não for muito grande, associa-se um bitmap a cada transacção com um bit por cada um deles; os que ocorrerem na transacção ficam a 1 para descobrir todas as regras da forma transacção T, compra(T, i0)  compra(T, i1) e … e compra(T, in) tem que se considerar todos os subconjuntos dos itens com interesse, mantendo uma contagem do número de regras em que ocorrem simultanemente os itens de um conjunto com uma simples passagem, para cada transacção incrementa-se um contador se esta contiver todos os bits do conjunto os conjuntos com valores elevados no fim são os significativos

Armazéns de dados Relacionar informação de toda uma grande organização pode significar juntar dados produzidos em muitos locais diferentes com sistemas operativos, bases de dados e linguagens diversas esquemas de dados incompatíveis dados históricos já não são mantidos pelos seus produtores e estão arquivados off-line um armazém de dados (data warehouse) é um repositório de informação coligida de várias fontes e armazenada sob um único esquema, num só local o objectivo é servir os sistemas de apoio à decisão que necessitam de dados históricos da empresa

ferramentas de interrogação e análise
Arquitectura fonte de dados 1 fonte de dados 2 SGBD carregadores de dados ferramentas de interrogação e análise fonte de dados n armazém de dados Uma vez coligidos, os dados permanecem longamente para permitir análises históricas assim o suporte à decisão não interfere com o processamento das transacções

Aspectos a considerar Como e quando coligir dados? Que esquema usar?
Iniciativa da fonte ou do destino; contínua ou periódica Que esquema usar? Fontes têm esquemas e até modelos de dados diferentes parte das tarefas da data warehouse é executar a integração de esquemas e a correspondente conversão dos dados produzindo vistas materializadas Como propagar as actualizações? As actualizações nas fontes devem ser propagadas para o armazém, sem implicar uma cópia completa, mas sim incremental, sofrendo do problema da actualização de vistas Que dados agregar? Os dados primários das transacções podem ser demasiados para armazenar em-linha talvez se possa responder a muitas perguntas usando apenas valores agregados, obtidos da relação original, em vez desta (as perguntas continuam a ser feitas à relação original)

Dados para sistemas de apoio à decisão

Apresentações semelhantes

Apresentação em tema: "Dados para sistemas de apoio à decisão"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Dados para sistemas de apoio à decisão

Apresentações semelhantes

Apresentação em tema: "Dados para sistemas de apoio à decisão"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback