Tópicos Avançados de Base de Dados

Slides:



Advertisements
Apresentações semelhantes
Aprendizado de Máquina
Advertisements

Algoritmos para Geração de Variáveis Aleatórias
ESTATÍSTICA PARA QUALIDADE
ANÁLISE DISCRIMINANTE
Medidas de Dispersão.
Prof.: Antonio Edson Martins de Oliveira
Mineração de Dados Avaliação de Classificadores
2 de Junho de 2005Conclusão1 Pedro Barahona DI/FCT/UNL Junho 2005.
1 Conclusão DI/FCT/UNL 1º Semestre 2004/ Ciclos de Simulação A técnica usada no exemplo da queda livre pode ser utilizada para trajectórias a duas.
Medidas de Tendência Central DADOS AGRUPADOS
Algoritmos para Operações de Conjuntos AULA 19 Profa. Sandra de Amo GBC053 – BCC
DIM102 1 Curvas e Superfícies 35T56 – Sala 3F4 Bruno Motta de Carvalho DIMAp – Sala 15 – Ramal 227.
Medida do Tempo de Execução de um Programa
Medida do Tempo de Execução de um Programa
Capítulo 6 Estimativas e Tamanho de Amostras
Busca Heurística - Informada
Métodos Quantitativos
Rejane Sobrino Pinheiro Tania Guillén de Torres
ALGUMAS MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS
ESTATÍSTICA BÁSICA.
Estatística Aplicada (Aula 4)
Análise de Dados.
Teoria da Demanda Tratamento Algébrico.
Estatística e Probabilidade
Estatística e Probabilidade
CAPÍTULO I- TEORIA DAS PROBABILIDADE
Análise de Variância (ANOVA)
Aprendizado de Máquina Aula 8
Alexandre Xavier Falcão & David Menotti
ME623A Planejamento e Pesquisa
Notação: População: i M XiT é o total do cluster i;
Teste de Hipóteses de uma amostra Prof. Helcio Rocha
BCC 101 –Matemática Discreta
ESTATÍSTICA DESCRITIVA
Aula 03 – BCC202 Análise de Algoritmos (Parte 1) Túlio Toffolo www
Aula 08 Medidas de posição - Prof. Diovani Milhorim
ESTATÍSTICA DECRITIVA
Erros e variáveis aleatórias
O que é Estatística, afinal de contas?
ESTATÍSTICA 1.
Amostragem Pontos mais importantes:
Introdução e Busca Cega
Mediana É um valor real que separa o rol em duas partes deixando à sua esquerda o mesmo número de elementos que a sua direita. Portanto, a mediana é um.
Site: Estatística Prof. Edson Nemer Site:
Regressão Pontos mais importantes: -objectivo -regressão linear
Algoritmo BSP/CGM para Euler tour em Grafos
Introdução à Aprendizagem Estatística Prof. Dr. Hemerson Pistori INOVISAO – Pesquisa, Desenvolvimento e Inovação em Visão Computacional Universidade Católica.
Inferência Estatística
Professor Antonio Carlos Coelho
BCC 101 – Matemática Discreta I
Medidas de Dispersão Aula 8.
Construção e Análise de Algoritmos
Medidas Estatísticas Para Dados Agrupados Prof. Gercino Monteiro Filho
Regressão Linear.
Estudo dos gráficos Objetivos: Como construir um gráfico.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Variância (ANOVA) Camilo Daleles Rennó
Regressão e Previsão Numérica.
Estatística Descritiva
GRÁFICOS ESTATÍSTICOS
Estatística Descritiva. 2 oO que é a estatística ? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os estatísticos são.
GRÁFICOS ESTATÍSTICOS
PROCESSO DE POISSON [ Parte II ] 1 - INTRODUÇÃO 2 - PROCESSO DE POISSON 3 - TEMPOS DE CHEGADA 4 - TEMPOS ENTRE CHEGADAS 5 - PROCESSOS DE RENOVAÇÃO 6 -
Metodologia da Pesquisa em Ensino de Ciências I
Análise Exploratória de Dados
Usando Excel Prof. Rosemberg Trindade. Parte 1 Representação tabular de distribuição com variáveis discretas e contínuas.
CEPZ1 – 2015 – AULA 06 PROFESSORA: BRUNA CAVALLINI E RODRIGUES
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
Distribuição de freqüências
Profª Juliana Schivani MEDIDAS.
Profª Juliana Schivani MEDIDAS.
Transcrição da apresentação:

Tópicos Avançados de Base de Dados Carlos Rodrigues 070316102 Nuno Loureiro 070316088 Improved Histograms for Selectivity Estimation of Range Predicates Viswanath Poosala Peter J. Has Yannis E. Ioannidis Eugene J.Shekita Autores FCUP / DCC 2012

Índice Introdução Definição de Histogramas Regra de Partição Regras de Histogramas Abordagens Anteriores a Histogramas Histogramas Anteriores Novas abordagens a Histogramas Novos Histogramas Técnicas Computacionais Conclusões

Introdução Vários Histogramas propostos no passado Vários módulos de um sistema de BD, necessitam de estimativas para o tamanho do resultado da consulta Estudos anteriores estimam que erros numa consulta podem aumentar exponencialmente com o número de conjuntos

Definição de Histogramas Os Histogramas aproximam a frequência da distribuição de um atributo agrupando os seus valores em “baldes” (subconjuntos) aproximando os verdadeiros valores do atributo e a sua frequência na BD Praticamente não ocorre nenhum gasto em tempo de execução. Nem sempre são eficientes ou práticos Ponto 2 – Não necessita dos dados para saber a sua probabilidade! Nas BD existem histogramas que produzem estimativas com baixo erro enquanto ocupam pouco espaço

Definição de Histogramas Um Histograma sobre um atributo X é construído através de: Partição da distribuição dos dados T em β, subconjuntos disjuntos chamados Baldes. Aproximação das frequências e valores em cada Balde com algo em comum entre si. Baldes são calculados de acordo com a regra da Partição que procura uma aproximação a T T -> relação entre duas colunas, o valor da coluna e a frequência da coluna

Regra de Partição Juntar a T uma terceira coluna que é derivada das duas primeiras, com T como objecto de ordenação Especificar uma subclasse restrita de todos os Histogramas possíveis numa distribuição T Juntar uma quarta coluna derivada das duas primeiras Determinar a única partição de T em β baldes, tal que o Histograma pertença à subclasse restrita e satisfaça uma restrição especificada na quarta coluna Ponto 1 – Os baldes dos histogramas correspondem a grupos de elementos de T que estão contíguos na ordem da terceira coluna. Ponto 2 – baseado no número de elementos de T permitido em cada balde.

Regras de Histogramas Classe de partição: Restrição de partição: É a classe restrita de histogramas, considerada pela regra da partição. Restrição de partição: É a Restrição matemática, sendo aquela que identifica unicamente o histograma dentro da sua classe de partição Parâmetro de Ordenação e Parâmetro de Origem: Os parâmetros derivados de T e colocados na terceira e quarta coluna.

Regras de Histogramas Aproximação de valores dentro de um subconjunto: A hipótese que determina os valores próximos dentro de um subconjunto do histograma. Aproximação das frequências dentro de um subconjunto: A hipótese que determina a frequência aproximada de cada valor dentro de um subconjunto do histograma. Estas duas regras determinam a informação que necessita estar armazenada em cada balde.

Abordagens anteriores a Histogramas Classe de partição: Os Histogramas clássicos não têm restrição no número de elementos de T que podem ser atribuídos ao Balde. Histogramas “End-Biased” obrigam que todos os baldes contenham apenas um elemento de T Restrição de partição: Para a classe em série são considerados 3 tipos de histogramas, definidos para várias fontes de parâmetros: Equi-sum: Usa β Baldes, a soma da fonte de valores em cada subconjunto é igual a 1/β vezes a soma de todas as fontes de valores no histograma V-Optimal: É um histograma com variância ponderada, a fonte de valores é minimizada. Spline-based: O máximo absoluto que difere entre a fonte de valor e a média da fonte de valores no seu Balde é minimizado. END-BIASED – final tendencioso Ponto 1 - Uma das vantagens no histograma “end-biased” é o seu armazenamento eficiente.

Abordagens anteriores a Histogramas Aproximação de valores atribuídos e frequências: Todos os histogramas fazem a frequência uniforme supondo e aproximando todas as frequências num Balde pelas suas médias. Todos os histogramas necessitam de armazenar a frequência média para cada Balde

Histogramas anteriores Trivial Histogram: Tem apenas um único Balde. Equivalentes à popular hipótese de distribuição uniforme Equi-Sum(V,S) alias Equi-width: Histograma contíguo aos intervalos dos atributos nos Baldes. Soma das propagações em cada balde Equi-sum(V,F) alias Equi-depth: Como o histograma acima porém tem a soma das frequências em cada Balde em vez da soma da propagação. V – valor S – propagação/spread F – Frequência PONTO 1 - Usada pela maioria dos anteriores sistemas de base de dados. PONTO 2 - Usados normalmente por muitos sistemas comerciais. PONTO 3 - Usa-se estes histogramas em sistemas comerciais que sejam limitados.

Histogramas anteriores Spline-Based(V,C): Inspiram outros histogramas para melhoramentos em análise numérica para aproximar curvas. V-Optimal(F,F): Histogramas contíguos ao conjunto de frequências em Baldes de forma a minimizar a variância sobre a frequência aproximada. V-Optimal-End-Biased(F,F): Algumas das maiores frequências e algumas das mais pequenas são colocadas em Baldes individuais enquanto as frequências médias são agrupados num único Balde. V – Valores F – Frequência C - Frequência Cumulativa PONTO 1- Apesar de já não serem usados …

Novas abordagens a Histogramas Classe de Partição: Histogramas tendenciosos têm pelo menos um Balde singleton e possivelmente vários “não-singleton”. Restrições de Partição: Duas novas restrições Maxdiff: Balde limitado entre duas fontes de parâmetros de valores adjacentes. Compressed: Os n maiores valores de origem são guardados separadamente em n Baldes singleton, o resto é particionado em histogramas equi-sum. PONTO 1 – podem ter mais do que um elemento de T (relação entre duas colunas) PONTO 2 - objectivo de evitar agrupamentos vastos de diferentes fontes de atributos em Baldes.

Novas abordagens a Histogramas Parâmetros de Ordenação e Parâmetros de origem: Introduziu-se a área como uma possível escolha na classificação e fonte de parâmetros. Aproximação de valores atribuídos dentro de um Balde: Introduziu-se a hipótese de propagação uniforme em que para cada atributo dentro de um Balde, assume-se que a propagação é igual à média do Balde. PONTO 1 - O objectivo de qualquer histograma é aproximar bem a distribuição inteira de dados em T. Área - definida como o produto das frequências e a propagação. PONTO 2 - Esta hipótese requer armazenamento mais baixo e valores mais altos em cada Balde.

Novos Histogramas V-Optimal(V,F), V-Optimal(V,A), V-Optimal(A,A) e V-Optimal(V,C): V-Optimal(V,F) e V-Optimal(V,A) minimizam a variância em frequências e nas áreas respectivamente. O V-Optimal(A,A) minimiza a variância da aproximação global da área. V-Optimal-End-Biased(A,A) : Idêntico ao (F,F) excepto que este usa a área como parâmetros de ordenação e origem. Maxdiff(V,F), Maxdiff(V,A): Tentam alcançar o seu objectivo inserindo limite nos Baldes entre os valores de origem adjacentes. Compressed(V,F) e Compressed(V,A): Os atributos com a maior frequência são colocados num Balde singleton e depois os valores restantes são distribuídos por múltiplos Baldes. PONTO 1 - Idênticos ao V-Optimal(F,F), excepto no uso diferente dos parâmetros de ordenação e origem. COMPRESSED - Estes histogramas têm uma excelente precisão em aproximações enviesadas na distribuição da frequências. É tipicamente usada em situações da vida real. V – Valor F – Frequência A – Área C – Frequência acumulada/cumulativa

Técnicas Computacionais A construção de Histogramas necessita de: Cálculo dos quantis para Histogramas equi-depth Necessário calcular o limite de Baldes Cálculo das frequências e das frequências acumuladas de cada atributo Necessário um contador para cada atributo distinto Cálculo do número de atributos distintos que se encontram num dado intervalo Cálculo da propagação de cada atributo Equi-depth - histograma com equivalência de profundidade

Conclusões Inovações: Restrições de Partição são mais precisas que as tradicionais. Uso do número de valores distintos num Balde para aproximar de forma mais precisa a distribuição dos valores e frequências no Balde. Adaptação a algoritmos aleatórios para uma construção eficiente de Histogramas em série. Uso de um reservatório de amostras e técnicas de estimações estatísticas para construir eficientemente Histogramas usando uma única verificação dos dados.