Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouLuana Amorim Alterado mais de 10 anos atrás
1
Distribuições Comuns de Variáveis Aleatórias Discretas
Constante Uniforme Bernoulli Binomial Geometrica Poisson
2
Variável Aleatória Constante
pmf CDF 1.0 c 1.0 c
3
Distribuição Discreta Uniforme
A v.a. discreta X que assume n valores discretos com probabilidade pX(i) = 1/n, 1 i n pmf CDF:
4
Variável de Bernoulli V.A gerada por um experimento único de Bernoulli tem um resultado binário {1, 0} ou {sucesso, falha} A v.a. binária X é chamada variável de Bernoulli tal que: Função de massa de probabilidade:
5
Distribuição de Bernoulli
CDF p+q=1 q x 0.0 1.0
6
Binomial A v.a. X representa o numero de sucessos em uma sequencia de experimentos de Bernoulli. Todos experimentos são independentes. Cada resultado é um “sucesso” ou “falha”. A probabilidade de sucesso de um experimento é dado por p. A probabilidade de uma falha é 1- p. Uso do modelo: número de processadores “down” num cluster; número de pacotes que chegam ao destino sem erro.
7
Distribuição Binomial
A distribuição binomial com parâmetros n and 0 < p < 1, is Qual a média e variância????
8
Distribuição Binomial
A distribuição binomial com parametros n and 0 < p < 1, is A média e variância da binomial são:
9
V.A. Binomial: pmf pk
10
V.A. Binomial: CDF
11
Distribuição Geométrica
Número de experimentos até incluir o 1o sucesso. Em geral , S pode ter um tamanho infinitamente contável Definir a v.a Z ( S): amostra: 0 i-1 1 = i Por causa da independência: 1. That is, count the no of trials until the 1st success occurs. Typical output is {00001…}
12
Geométrica A distribuição geometrica é a única distribuição discreta que exibe a propriedade MEMORYLESS. Resultados futuros são independentes de eventos passados. Exemplo: Z: numero de experimentos ate sucesso. Ja observamos n experimentos: todos com falhas. Y: numero de experimentos adicionais necessarios ate que um sucesso ocorra, i.e. Z = n+Y ou Y=Z-n The last equation says that, conditioned on Z > n, the no. of trials remaining until 1st success i.e. Y=Z-n has the same pmf as Z had originally. In other words, the system does not remember how many failures it has already encountered.
13
Geométrica: ausência de memória
Y=Z-n
14
V.A. Geometrica Exercício: Mostre que
15
VA Poisson Número de eventos independentes que ocorrem em um intervalo de tempo (veja discussão em Ross, 4.8) Número de chegadas em um servidor em 1 hora Número de erros de impressão em uma página de um livro = # médio de eventos que ocorrem no período Aproximação para VA Binomial com n grande e p pequeno (Ross) Se X = Binomial(n,p), X Poisson( = np)
16
Poisson: propriedades
Considere que um servidor espera receber 100 transações em um minuto: = 100 (constante) Espera-se que: O início de cada transação é independente dos outros; Para cada pequeno intervalo de tempo t, a probabilidade de uma nova transação chegar é t A probabilidade de chegar duas transações ao mesmo tempo é zero! O processo de Poisson tem as propriedades acima A VA X~Poisson representa o numero de transacoes que chegam durante um periodo t.
17
VA Poisson: Aplicacao A v.a. de Poisson é boa para modelar vários fenômenos, como o número de transações que chega num servidor em uma hora, ou o número de queries que chega numa máquina de busca em 1 minuto ou número de pacotes que chega num roteador em 1 segundo. Muito comumente usado para modelar chegada de sessões de usuários servidores Web, multimídia, banco de dados, ftp, Sessões são iniciadas por usuários Chegada de duas sessões tendem a ser independentes: Poisson é uma boa aproximação Contra-exemplo: Chegada de requisições em um servidor Web Premissa de independência não é válida: existe dependência entre requisições para o arquivo HTML e as imagens embutidas nele
18
Distribuição de Poisson
Função de massa de probabilidade (pmf): CDF:
19
Poisson pmf pk t=1.0
20
Poisson CDF t 1 2 3 4 5 6 7 8 9 10 0.5 0.1 CDF t=1.0
21
Poisson pmf pk t=4.0 t=4.0
22
Poisson CDF t CDF 1 2 3 4 5 6 7 8 9 10 0.5 0.1 t=4.0
23
Poisson Uma v.a. de Poisson X tem sua pmf::
Onde > 0 é uma constante E(X)= Var(X) =
24
Search Algorithms: Is the Web-Graph a Random graph? No!
Random graph Gn,p: n nodes Every directed edge occurs with probability p Is the Web-graph a random graph Gn,p? The probability of high degrees decrease exponentially In a random graph degrees are distributed according to a Poisson distribution Therefore: The degree of a random graph does not obey a power law (observed for web graphs)
25
Exercícios Considere que o número de mails que chegam a um servidor de mails no intervalo t segundos é distribuído como Poisson com parâmetro 0.3t Calcule a seguintes probabilidades: Exatamente tres mensagens chegarão num intervalo de 10 seg. No máximo 20 msgs chegarão num período de 20seg. O número de msgs num intervalo de 5 seg está entre 3 e 7 mails. A probabilidade de um query falhar (não ser bem sucedido) é 10(-4). Qual a probabilidade de falharem mais de 3 queries numa sequência de 1000 queries?
26
Solução 1) P(X10 = 3) = 0.224 P(X20 20) = 0.973
27
Solução 2)
28
Distribuições Discretas
Zipf() Comumente usada quando a distribuição é altamente concentrada em poucos valores Popularidade de arquivos em servidores Web/multimídia 90% dos acessos são para 10% dos arquivos Popularidade de palavras na língua inglesa Seja i, o elemento que ocupa a i-esima posição no ranking de concentração C é a constante de normalização Zipf: lei das Potências
29
Distribuição Zipf Modela popularidade dos remetentes de s para a UFMG
30
Distribuições de Variáveis Aleatórias Contínuas
Normal Exponencial Weibull Lognormal Pareto ....
31
Distribuições de Variáveis Aleatórias Contínuas
Assumem um intervalo infinito de diferentes valores W=% percentual de crescimento do PIB em 2005 V=tempo para retornar a resposta de um “query” Valores específicos-particulares de uma v.a. contínua tem probabilidade 0 Intervalos de valores tem probabilidade 0
32
A area da região entre o grafico de f e o eixo do x é igual a 1.
Função Densidade de Probabilidade Para f (x) ser uma pdf f (x) > 0 x. A area da região entre o grafico de f e o eixo do x é igual a 1. Area = 1
33
Distribuição de Probabilidade
Seja X uma va contínua. Então a a função de probabilidade (pdf) de X é uma função f (x) tal que para dois números quaisquer a and b, O gráfico de f é a curva de densidade.
34
PDF é dada pela área da função sombreada. a b
35
Distribuição Normal (Gaussiana)
Distribuição mais comum na análise de dados pdf is: -x + Média é , desvio padrão
36
Notação para Distribuições Gaussianas
Geralmente denotada N(,) Normal unitária é N(0,1) Se x tem N(,), tem N(0,1) O -quantil de uma normal unitária z ~ N(0,1) é denotado por z tal que
37
Parâmetros A distribuição de v.a. contínua contém toda a informação que a estatística pode descobrir sobre ela Distribuição pode ser expressa pela pdf ou CDF
38
Parâmetros Geralmente a informação existente numa distribuição pode ser excessiva para ser processada Quando isso é verdade, nós queremos sumarizar as métricas de informção: Média Variancia Mediana Percentis São também chamados de parâmetros de uma distribuição
39
Distribuição Normal Função de densidade Dois parâmetros, e
Assim se X é distribuído com uma normal:
40
Normal Função de densidade para =0, =1
41
Normal Função de densidade para =1 =2 =5
42
Normal Funções de densidade para =1 =2 =1
43
Distribuicao Exponencial
Quantidade de tempo até que determinado evento ocorra = taxa de chegadas 1/ = tempo médio entre chegadas
44
Exemplo: v.a. exponencial
pdf: CDF: v.a. muito frequentemente usada em computacao Modelos: Tempo entre duas submissões de queries a uma maquina de busca Tempo de execução de processos Tempo entre chegadas de pacotes em um roteador Tempo entre chegadas de sessões em um servidor pdf x f(x)
45
Exponential distribution
Density
46
Distribuicao Exponencial
P(X 1/ ) = 1 – e-1/ = 1 – 1/e E(X) = 1/ Var(X) = 1/2 SD(X) = 1/ CV(X) = 1 CV = 1 exponencial
47
Distribuições Exponencial e Poisson
Seja uma distribuição Poisson que denote o número de eventos N(t) em um intervalo de tempo t Seja T1 o momento do 1o evento Seja Tn o tempo entre o (n-1)-esimo e o n-esimo eventos Sequência {Tn, n=1, 2, ...}: tempos entre chegadas P(T1 t) = P(N(t) = 0) = e -t T1 exponencial() P(T2 t | T1 = s) = Prob (0 eventos em (s, s+t) | T1 = s) = Prob (0 eventos em (s, s+t)) (eventos Poisson são independentes) = e -t T2 exponencial() T1 , T2, ..., Tn são independentes e têm mesma distribuição exponencial()
48
Distribuições Exponencial e Poisson
Processo de Chegadas Poisson Tempo entre Chegadas Exponencial Independência entre eventos
49
Distribuição Exponencial
Propriedade sem memória (memoryless)
50
Propriedade Memoryless
Tempo de residência R de um cliente depende do # de clientes na fila quando ele chega ao centro, nos tempos de serviços destes clientes e no tempo que o cliente que está sendo servido no momento de chegada ainda permanecerá em serviço. Seja Xi a VA para o tempo de serviço de cliente i na CPU Seja Xi: exponencial() para todos os clientes Seja Y a VA que denota o tempo residual que o cliente que está em serviço no momento de chegada ainda permanecerá em serviço Y também tem distribuição exponencial com parâmetro Tempo que ainda falta independe do tempo que já esteve em serviço Estado futuro não depende do estado passado
51
Propriedade Memoryless
Distribuição exponencial é a única distribuição contínua que tem a propriedade memoryless Por sua vez, distribuição geométrica é a única discreta que tem a propriedade memoryless
52
Outras Distribuições Contínuas
Weibull Lognormal Pareto
53
Distribuição de Weibull
A va contínua T tem uma distribuição de Weibull se a pdf é Onde os parâmetros satisfazem t0 > 0 > 0
54
Distribuição Lognormal
Uma va X tem uma distribuição lognormal se a va Y = ln(X) tem uma distribuição normal com a pdf resultante com parâmetros e Muito utilizada para modelar duracao de sessao de usuarios em servicos web
55
Média e Variância A média e variância de uma va X que tem uma distribuição lognormal são:
56
Distribuição Lognormal
=1
57
Distribuição de Pareto
Uma das distribuições heavy tailed.
58
High Variability Phenomena
Walter Willinger AT&T Labs-Research
59
Motivation Internet is full of “high variability”
Link bandwidth: Kbps – Gbps File sizes: a few bytes – Mega/Gigabytes Flows: a few packets – 100,000+ packets In/out-degree (Web graph): 1 – 100,000+ Delay: Milliseconds – seconds and beyond How to deal with “high variability” High variability = large, but finite variance High variability = infinite variance
60
A Working Definition A distribution function F(x) or random variable X is called heavy-tailed if for some >0 where c>0 and finite F is also called a power law or scaling distribution The parameter is called the tail index 1< < 2, F has infinite variance, but finite mean 0 < < 1, the variance and mean of F are infinite
61
Some Illustrative Examples
Some commonly-used plotting techniques Probability density functions (pdf) Cumulative distribution functions (CDF) Complementary CDF (CCDF = 1- CDF) Different plots emphasize different features Main body of the distribution vs. tail Variability vs. concentration Uni- vs. multi-modal Show 3 sets of pairwise plots: pdfs for heavy-tailed and non heavy-tailed distributions CDFs for heay-tailed and non heavy-tailed distributions CCDFs for heavy-tailed and non heavy-tailed distributions
62
Probability density functions
63
Cumulative Distribution Function
64
Complementary CDFs
65
Why “Heavy Tails” Matter …
Risk modeling (insurance) Load balancing (CPU, network) Job scheduling (Web server design) Towards a theory for the Internet …
66
But the large events are huge
20th Century’s 100 largest disasters worldwide 10 -2 -1 1 2 US Power outages (10M of customers) Natural ($100B) Technological ($10B) Most events are small Log(rank) But the large events are huge Log(size)
67
Distribuição de Erlang
Uma variável aleatória X que iguala o comprimento do intervalo até que r contagens ocorram num processo de Poisson com média > 0 tem uma v.a. de Erlang com parâmetros e r. As pdf e CDF de X são: for x > 0 and r = 1, 2 , …
68
Erlang: Soma de Exponenciais
Genericamente: X1, X2, ... Xr, todas independentes e exponencial(): Z = X1 + X Xr Erlang de n estágios Ex: tempo de processamento dividido em várias (r) etapas. A duração de cada etapa é exponencialmente distribuída com mesmo Se Xi exponencial (i), onde i são diferentes Z = X1 + X Xr Hipoexponencial Exp() Exp() Exp() Exp() 1 2 3 r Erlang(r,)
69
Exercícios O tempo de CPU de um query típico medida em ms segue uma distribuição de Erlang de três estágios com = 0.5. Determine qual a probabilidade que a demanda de CPU da query excederá 1 milisegundo. O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro
70
Solução #1 O tempo de CPU de um query típico medida em ms segue uma distribuição de Erlang de três estágios com = ½. Determine qual a probabilidade que a demanda de CPU da query excederá 1 milisegundo.
71
Solução #2 O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro
72
Distribuição dos Mínimos
Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente Tempo de falha : X1, X2, ...., Xn exponencial () Tempo de de vida do sistema Z = min (X1, X2, ...., Xn) P(Z z) = P (pelo menos um Xi z) = ? P (exatamente um Xi z) = ?
73
Distribuição dos Mínimos
Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente Tempo de falha : X1, X2, ...., Xn exponencial () Tempo de de vida do sistema Z = min (X1, X2, ...., Xn) P(Z z) = P (pelo menos um Xi z) = ? P (exatamente um Xi z) = ?
74
Distribuição dos Mínimos
P(Z z) = P (pelo menos um Xi z)
75
Distribuição dos Mínimos
P(Z z) = P (pelo menos um Xi z) p = (1-e-z) Z tem distribuição exponencial com parâmetro n
76
Distribuição dos Máximos
n tarefas independentes : X1, X2, ...., Xn: exponencial () Tempo de resposta = tempo de execução da tarefa mais longa Z = max (X1, X2, ...., Xn) Ex: tempo de resposta de máquina de busca composta de n processadores executando em paralelo. Cada máquina processa consulta em uma partição do dicionário Front-end: atraso desprezível
77
Distribuição dos Máximos
n tarefas independentes : X1, X2, ...., Xn: exponencial () Tempo de resposta = tempo de execução da tarefa mais longa Z = max (X1, X2, ...., Xn)
78
Gerando Distribuições
Como gerar amostras de uma distribuição a partir de um gerador de números aleatórios uniformemente distribuídos (Unix: random(), drand48())?
79
Gerando Distribuições
Ex: geração de amostras de uma distribuição exponencial F(X) = 1 – e-x Y = F-1(X) = - 1/ ln(1 – Z), onde Z uniforme(0,1) F(Z z) = z F(Y) = P(Y y) = P(- 1/ ln(1 – Z) y ) = P (ln(1 – Z) -y) = P( 1 – Z e-y) = P(Z 1 - e-y ) = 1 - e-y Y é exponencial O mesmo procedimento pode ser utilizado para gerar amostras de diferentes distribuições, partindo da inversa da CDF da distribuição desejada
80
Gerando Distribuições
Gerador de números aleatórios retorna valor entre 0 e 1. Ex: 0.52 X: distribuição que você quer gerar Z: uniforme (0,1) Aplicando o número aleatório na função inversa de F(X), consegue-se gerar um ponto amostral
81
Para-Casa (próxima aula!)
Converse com seu orientador, e traga um exemplo exepcionalmente bom ou ruim (de preferência) de apresentação e sumarização de dados de proceedings de conferências importantes de sua área. Prepare um texto de no máximo 1 folha com suas críticas e ou elogios ao métodos usados.
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.