A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson.

Apresentações semelhantes


Apresentação em tema: "Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson."— Transcrição da apresentação:

1 Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson

2 Variável Aleatória Constante pmf CDF c 1.0 c

3 Distribuição Discreta Uniforme A v.a. discreta X que assume n valores discretos com probabilidade p X (i) = 1/n, 1 i n pmf CDF:

4 Variável de Bernoulli –V.A gerada por um experimento único de Bernoulli tem um resultado binário {1, 0} ou {sucesso, falha} –A v.a. binária X é chamada variável de Bernoulli tal que: –Função de massa de probabilidade :

5 Distribuição de Bernoulli CDF x q p+q=1

6 Binomial A v.a. X representa o numero de sucessos em uma sequencia de experimentos de Bernoulli. Todos experimentos são independentes. Cada resultado é um sucesso ou falha. A probabilidade de sucesso de um experimento é dado por p. A probabilidade de uma falha é 1- p. Uso do modelo: número de processadores down num cluster; número de pacotes que chegam ao destino sem erro.

7 Distribuição Binomial A distribuição binomial com parâmetros n 0 and 0 < p < 1, is Qual a média e variância????

8 Distribuição Binomial A distribuição binomial com parametros n 0 and 0 < p < 1, is A média e variância da binomial são:

9 V.A. Binomial: pmf pkpk

10 V.A. Binomial: CDF

11 Distribuição Geométrica Número de experimentos até incluir o 1 o sucesso. Em geral, S pode ter um tamanho infinitamente contável Definir a v.a Z ( S): amostra: 0 i-1 1 = i Por causa da independência:

12 Geométrica A distribuição geometrica é a única distribuição discreta que exibe a propriedade MEMORYLESS. Resultados futuros são independentes de eventos passados. Exemplo: Z: numero de experimentos ate sucesso. Ja observamos n experimentos: todos com falhas. Y: numero de experimentos adicionais necessarios ate que um sucesso ocorra, i.e. Z = n+Y ou Y=Z-n

13 Geométrica: ausência de memória Y=Z-n

14 V.A. Geometrica Exercício: Mostre que

15 VA Poisson Número de eventos independentes que ocorrem em um intervalo de tempo (veja discussão em Ross, 4.8) Número de chegadas em um servidor em 1 hora Número de erros de impressão em uma página de um livro = # médio de eventos que ocorrem no período Aproximação para VA Binomial com n grande e p pequeno (Ross) Se X = Binomial(n,p), X Poisson( = np)

16 Poisson: propriedades Considere que um servidor espera receber 100 transações em um minuto: – = 100 (constante) Espera-se que: –O início de cada transação é independente dos outros; –Para cada pequeno intervalo de tempo t, a probabilidade de uma nova transação chegar é t –A probabilidade de chegar duas transações ao mesmo tempo é zero! O processo de Poisson tem as propriedades acima A VA X~Poisson representa o numero de transacoes que chegam durante um periodo t.

17 VA Poisson: Aplicacao A v.a. de Poisson é boa para modelar vários fenômenos, como o número de transações que chega num servidor em uma hora, ou o número de queries que chega numa máquina de busca em 1 minuto ou número de pacotes que chega num roteador em 1 segundo. Muito comumente usado para modelar chegada de sessões de usuários –servidores Web, multimídia, banco de dados, ftp, Sessões são iniciadas por usuários –Chegada de duas sessões tendem a ser independentes: Poisson é uma boa aproximação Contra-exemplo: –Chegada de requisições em um servidor Web –Premissa de independência não é válida: existe dependência entre requisições para o arquivo HTML e as imagens embutidas nele

18 Função de massa de probabilidade (pmf): CDF: Distribuição de Poisson

19 p k t=1.0 Poisson pmf

20 t CDF 1 t=1.0 Poisson CDF

21 t=4.0 p k t=4.0 Poisson pmf

22 t CDF t=4.0 Poisson CDF

23 Poisson Uma v.a. de Poisson X tem sua pmf:: Onde > 0 é uma constante E(X)= Var(X) =

24 Search Algorithms: Is the Web- Graph a Random graph? No! Random graph G n,p : –n nodes –Every directed edge occurs with probability p Is the Web-graph a random graph G n,p ? The probability of high degrees decrease exponentially In a random graph degrees are distributed according to a Poisson distribution Therefore: The degree of a random graph does not obey a power law (observed for web graphs)

25 Exercícios 1.Considere que o número de mails que chegam a um servidor de mails no intervalo t segundos é distribuído como Poisson com parâmetro 0.3t Calcule a seguintes probabilidades: –Exatamente tres mensagens chegarão num intervalo de 10 seg. –No máximo 20 msgs chegarão num período de 20seg. –O número de msgs num intervalo de 5 seg está entre 3 e 7 mails. 2.A probabilidade de um query falhar (não ser bem sucedido) é 10 (-4). Qual a probabilidade de falharem mais de 3 queries numa sequência de 1000 queries?

26 Solução 1) 2)P(X 10 = 3) = )P(X 20 20) = )

27 Solução 2)

28 Distribuições Discretas Zipf( ) –Comumente usada quando a distribuição é altamente concentrada em poucos valores Popularidade de arquivos em servidores Web/multimídia –90% dos acessos são para 10% dos arquivos Popularidade de palavras na língua inglesa –Seja i, o elemento que ocupa a i-esima posição no ranking de concentração C é a constante de normalização Zipf: lei das Potências

29 Distribuição Zipf Modela popularidade dos remetentes de s para a UFMG

30 Distribuições de Variáveis Aleatórias Contínuas Normal Exponencial Weibull Lognormal Pareto....

31 Distribuições de Variáveis Aleatórias Contínuas Variáveis aleatórias contínuas –Assumem um intervalo infinito de diferentes valores –W=% percentual de crescimento do PIB em 2005 –V=tempo para retornar a resposta de um query –Valores específicos-particulares de uma v.a. contínua tem probabilidade 0 –Intervalos de valores tem probabilidade 0

32 Função Densidade de Probabilidade Para f (x) ser uma pdf 1. f (x) > 0 x. 2.A area da região entre o grafico de f e o eixo do x é igual a 1. Area = 1

33 Distribuição de Probabilidade Seja X uma va contínua. Então a a função de probabilidade (pdf) de X é uma função f (x) tal que para dois números quaisquer a and b, O gráfico de f é a curva de densidade.

34 PDF é dada pela área da função sombreada. ba

35 Distribuição Normal (Gaussiana) Distribuição mais comum na análise de dados pdf is: - x + Média é, desvio padrão

36 Notação para Distribuições Gaussianas Geralmente denotada N(, ) Normal unitária é N(0,1) Se x tem N(, ), tem N(0,1) O -quantil de uma normal unitária z ~ N(0,1) é denotado por z tal que

37 Parâmetros A distribuição de v.a. contínua contém toda a informação que a estatística pode descobrir sobre ela –Distribuição pode ser expressa pela pdf ou CDF

38 Parâmetros Geralmente a informação existente numa distribuição pode ser excessiva para ser processada Quando isso é verdade, nós queremos sumarizar as métricas de informção: –Média –Variancia –Mediana –Percentis São também chamados de parâmetros de uma distribuição

39 Distribuição Normal Função de densidade –Dois parâmetros, e –Assim se X é distribuído com uma normal:

40 Normal Função de densidade para =0, =1

41 Normal Função de densidade para =1 =2 =5

42 Normal Funções de densidade para =1 =1 =2

43 Distribuicao Exponencial Quantidade de tempo até que determinado evento ocorra = taxa de chegadas 1/ = tempo médio entre chegadas

44 Exemplo: v.a. exponencial pdf: CDF: v.a. muito frequentemente usada em computacao Modelos: –Tempo entre duas submissões de queries a uma maquina de busca –Tempo de execução de processos –Tempo entre chegadas de pacotes em um roteador –Tempo entre chegadas de sessões em um servidor pdf x f(x)

45 Exponential distribution Density

46 Distribuicao Exponencial P(X 1/ ) = 1 – e - 1/ = 1 – 1/e E(X) = 1/ Var(X) = 1/ 2 SD(X) = 1/ CV(X) = 1 CV = 1 exponencial

47 Distribuições Exponencial e Poisson Seja uma distribuição Poisson que denote o número de eventos N(t) em um intervalo de tempo t Seja T 1 o momento do 1o evento Seja T n o tempo entre o (n-1)-esimo e o n-esimo eventos Sequência {T n, n=1, 2,...}: tempos entre chegadas P(T 1 t) = P(N(t) = 0) = e - t T1 exponencial( ) P(T 2 t | T 1 = s) = Prob (0 eventos em (s, s+t) | T1 = s) = Prob (0 eventos em (s, s+t)) (eventos Poisson são independentes) = e - t T 2 exponencial( ) T 1, T 2,..., T n são independentes e têm mesma distribuição exponencial( )

48 Distribuições Exponencial e Poisson Processo de Chegadas Poisson Tempo entre Chegadas Exponencial Independência entre eventos

49 Distribuição Exponencial Exponencial ( ) : Propriedade sem memória (memoryless)

50 Propriedade Memoryless Tempo de residência R de um cliente depende do # de clientes na fila quando ele chega ao centro, nos tempos de serviços destes clientes e no tempo que o cliente que está sendo servido no momento de chegada ainda permanecerá em serviço. –Seja X i a VA para o tempo de serviço de cliente i na CPU –Seja X i : exponencial( ) para todos os clientes –Seja Y a VA que denota o tempo residual que o cliente que está em serviço no momento de chegada ainda permanecerá em serviço Y também tem distribuição exponencial com parâmetro Tempo que ainda falta independe do tempo que já esteve em serviço Estado futuro não depende do estado passado

51 Propriedade Memoryless Distribuição exponencial é a única distribuição contínua que tem a propriedade memoryless Por sua vez, distribuição geométrica é a única discreta que tem a propriedade memoryless

52 Outras Distribuições Contínuas Weibull Lognormal Pareto

53 Distribuição de Weibull A va contínua T tem uma distribuição de Weibull se a pdf é Onde os parâmetros satisfazem t 0 > 0 > 0

54 Distribuição Lognormal Uma va X tem uma distribuição lognormal se a va Y = ln(X) tem uma distribuição normal com a pdf resultante com parâmetros e Muito utilizada para modelar duracao de sessao de usuarios em servicos web

55 Média e Variância A média e variância de uma va X que tem uma distribuição lognormal são:

56 Distribuição Lognormal =1 =1

57 Distribuição de Pareto Uma das distribuições heavy tailed.

58 High Variability Phenomena Walter Willinger AT&T Labs-Research

59 Motivation Internet is full of high variability –Link bandwidth: Kbps – Gbps –File sizes: a few bytes – Mega/Gigabytes –Flows: a few packets – 100,000+ packets –In/out-degree (Web graph): 1 – 100,000+ –Delay: Milliseconds – seconds and beyond How to deal with high variability –High variability = large, but finite variance –High variability = infinite variance

60 A Working Definition A distribution function F(x) or random variable X is called heavy-tailed if for some where c>0 and finite F is also called a power law or scaling distribution The parameter is called the tail index 1< < 2, F has infinite variance, but finite mean 0 < < 1, the variance and mean of F are infinite

61 Some Illustrative Examples Some commonly-used plotting techniques –Probability density functions (pdf) –Cumulative distribution functions (CDF) –Complementary CDF (CCDF = 1- CDF) Different plots emphasize different features –Main body of the distribution vs. tail –Variability vs. concentration –Uni- vs. multi-modal

62 Probability density functions

63 Cumulative Distribution Function

64 Complementary CDFs

65 Why Heavy Tails Matter … Risk modeling (insurance) Load balancing (CPU, network) Job scheduling (Web server design) Towards a theory for the Internet …

66 20 th Centurys 100 largest disasters worldwide Log(size) Log(rank) Most events are small But the large events are huge

67 Distribuição de Erlang Uma variável aleatória X que iguala o comprimento do intervalo até que r contagens ocorram num processo de Poisson com média > 0 tem uma v.a. de Erlang com parâmetros e r. As pdf e CDF de X são : for x > 0 and r = 1, 2, …

68 Erlang: Soma de Exponenciais Genericamente: X 1, X 2,... X r, todas independentes e exponencial( ): Z = X 1 + X X r Erlang de n estágios Ex: tempo de processamento dividido em várias (r) etapas. A duração de cada etapa é exponencialmente distribuída com mesmo Se X i exponencial ( i ), onde i são diferentes Z = X 1 + X X r Hipoexponencial Exp( ) Erlang(r, ) r

69 Exercícios O tempo de CPU de um query típico medida em ms segue uma distribuição de Erlang de três estágios com = 0.5. Determine qual a probabilidade que a demanda de CPU da query excederá 1 milisegundo. O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro

70 Solução #1 O tempo de CPU de um query típico medida em ms segue uma distribuição de Erlang de três estágios com = ½. Determine qual a probabilidade que a demanda de CPU da query excederá 1 milisegundo.

71 Solução #2 O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro

72 Distribuição dos Mínimos Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente Tempo de falha : X 1, X 2,...., X n exponencial ( ) Tempo de de vida do sistema Z = min (X 1, X 2,...., X n ) P(Z z) = P (pelo menos um X i z) = ? P (exatamente um X i z) = ?

73 Distribuição dos Mínimos Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente Tempo de falha : X 1, X 2,...., X n exponencial ( ) Tempo de de vida do sistema Z = min (X 1, X 2,...., X n ) P(Z z) = P (pelo menos um X i z) = ? P (exatamente um X i z) = ?

74 Distribuição dos Mínimos P(Z z) = P (pelo menos um X i z)

75 Distribuição dos Mínimos P(Z z) = P (pelo menos um X i z) p = (1-e - z ) Z tem distribuição exponencial com parâmetro n

76 Distribuição dos Máximos n tarefas independentes : X 1, X 2,...., X n : exponencial ( ) Tempo de resposta = tempo de execução da tarefa mais longa Z = max (X 1, X 2,...., X n ) –Ex: tempo de resposta de máquina de busca composta de n processadores executando em paralelo. Cada máquina processa consulta em uma partição do dicionário Front-end: atraso desprezível

77 Distribuição dos Máximos n tarefas independentes : X 1, X 2,...., X n : exponencial ( ) Tempo de resposta = tempo de execução da tarefa mais longa Z = max (X 1, X 2,...., X n )

78 Gerando Distribuições Como gerar amostras de uma distribuição a partir de um gerador de números aleatórios uniformemente distribuídos (Unix: random(), drand48())?

79 Gerando Distribuições Ex: geração de amostras de uma distribuição exponencial F(X) = 1 – e - x Y = F -1 (X) = - 1/ ln(1 – Z), onde Z uniforme(0,1) F(Z z) = z F(Y) = P(Y y) = P(- 1/ ln(1 – Z) y ) = P (ln(1 – Z) - y) = P( 1 – Z e - y ) = P(Z 1 - e - y ) = 1 - e - y Y é exponencial O mesmo procedimento pode ser utilizado para gerar amostras de diferentes distribuições, partindo da inversa da CDF da distribuição desejada

80 Gerando Distribuições Z: uniforme (0,1) X: distribuição que você quer gerar Gerador de números aleatórios retorna valor entre 0 e 1. Ex: 0.52 Aplicando o número aleatório na função inversa de F(X), consegue-se gerar um ponto amostral

81 Para-Casa (próxima aula!) Converse com seu orientador, e traga um exemplo exepcionalmente bom ou ruim (de preferência) de apresentação e sumarização de dados de proceedings de conferências importantes de sua área. Prepare um texto de no máximo 1 folha com suas críticas e ou elogios ao métodos usados.


Carregar ppt "Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli 4.Binomial 5.Geometrica 6.Poisson."

Apresentações semelhantes


Anúncios Google