A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Aula 4 – Estatística- Conceitos básicos

Apresentações semelhantes


Apresentação em tema: "Aula 4 – Estatística- Conceitos básicos"— Transcrição da apresentação:

1 Aula 4 – Estatística- Conceitos básicos
Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini

2 Estatística – Conceitos Básicos
Aprender conceitos básicos de estatística a serem utilizados na avaliação de impacto.

3 Plano de Aula Amostra x população
Definição de um experimento aleatório e de uma variável aleatória Distribuição de probabilidade Medida de tendência central: média, moda, mediana Medida de dispersão/variabilidade: variância e desvio-padrão A distribuição normal e suas propriedades Intervalo de confiança Teste de Hipótese: Formulação de Hipóteses, Tipos de Erros, Nível de Significância, Regra Prática “2 – t” Teste de diferença de médias Nesta aula vamos discutir alguns conceitos de estatísticas necessários a avaliação economica. Consideramos que os alunos já têm conhecimento prévio de estatística e que vão apenas relembrar alguns conceitos.

4 Amostra x População O grupo completo de observações de pessoas, objetos ou coisas é denominado população. Um subconjunto de observações selecionados numa população é denominado amostra. Na maior parte das análises, trabalha-se com amostras. Por essa razão é preciso garantir que a amostra seja representativa, ou seja, que a amostra descreva de maneira adequada a população que desejamos estudar. Fazer no quadro o desenho de uma população (exemplo a população de Floripa) e uma amostra tirada da população.

5 Experimento Aleatório e Variável Aleatória
Um experimento é denominado experimento aleatório se não for possível antecipar o seu resultado, apesar de conhecermos os resultados possíveis. Por exemplo: lançar um dado é um experimento aleatório. Variável Aleatória = resultado numérico do experimento. No caso do dado, a variável aleatória é a face que resultará de seu lançamento. Há seis possíveis resultados, cada um com uma probabilidade de ocorrência de 1/6 .

6 Outro exemplo de experimento aleatório e variável aleatória
‘Encontrar um emprego dentro de um determinado período de tempo’ é um experimento aleatório, pois só saberemos se um indivíduo conseguirá encontrar um emprego em tal período de tempo após sua observação. E seu ‘resultado’ é uma variável aleatória. Neste caso, há dois possíveis resultados: encontrar ou não encontrar o emprego. A probabilidade de ocorrência de cada resultado vai depender das características do indivíduo e da economia.

7 Distribuição de Probabilidade
Quando listamos os valores possíveis de uma variável aleatória com suas possibilidades de ocorrência, o resultado é uma função de probabilidade. Ex: vr. aleatória = face resultante do lançamento do dado Probabilidade de ocorrência evento 1/6

8 Outro experimento = jogar dois dados e ter como resultado a soma dos valores observados em cada um deles: Dado A Dado B "1"+ dado B "2"+ dado B "3"+ dado B "4"+ dado B "5"+ dado B "6"+ dado B 1 2 3 4 5 6 7 8 9 10 11 12

9 36 possíveis combinações e 11 possíveis resultados: 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 e 12
Evento 2 3 4 5 6 7 8 9 10 11 12 n° de ocorrências 1 prob. de ocorrência =1/36 =2/36 =3/36 =4/36 =5/36 =6/36

10 Distribuição de probabilidade

11 Média Média = o ‘valor esperado’ de uma variável aleatória.
É um dos parâmetros que descreve nossa amostra. Exemplo: Imagine que temos as notas obtidas pelos alunos de uma sala de aula. A média das notas da sala pode nos dar uma idéia do desempenho da sala.

12 Média - cálculo Média = soma de todos os valores observados da variável aleatória dividido pelo número de observações: Onde: xi = é a nota do i-ésimo aluno. n é o número de alunos na sala.

13 Exemplo: Ex: imagine que todos os alunos do colégio tenham feito uma avaliação e que nós estejamos interessados em saber qual foi o desempenho médio do colégio. Para isso podemos selecionar uma amostra de alunos e calcular a média. Notas obtidas 8 2 9 7 5 10 6 4 1

14 Mediana valor que ocupa a posição central dos dados ordenados; é o valor que deixa metade dos dados abaixo e metade acima dele. Se o número de observações for par, a mediana será a média aritmética dos dois valores centrais. Ex.: mediana de 3, 4, 7, 8 e 8? Md=7

15 Moda é o valor mais frequente no conjunto de dados
Ex.: moda de 3, 4, 7, 8 e 8? Moda = 8

16 Variância / Desvio-padrão
Para toda variável há diferença entre o valor esperado (isto é, a média) e o valor observado. A variância mede a dispersão dos valores observados da variável aleatória em torno de seu valor esperado. Desvio-padrão é a raiz quadrada da variância. Esta será uma medida bastante importante nos nossos cálculos mais à frente.

17 Variância / desvio-padrão - cálculo
Onde: xi = nota do i-ésimo aluno = nota média n = número de alunos Colocar no quadro o exemplo com desenho de duas amostras uma com desvio padrão 0 (todos os números iguais) e outra com desvio padrão maior, mostrar que em uma está todo mundo ao lado da média e na outra está mais longe. Fazer o desenho de amostras mais dispersas e menos dispersas.

18 Variância / Desvio-padrão
Podem ser interpretados como medidas da precisão da média. Quanto menor a variância/desvio-padrão, maior é a confiança de que o valor a ser observado será próximo da média.

19 Qual a variância e o desvio-padrão das notas dos alunos ?
Notas obtidas 8 2 9 7 5 10 6 4 1

20 Distribuição Normal É uma das mais importantes distribuições de probabilidade. Em geral, trabalhamos com variáveis aleatórias para as quais não conhecemos sua distribuição. Comumente, assumimos que nossas variáveis aleatórias têm distribuição de probabilidade que se comporta como uma normal.

21 Distribuição Normal É simétrica; Média = Mediana = Moda
Moda é o valor que mais se repete Mediana é o valor que divide a amostra ao meio. A área total abaixo da curva é igual a 100% da amostra. A um desvio padrão da média para direita e esquerda temos 68% da amostra, etc. Quando “conhecemos” a distribuição de probabilidade de uma variável aleatória podemos fazer inferências.

22 variável aleatória X distribuição normal?
Grande parte dos fenômenos sociais seguem a distribuição normal. Por exemplo, vários estudos mostram que: A maioria dos QI se situam entre 90 e 100; há uma descida gradual para a calda com algumas pessoas com QI superior a 140 e pouquíssimas com QI abaixo de 60. Fazer os gráficos das distribuições no quadro enquanto vai explicando.

23 Será que toda variável aleatória segue distribuição normal?
Algumas variáveis aleatórias não seguem a distribuição normal: É conhecido que a distribuição de riqueza é extremamente assimétrica (uma pequena parcela da população recebe grande parte da renda. Fazer os gráficos das distribuições no quadro enquanto vai explicando. Ao final falar que para este curso, que é uma introdução a avaliação econômica consideraremos que todas as variáveis utilizadas seguem uma distribuição normal. Claro que se não seguirem as estimativas conterão algum erro. Mas para introduzirmos a avaliação sem considerar a distribuição normal, ´seria necessário um conhecimento mais aprofundado de estatística.

24 Formulando as hipóteses nula e alternativa
Pode-se contar com expectativas teóricas ou com trabalhos empíricos anteriores – ou com ambos – para formular hipóteses. Obs.: independentemente de como são formuladas, é extremamente importante que o pesquisador estabeleça estas hipóteses antes de realizar a investigação empírica.

25 Tipos de Erros Tipo I: probabilidade de rejeitar a hipótese nula sendo ela verdadeira. Via de regra é estabelecido pelo pesquisador, e equivale ao nível de significância. Tipo II: probabilidade de aceitar a hipótese nula sendo ela falsa.

26 O Significado de “aceitar” ou “rejeitar” uma hipótese
Com base em um teste de significância (por ex., teste t), decide-se “aceitar” a hipótese nula, então com base na evidencia da amostra, não se tem nenhuma razão para rejeitá-la. Lembre-se que, ao “aceitar” uma hipótese nula, deve-se sempre estar ciente de que uma outra hipótese nula pode ser igualmente compatível com os dados. Daí, é preferível dizer que podemos aceitar H0 ao afirmar que a aceitamos.

27 Inferência Por trabalharmos com amostras, o que fazemos é:
Com base nos resultados da amostra fazemos inferência sobre a população. Por exemplo: Se encontramos que 60% da amostra é composta por mulheres, dizemos que 60% da população também são mulheres. Se 51% da nossa amostra vota no candidato X , então dizemos que o candidato X terá 51 % dos votos da nossa população. A inferência pode conter um erro devido ao erro de amostragem. Ou seja, esta inferência pode estar errada simplesmente porque a amostra contem um erro de representação. 27

28 Inferência X distribuição normal
Se a variável segue a distribuição normal, então podemos calcular qual a probabilidade de obter qualquer média amostral. Para isto retomemos a curva normal Ex: Com 68% de probabilidade a média populacional pode estar entre um desvio padrão (para mais e para menos) da média amostral.

29 Intervalo de confiança
Em geral, não conhecemos a média e o desvio padrão da variável na população. O que conhecemos é a média e o desvio padrão amostral. Assim não temos como calcular o verdadeiro valor da média populacional, na qual estamos interessados ao fazer a pesquisa amostral? A resposta é não. Entretanto, com base nos resultados da amostra podemos construir o intervalo de valores dentro do qual a verdadeira média populacional pode estar. Isto considerando uma probabilidade de que a média populacional realmente cairá neste intervalo., chamado de Intervalo de Confiança. 29

30 Calculo do Intervalo de confiança
Se a variável segue uma distribuição normal, uma estimativa do desvio padrão populacional pode ser estimado por meio de: Onde: é o desvio padrão da população s é o erro padrão da amostra N é o tamanho da amostra 30

31 Intervalo de confiança e a distribuição normal para amostra
68% Reparem que quanto maior o desvio padrão e quanto menor, maior será a amplitude o intervalo de confiança 95%

32 Intervalo de confiança de 95% para a média amostral

33 Exemplo Suponha uma amostra de 99 escolas. Nesta amostra obtemos um gasto médio mensal de ,00 reais e desvio padrão de 43978,44. Qual o intervalo de confiança a 95% ? O governo provavelmente está fazendo propaganda enganosa. Falar que este valor é chamado de p-valor 33

34 Graficamente 95% Reparem que quanto maior o desvio padrão e quanto menor, maior será a amplitude o intervalo de confiança 34

35 Probabilidade de um valor
Se em vez de querer saber qual o intervalo de confiança da média populacional utilizando uma amostra, estejamos interessados em saber qual a probabilidade de um determinado valor ocorrer, como fazer? Utilizamos uma tabela de escores da curva normal. Esta tabela foi construída com base em quantos desvios padrões o valor que queremos se distancia da média. Assim, para utilizá-la calculamos: s/raiz de n é a estimaçao da variancia da populaçao como vimos anteriormente Xi-X é a distancia da observaçao a média. Quando fazemos esta divisão estamos vendo em termos de desvio padráo quanto é a distancia. Por exemplo, se Z é 1,96 significa que a distancia é 1,96 desvios padrões da média. Para este caso já sabemos que a probabilidade de ocorrencia é 95%. Mostrar como usa a tabela. 35

36 Exemplo Suponha que um Estado divulgou que gasta, em média, ,00 reais por mês com merenda nas escolas. Duvidando da informação fizemos uma amostra de 99 escolas. Nesta amostra obtemos um gasto médio mensal menor de ,00 reais e desvio padrão de 43978,44. Qual a probabilidade de ,00 ser realmente a média das escolas? Montamos o seguinte teste: H0: μ=34.000,00 Contra H1: μ<34.000,00 O governo provavelmente está fazendo propaganda enganosa. Falar que este valor é chamado de p-valor 36

37 Exemplo Olhando na tabela encontramos um valor de 48,96. Ou seja, 48,96% das médias amostrais se situam entre ,00 e ,00 reais, estão abaixo deste valor. Quase toda a amostra. Fazendo 50%- *48,96% = 1,04%. Portanto, somente 1,04% da amostra está acima deste valor. Ou seja, vamos se rejeitar H0 a chance de estar errando é 1,04%, logo rejeito H0 O governo provavelmente está fazendo propaganda enganosa. Falar que este valor é chamado de p-valor 37

38 O nível exato de significância: o valor p
Definido como o mais baixo nível de significância com o qual a hipótese nula pode ser rejeitada. Também conhecido como nível de significância observado ou exato, ou a probabilidade exata de cometer um erro Tipo I.

39 Escolhendo o nível de significância
Se o erro de rejeitar a hipótese nula que de fato é verdadeira (Erro Tipo I) for dispendioso relativamente ao erro de não rejeitar a H0 que de fato é falsa (Erro tipo II), será racional estabelecer uma pequena probabilidade de cometer o primeiro tipo de erro. Se, por outro lado, o custo de cometer um Erro Tipo I for baixo relativamente ao custo de cometer um Erro Tipo II, vale a pena estabelecer como grande a probabilidade do primeiro tipo de erro (tornando assim pequena a probabilidade do segundo tipo de erro).

40 Teste de diferença de médias
Suponha agora que estamos interessados em comparar a média de uma variável aleatório com base em duas amostras diferentes. Para isto podemos fazer o teste de diferenças entre médias Como as médias são calculadas a partir de uma amostra da população, a diferença matemática observada entre elas pode ser apenas devido a um erro amostral. Portanto, uma diferença entre duas médias amostrais não representa uma verdadeira diferença entre as médias populacionais.

41 Teste de diferenças entre médias
Hipótese Nula: Não há diferença entre as Médias Populacionais H0: μ 1= μ 2 μ 1= média na população 1 μ 2= média na população 2 Hipótese experimental: há diferença entre as Médias Populacionais H1: μ 1≠ μ 2

42 Onde: é a média amostral é a diferença do erro padrão de cada média
Para testarmos esta hipótese com uma probabilidade conhecida de acerto, precisamos calcular os chamados escores Z, supondo que a distribuição da variável é normal. Onde: é a média amostral é a diferença do erro padrão de cada média s é a variancia da amostra N é o tamanho da amostra 42

43 Z de teste Uma vez encontrado o Z de teste calculado pela fórmula do slide anterior, utilizamos uma tabela de Porcentagem da Área sob a Curva Normal - Z, para obtermos a probabilidade de não rejeitarmos H0. Fazendo vezes a probabilidade calculada na tabela, temos a estatística conhecida como P-valor, que nos fornece a probabilidade de erro ao rejeitarmos H0. Explicar que para saber a probabilidade de acerto temos que olhar na tabela de Z de teste. Explicar a tabela de Z: na linha temos o valor de Z e uma casa decimal e na coluna o valor da centena. No caso em questão estamos testando que X1=X2 ou X1-X2=0. O valor da tabela é unicaldal, portanto multiplicamos por dois para saber a prob. Se fizermos 100- prob temos P valor (erro da estimativa). Erro em rejeitar H0. ex. Pvalor é 0,20, se rejeitarmos H0 o faríamos com uma prob de 20% de estarmos errando.

44 Z de teste- Exemplo Ex: Considere o teste de diferença de média entre duas amostras com o Z=0,68. Olhando na tabela encontramos a probabilidade 25,17, multiplicando por 2 temos 50,34% de acerto. O P-valor é de 49,66% (100-50,34) Isto significa que se rejeitarmos H0 estariamos errando a uma probabilidade de 49,66%. Assim, não rejeitamos H0 e dizemos que a diferença entre as médias amostrais não é significativa. Obs: estas médias podem ser matematicamente diferentes, mas esta diferença é devida a erro amostral.

45 Passos para o teste de diferença de médias
1o passo: Obter as médias amostrais 2o passo: achar o desvio padrão de cada amostra 3o passo: Calcular o erro padrão de cada média 4o passo:Achar a diferença do erro padrão das médias 5o passo: Achar a estatística Z 6o passo: Usando a tabela obter a probabilidade de acerto 7o passo: subtrair de 100% a probabilidade de acerto para achar o P-valor.

46 Regra prática “2-t” Se o número de graus de liberdade for 20 ou mais, e se o nível de significância, for estabelecido em 0,05, então a hipótese nula pode ser rejeitada se o valor for maior que 2 em valor absoluto.

47 Comentários Finais Aula de hoje: trabalhamos conceitos de estatística que serão utilizados na avaliação econômica. Próxima aula: apresentaremos os procedimentos para realizar a avaliação de impacto quando o grupo de controle foi aleatoriamente selecionado.


Carregar ppt "Aula 4 – Estatística- Conceitos básicos"

Apresentações semelhantes


Anúncios Google