Aula 4 – Estatística- Conceitos básicos

Slides:



Advertisements
Apresentações semelhantes
DISTRIBUIÇÕES AMOSTRAIS
Advertisements

CAPÍTULO 7 TESTE DE HIPÓTESE
Intervalos de Confiança
ANÁLISE DISCRIMINANTE
CAPÍTULO 7 TESTE DE HIPÓTESE
ESTIMAÇÃO.
MB751 – Modelos de previsão
MEDIDAS DE DISPERSÃO Medidas de tendência central fornecem um resumo parcial das informações de um conjunto de dados. A necessidade de uma medida de variação.
APLICAÇÕES COM EXCEL: Distribuição Binomial
Distribuição F Considere duas populações com distribuição de Gauss com médias 1, 2 e variâncias 12 e 22 . Retire uma amostra aleatória de tamanho.
Distribuição de probabilidade
Distribuição de probabilidade
Estatística e Probabilidade
ESTATÍSTICA.
J. Landeira-Fernandez Ética e Ciência
Site: Estatística Prof. Edson Nemer Site:
Análise da Regressão múltipla: Inferência Revisão da graduação
ME623A Planejamento e Pesquisa
DISTRIBUIÇÃO AMOSTRAL DA PROPORÇÃO DA AMOSTRA OU
DISTRIBUIÇÃO AMOSTRAL DA MÉDIA DA AMOSTRA OU DISTRIBUIÇÃO AMOSTRAL DE
Teste de Hipóteses de uma amostra Prof. Helcio Rocha
Estatística e Probabilidade
DISTRIBUIÇÕES AMOSTRAIS
Estatística Para um dado conjunto de dados, podemos calcular as seguintes grandezas: 1) Medidas de posição 2) Medidas de dispersão 3) Parâmetros de simetria.
Amostragem Pontos mais importantes:
Site: Estatística Prof. Edson Nemer Site:
Aula 6 - Método não-experimental ou de seleção não-aleatória
Teste de Hipótese.
Aula 5 - Método experimental ou de seleção aleatória
Aula 11 - Teste de hipóteses, teste de uma proporção
COMPARAÇÃO DE DUAS POPULAÇÕES
Análise Descritiva de Dados
ANÁLISE ESTATÍSTICA II
Estatística Geral (Elementos de Probabilidade)
3. Distribuições de probabilidade
DISTRIBUIÇÃO NORMAL.
TESTE DE HIPÓTESES TESTE t STUDENT
Professor Antonio Carlos Coelho
Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 2 Prof. Cristina Ortiz Valete.
Calculando o número de observações (tamanho da amostra) Após a comparação de duas médias duas e somente duas afirmativas podem ser feitas: – 1. Rejeitamos.
ERROS E TRATAMENTO DE DADOS ANALÍTICOS
Calculando o número de observações (tamanho da amostra)
Modelos Teóricos Contínuos de Probabilidade
Disciplina Engenharia da Qualidade II
Separatrizes Quartis Decis Percentis TIPOS:
PROBABILIDADE E ESTATÍSTICA APLICADA À ENGENHARIA
Noções de Estatística - I
INFERÊNCIA ESTATÍSTICA PROPORÇÃO POPULACIONAL p
Introdução a planejamento e otimização de experimentos
Metodologia da Pesquisa em Ensino de Ciências I
Testes de Hipóteses.
2. VARIÁVEIS ALEATÓRIAS 2015.
Métodos Estatísticos Aplicados às Ciências Biológicas - 7ª aula -
Probabilidade Teste de hipóteses para duas médias:
ANÁLISE DE DADOS EM BIOLOGIA
Estimação: Estimativa Pontual Estimativa Intervalar
Média e valor médio No estudo da estatística descritiva, para além das tabelas de frequências e gráficos, estudam-se outros métodos para resumir a informação.
SPSS Guia Prático para Pesquisadores
GESTÃO E GARANTIA DA QUALIDADE
NOÇÕES DE INFERÊNCIA ESTATÍSTICA
Aula 1. Introdução à Inferência Estatística
Estimação e Intervalo de Confiança. Estimação Frequentemente necessitamos, por meio das amostras, conhecer informações gerais da população. A estimação.
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
Distribuição Amostral 3 Miguel Angel Uribe Opazo.
Aula 4 Bioestatística Probabilidade para variáveis aleatórias.
Estatística Aplicada à Administração Prof. Alessandro Moura costa UNIVERSIDADE FEDERAL DO PAMPA BACHARELADO EM ADMINISTRAÇÃO DE EMPRESAS.
INTERVALO DE CONFIANÇA PARA A MEDIA POPULACIONAL (σ 2 desconhecido ) Sabemos que se o tamanho da amostra for superior a 30 a distribuição amostral das.
Estatística Aplicada à Adminitração Prof. Alessandro Moura Costa UNIVERSIDADE FEDERAL DO PAMPA BACHARELADO EM ADMINISTRAÇÃO DE EMPRESAS.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Teste de Hipótese Camilo Daleles Rennó
Como construir modelos empíricos. Nos modelos estudados, cada fator foi fixado em dois níveis Por esta razão temos que nos contentar com uma visão limitada.
Transcrição da apresentação:

Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini

Estatística – Conceitos Básicos Aprender conceitos básicos de estatística a serem utilizados na avaliação de impacto.

Plano de Aula Amostra x população Definição de um experimento aleatório e de uma variável aleatória Distribuição de probabilidade Medida de tendência central: média, moda, mediana Medida de dispersão/variabilidade: variância e desvio-padrão A distribuição normal e suas propriedades Intervalo de confiança Teste de Hipótese: Formulação de Hipóteses, Tipos de Erros, Nível de Significância, Regra Prática “2 – t” Teste de diferença de médias Nesta aula vamos discutir alguns conceitos de estatísticas necessários a avaliação economica. Consideramos que os alunos já têm conhecimento prévio de estatística e que vão apenas relembrar alguns conceitos.

Amostra x População O grupo completo de observações de pessoas, objetos ou coisas é denominado população. Um subconjunto de observações selecionados numa população é denominado amostra. Na maior parte das análises, trabalha-se com amostras. Por essa razão é preciso garantir que a amostra seja representativa, ou seja, que a amostra descreva de maneira adequada a população que desejamos estudar. Fazer no quadro o desenho de uma população (exemplo a população de Floripa) e uma amostra tirada da população.

Experimento Aleatório e Variável Aleatória Um experimento é denominado experimento aleatório se não for possível antecipar o seu resultado, apesar de conhecermos os resultados possíveis. Por exemplo: lançar um dado é um experimento aleatório. Variável Aleatória = resultado numérico do experimento. No caso do dado, a variável aleatória é a face que resultará de seu lançamento. Há seis possíveis resultados, cada um com uma probabilidade de ocorrência de 1/6 .

Outro exemplo de experimento aleatório e variável aleatória ‘Encontrar um emprego dentro de um determinado período de tempo’ é um experimento aleatório, pois só saberemos se um indivíduo conseguirá encontrar um emprego em tal período de tempo após sua observação. E seu ‘resultado’ é uma variável aleatória. Neste caso, há dois possíveis resultados: encontrar ou não encontrar o emprego. A probabilidade de ocorrência de cada resultado vai depender das características do indivíduo e da economia.

Distribuição de Probabilidade Quando listamos os valores possíveis de uma variável aleatória com suas possibilidades de ocorrência, o resultado é uma função de probabilidade. Ex: vr. aleatória = face resultante do lançamento do dado Probabilidade de ocorrência evento 1/6

Outro experimento = jogar dois dados e ter como resultado a soma dos valores observados em cada um deles: Dado A Dado B   "1"+ dado B "2"+ dado B "3"+ dado B "4"+ dado B "5"+ dado B "6"+ dado B 1 2 3 4 5 6 7 8 9 10 11 12

36 possíveis combinações e 11 possíveis resultados: 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 e 12 Evento 2 3 4 5 6 7 8 9 10 11 12 n° de ocorrências 1 prob. de ocorrência =1/36 =2/36 =3/36 =4/36 =5/36 =6/36

Distribuição de probabilidade

Média Média = o ‘valor esperado’ de uma variável aleatória. É um dos parâmetros que descreve nossa amostra. Exemplo: Imagine que temos as notas obtidas pelos alunos de uma sala de aula. A média das notas da sala pode nos dar uma idéia do desempenho da sala.

Média - cálculo Média = soma de todos os valores observados da variável aleatória dividido pelo número de observações: Onde: xi = é a nota do i-ésimo aluno. n é o número de alunos na sala.

Exemplo: Ex: imagine que todos os alunos do colégio tenham feito uma avaliação e que nós estejamos interessados em saber qual foi o desempenho médio do colégio. Para isso podemos selecionar uma amostra de alunos e calcular a média. Notas obtidas 8 2 9 7 5 10 6 4 1

Mediana valor que ocupa a posição central dos dados ordenados; é o valor que deixa metade dos dados abaixo e metade acima dele. Se o número de observações for par, a mediana será a média aritmética dos dois valores centrais. Ex.: mediana de 3, 4, 7, 8 e 8? Md=7

Moda é o valor mais frequente no conjunto de dados Ex.: moda de 3, 4, 7, 8 e 8? Moda = 8

Variância / Desvio-padrão Para toda variável há diferença entre o valor esperado (isto é, a média) e o valor observado. A variância mede a dispersão dos valores observados da variável aleatória em torno de seu valor esperado. Desvio-padrão é a raiz quadrada da variância. Esta será uma medida bastante importante nos nossos cálculos mais à frente.

Variância / desvio-padrão - cálculo Onde: xi = nota do i-ésimo aluno = nota média n = número de alunos Colocar no quadro o exemplo com desenho de duas amostras uma com desvio padrão 0 (todos os números iguais) e outra com desvio padrão maior, mostrar que em uma está todo mundo ao lado da média e na outra está mais longe. Fazer o desenho de amostras mais dispersas e menos dispersas.

Variância / Desvio-padrão Podem ser interpretados como medidas da precisão da média. Quanto menor a variância/desvio-padrão, maior é a confiança de que o valor a ser observado será próximo da média.

Qual a variância e o desvio-padrão das notas dos alunos ? Notas obtidas 8 2 9 7 5 10 6 4 1

Distribuição Normal É uma das mais importantes distribuições de probabilidade. Em geral, trabalhamos com variáveis aleatórias para as quais não conhecemos sua distribuição. Comumente, assumimos que nossas variáveis aleatórias têm distribuição de probabilidade que se comporta como uma normal.

Distribuição Normal É simétrica; Média = Mediana = Moda Moda é o valor que mais se repete Mediana é o valor que divide a amostra ao meio. A área total abaixo da curva é igual a 100% da amostra. A um desvio padrão da média para direita e esquerda temos 68% da amostra, etc. Quando “conhecemos” a distribuição de probabilidade de uma variável aleatória podemos fazer inferências.

variável aleatória X distribuição normal? Grande parte dos fenômenos sociais seguem a distribuição normal. Por exemplo, vários estudos mostram que: A maioria dos QI se situam entre 90 e 100; há uma descida gradual para a calda com algumas pessoas com QI superior a 140 e pouquíssimas com QI abaixo de 60. Fazer os gráficos das distribuições no quadro enquanto vai explicando.

Será que toda variável aleatória segue distribuição normal? Algumas variáveis aleatórias não seguem a distribuição normal: É conhecido que a distribuição de riqueza é extremamente assimétrica (uma pequena parcela da população recebe grande parte da renda. Fazer os gráficos das distribuições no quadro enquanto vai explicando. Ao final falar que para este curso, que é uma introdução a avaliação econômica consideraremos que todas as variáveis utilizadas seguem uma distribuição normal. Claro que se não seguirem as estimativas conterão algum erro. Mas para introduzirmos a avaliação sem considerar a distribuição normal, ´seria necessário um conhecimento mais aprofundado de estatística.

Formulando as hipóteses nula e alternativa Pode-se contar com expectativas teóricas ou com trabalhos empíricos anteriores – ou com ambos – para formular hipóteses. Obs.: independentemente de como são formuladas, é extremamente importante que o pesquisador estabeleça estas hipóteses antes de realizar a investigação empírica.

Tipos de Erros Tipo I: probabilidade de rejeitar a hipótese nula sendo ela verdadeira. Via de regra é estabelecido pelo pesquisador, e equivale ao nível de significância. Tipo II: probabilidade de aceitar a hipótese nula sendo ela falsa.

O Significado de “aceitar” ou “rejeitar” uma hipótese Com base em um teste de significância (por ex., teste t), decide-se “aceitar” a hipótese nula, então com base na evidencia da amostra, não se tem nenhuma razão para rejeitá-la. Lembre-se que, ao “aceitar” uma hipótese nula, deve-se sempre estar ciente de que uma outra hipótese nula pode ser igualmente compatível com os dados. Daí, é preferível dizer que podemos aceitar H0 ao afirmar que a aceitamos.

Inferência Por trabalharmos com amostras, o que fazemos é: Com base nos resultados da amostra fazemos inferência sobre a população. Por exemplo: Se encontramos que 60% da amostra é composta por mulheres, dizemos que 60% da população também são mulheres. Se 51% da nossa amostra vota no candidato X , então dizemos que o candidato X terá 51 % dos votos da nossa população. A inferência pode conter um erro devido ao erro de amostragem. Ou seja, esta inferência pode estar errada simplesmente porque a amostra contem um erro de representação. 27

Inferência X distribuição normal Se a variável segue a distribuição normal, então podemos calcular qual a probabilidade de obter qualquer média amostral. Para isto retomemos a curva normal Ex: Com 68% de probabilidade a média populacional pode estar entre um desvio padrão (para mais e para menos) da média amostral.

Intervalo de confiança Em geral, não conhecemos a média e o desvio padrão da variável na população. O que conhecemos é a média e o desvio padrão amostral. Assim não temos como calcular o verdadeiro valor da média populacional, na qual estamos interessados ao fazer a pesquisa amostral? A resposta é não. Entretanto, com base nos resultados da amostra podemos construir o intervalo de valores dentro do qual a verdadeira média populacional pode estar. Isto considerando uma probabilidade de que a média populacional realmente cairá neste intervalo., chamado de Intervalo de Confiança. 29

Calculo do Intervalo de confiança Se a variável segue uma distribuição normal, uma estimativa do desvio padrão populacional pode ser estimado por meio de: Onde: é o desvio padrão da população s é o erro padrão da amostra N é o tamanho da amostra 30

Intervalo de confiança e a distribuição normal para amostra 68% Reparem que quanto maior o desvio padrão e quanto menor, maior será a amplitude o intervalo de confiança 95%

Intervalo de confiança de 95% para a média amostral

Exemplo Suponha uma amostra de 99 escolas. Nesta amostra obtemos um gasto médio mensal de 23.800,00 reais e desvio padrão de 43978,44. Qual o intervalo de confiança a 95% ? O governo provavelmente está fazendo propaganda enganosa. Falar que este valor é chamado de p-valor 33

Graficamente 95% Reparem que quanto maior o desvio padrão e quanto menor, maior será a amplitude o intervalo de confiança 34

Probabilidade de um valor Se em vez de querer saber qual o intervalo de confiança da média populacional utilizando uma amostra, estejamos interessados em saber qual a probabilidade de um determinado valor ocorrer, como fazer? Utilizamos uma tabela de escores da curva normal. Esta tabela foi construída com base em quantos desvios padrões o valor que queremos se distancia da média. Assim, para utilizá-la calculamos: s/raiz de n é a estimaçao da variancia da populaçao como vimos anteriormente Xi-X é a distancia da observaçao a média. Quando fazemos esta divisão estamos vendo em termos de desvio padráo quanto é a distancia. Por exemplo, se Z é 1,96 significa que a distancia é 1,96 desvios padrões da média. Para este caso já sabemos que a probabilidade de ocorrencia é 95%. Mostrar como usa a tabela. 35

Exemplo Suponha que um Estado divulgou que gasta, em média, 34.000,00 reais por mês com merenda nas escolas. Duvidando da informação fizemos uma amostra de 99 escolas. Nesta amostra obtemos um gasto médio mensal menor de 23.800,00 reais e desvio padrão de 43978,44. Qual a probabilidade de 34.000,00 ser realmente a média das escolas? Montamos o seguinte teste: H0: μ=34.000,00 Contra H1: μ<34.000,00 O governo provavelmente está fazendo propaganda enganosa. Falar que este valor é chamado de p-valor 36

Exemplo Olhando na tabela encontramos um valor de 48,96. Ou seja, 48,96% das médias amostrais se situam entre 23.800,00 e 34.000,00 reais, estão abaixo deste valor. Quase toda a amostra. Fazendo 50%- *48,96% = 1,04%. Portanto, somente 1,04% da amostra está acima deste valor. Ou seja, vamos se rejeitar H0 a chance de estar errando é 1,04%, logo rejeito H0 O governo provavelmente está fazendo propaganda enganosa. Falar que este valor é chamado de p-valor 37

O nível exato de significância: o valor p Definido como o mais baixo nível de significância com o qual a hipótese nula pode ser rejeitada. Também conhecido como nível de significância observado ou exato, ou a probabilidade exata de cometer um erro Tipo I.

Escolhendo o nível de significância Se o erro de rejeitar a hipótese nula que de fato é verdadeira (Erro Tipo I) for dispendioso relativamente ao erro de não rejeitar a H0 que de fato é falsa (Erro tipo II), será racional estabelecer uma pequena probabilidade de cometer o primeiro tipo de erro. Se, por outro lado, o custo de cometer um Erro Tipo I for baixo relativamente ao custo de cometer um Erro Tipo II, vale a pena estabelecer como grande a probabilidade do primeiro tipo de erro (tornando assim pequena a probabilidade do segundo tipo de erro).

Teste de diferença de médias Suponha agora que estamos interessados em comparar a média de uma variável aleatório com base em duas amostras diferentes. Para isto podemos fazer o teste de diferenças entre médias Como as médias são calculadas a partir de uma amostra da população, a diferença matemática observada entre elas pode ser apenas devido a um erro amostral. Portanto, uma diferença entre duas médias amostrais não representa uma verdadeira diferença entre as médias populacionais.

Teste de diferenças entre médias Hipótese Nula: Não há diferença entre as Médias Populacionais H0: μ 1= μ 2 μ 1= média na população 1 μ 2= média na população 2 Hipótese experimental: há diferença entre as Médias Populacionais H1: μ 1≠ μ 2

Onde: é a média amostral é a diferença do erro padrão de cada média Para testarmos esta hipótese com uma probabilidade conhecida de acerto, precisamos calcular os chamados escores Z, supondo que a distribuição da variável é normal. Onde: é a média amostral é a diferença do erro padrão de cada média s é a variancia da amostra N é o tamanho da amostra 42

Z de teste Uma vez encontrado o Z de teste calculado pela fórmula do slide anterior, utilizamos uma tabela de Porcentagem da Área sob a Curva Normal - Z, para obtermos a probabilidade de não rejeitarmos H0. Fazendo 100- 2 vezes a probabilidade calculada na tabela, temos a estatística conhecida como P-valor, que nos fornece a probabilidade de erro ao rejeitarmos H0. Explicar que para saber a probabilidade de acerto temos que olhar na tabela de Z de teste. Explicar a tabela de Z: na linha temos o valor de Z e uma casa decimal e na coluna o valor da centena. No caso em questão estamos testando que X1=X2 ou X1-X2=0. O valor da tabela é unicaldal, portanto multiplicamos por dois para saber a prob. Se fizermos 100- prob temos P valor (erro da estimativa). Erro em rejeitar H0. ex. Pvalor é 0,20, se rejeitarmos H0 o faríamos com uma prob de 20% de estarmos errando.

Z de teste- Exemplo Ex: Considere o teste de diferença de média entre duas amostras com o Z=0,68. Olhando na tabela encontramos a probabilidade 25,17, multiplicando por 2 temos 50,34% de acerto. O P-valor é de 49,66% (100-50,34) Isto significa que se rejeitarmos H0 estariamos errando a uma probabilidade de 49,66%. Assim, não rejeitamos H0 e dizemos que a diferença entre as médias amostrais não é significativa. Obs: estas médias podem ser matematicamente diferentes, mas esta diferença é devida a erro amostral.

Passos para o teste de diferença de médias 1o passo: Obter as médias amostrais 2o passo: achar o desvio padrão de cada amostra 3o passo: Calcular o erro padrão de cada média 4o passo:Achar a diferença do erro padrão das médias 5o passo: Achar a estatística Z 6o passo: Usando a tabela obter a probabilidade de acerto 7o passo: subtrair de 100% a probabilidade de acerto para achar o P-valor.

Regra prática “2-t” Se o número de graus de liberdade for 20 ou mais, e se o nível de significância, for estabelecido em 0,05, então a hipótese nula pode ser rejeitada se o valor for maior que 2 em valor absoluto.

Comentários Finais Aula de hoje: trabalhamos conceitos de estatística que serão utilizados na avaliação econômica. Próxima aula: apresentaremos os procedimentos para realizar a avaliação de impacto quando o grupo de controle foi aleatoriamente selecionado.