Coleta e Modelagem dos Dados de Entrada

Slides:



Advertisements
Apresentações semelhantes
DISTRIBUIÇÕES AMOSTRAIS
Advertisements

Estimação de parâmetros
Introdução ao processamento de dados e à estatística - parte 02
Algoritmos para Geração de Variáveis Aleatórias
ESTATÍSTICA INFERÊNCIA ESTATÍSTICA
Introdução à Simulação e Teoria das Filas
Medidas de Tendência Central DADOS AGRUPADOS
Metodologia Científica e Tecnológica
Medidas de Posição e Dispersão
Uso do software Arena na análise de sistemas de saúde: um estudo de caso no pronto socorro de um hospital e maternidade do município de Santo André Aluno:
Estatística Aula 01 Prof. Marllus Gustavo Ferreira Passos das Neves
DIAGRAMA DE CASOS DE USO PERSPECTIVA CONCEITUAL
Estatística 8 - Distribuições Amostrais
Estatística Básica Utilizando o Excel
Estatística Básica Utilizando o Excel
Capítulo 7 Teste de Hipóteses
MB751 – Modelos de previsão
Testes de Hipóteses Forma mais clássica de inferência estatística
Estatística Aplicada (Aula 4)
Estatística Aplicada (Aula 5)
Estatística Aplicada (Aula 4)
Estatística Descritiva
Estatística e Probabilidade
Estatística Descritiva
ESTATÍSTICA.
TESTE DE HIPÓTESES DESENVOLVENDO A HIPÓTESE NULA E ALTERNATIVA
Uma avaliação do consumo de energia em rede de sensores sem fio
Geração de Números Aleatórios
Criação do Modelo Conceitual
Simulação e Otimização
O que é Simulação? Capítulo 1 Páginas 3-23 Prof. Afonso C Medina
Verificação e Validação de Modelos de Simulação
Implementação Computacional do Modelo de Simulação e Softwares de Simulação Capítulo 4 Páginas Este material é disponibilizado para uso exclusivo.
Técnicas Experimentais Aplicadas em Ciência do Solo
Aula 0. Doces Lembranças de MAE0219
Estatística Descritiva (I)
ME623A Planejamento e Pesquisa
ME623 Planejamento e Pesquisa
TESTES DE HIPÓTESES Spencer Barbosa da Silva
Exponential Random Graph Models
ANOVA: Análise de Variância APLICAÇÃO.
Medidas de Dispersão ou de Variabilidade:
Estatística Para um dado conjunto de dados, podemos calcular as seguintes grandezas: 1) Medidas de posição 2) Medidas de dispersão 3) Parâmetros de simetria.
Modelagem Estatística
O que é Estatística, afinal de contas?
Dimensionamento de Corridas e Análise de Resultados
AULA DE ESTATÍSTICA PROFESSOR RODRIGÃO.
ESTATÍSTICA.
Amostragem Pontos mais importantes:
Modelagem Estatística
CLASSES: SÃO INTERVALOS DE VARIAÇÃO DA VARIÁVEL.
Site: Estatística Prof. Edson Nemer Site:
ANÁLISE ESTATÍSTICA II
Estatística Inferencial (cap. 7 Martins)
Estatística.
ANÁLISE ESTATÍSTICA II
ANÁLISE ESTATÍSTICA II
ANÁLISE ESTATÍSTICA II
Inferência Estatística
Teste de Hipótese.
Nome alunos 1 Título UC. Título – slide 2 Conteúdo Conteúdo 2.
Medidas Descritivas ESTATISTICA Aula 5 PROF: CÉLIO SOUZA.
Medidas de tendência central e de dispersão
Medidas de Dispersão Aula 8.
Aula 11 - Teste de hipóteses, teste de uma proporção
COMPARAÇÃO DE DUAS POPULAÇÕES
Lição nº52 e /11/2013 Sumário: Tratamento de Dados: frequências, mediana,gráficos e dados agrupados em classes.
Professor Antonio Carlos Coelho
PROBABILIDADE E ESTATÍSTICA APLICADA À ENGENHARIA
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)Slide 1 Prof. Afonso C. Medina Prof. Leonardo Chwif Implementação Computacional do Modelo.
Transcrição da apresentação:

Coleta e Modelagem dos Dados de Entrada Capítulo 2 Páginas 24-52 Este material é disponibilizado para uso exclusivo de docentes que adotam o livro Modelagem e Simulação de Eventos Discretos em suas disciplinas. O material pode (e deve) ser editado pelo professor. Pedimos apenas que seja sempre citada a fonte original de consulta. Prof. Afonso C. Medina Prof. Leonardo Chwif Versão 0.2 30/09/06 Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)

Três Etapas Coleta Tratamento Inferência

Coleta dos Dados Escolha adequada da variável de estudo O tamanho da amostra deve estar entre 100 e 200 observações. Amostras com menos de 100 observações podem comprometer a identificação do melhor modelo probabilístico, e amostras com mais de 200 observações não trazem ganhos significativos ao estudo;

Coleta dos Dados Coletar e anotar as observações na mesma ordem em que o fenômeno está ocorrendo, para permitir a análise de correlação ; Se existe alguma suspeita de que os dados mudam em função do horário ou do dia da coleta, a coleta deve ser refeita para outros horários e dias. Na modelagem de dados, vale a regra: toda suspeita deve ser comprovada ou descartada estatisticamente.

Exemplo 2.1: Filas nos Caixas do Supermercado Um gerente de supermercado está preocupado com as filas formadas nos caixas de pagamento durante um dos turnos de operação. Quais seriam as variáveis de estudo para coleta de dados? (S) ou (N). ( ) O número de prateleiras no supermercado N ( ) Os tempos de atendimento nos caixas S É resultado!! ( ) O número de clientes em fila N ( ) O tempo de permanência dos clientes no supermercado N ( ) Os tempos entre chegadas sucessivas de clientes nos caixas de pagamento S

Exemplo 2.1: Coleta de Dados Intervalo entre chegadas de pessoas nos caixas do supermercado (100 medidas). Tempos em minutos:

Exemplo 2.1: Medidas de Posição e Dispersão Média 10,44 Mediana 5 Moda 3 Mínimo Máximo 728 Medidas de dispersão Amplitude Desvio padrão 51,42 Variância da amostra 2.643,81 Coeficiente de Variação 493% Coeficiente Assimetria 13,80 O 728 é um outlier?

Exemplo 2.1: Outlier Intervalo entre chegadas de pessoas nos caixas do supermercado (100 medidas). Tempos em minutos:

Outliers ou Valores Discrepantes Erro na coleta de dados. Este tipo de outlier é o mais comum, principalmente quando o levantamento de dados é feito por meio manual. Eventos Raros. Nada impede que situações totalmente atípicas ocorram na nossa coleta de dados. Alguns exemplos: Um dia de temperatura negativa no verão da cidade do Rio de Janeiro; Um tempo de execução de um operador ser muito curto em relação aos melhores desempenhos obtidos naquela tarefa; Um tempo de viagem de um caminhão de entregas na cidade de São Paulo, durante o horário de rush, ser muito menor do que fora deste horário.

Exemplo 2.1: Outlier (valor discrepante) Dados com o outlier sem o outlier Média 10,44 6,83 Mediana 5 Variância da amostra 2.643,81 43,60

Identificação de Outliers: Box-plot 5 10 15 20 A B C Séries Valores mediana outlier Q 1 3 -1,5( - ) +1,5(

Análise de Correlação Diagrama de dispersão dos tempos de atendimento do exemplo de supermercado, mostrando que não há correlação entre as observações da amostra.

Análise de Correlação Diagrama de dispersão de um exemplo hipotético em que existe correlação entre os dados que compõem a amostra.

Exemplo 2.1: Construção do Histograma O histograma é utilizado para identificar qual a distribuição a ser ajustada aos dados coletados ou é utilizado diretamente dentro do modelo de simulação. 1. Definir o número de classes: 2. Definir o tamanho do intervalo: 3. Construir a tabela de freqüências 4. Construir o histograma

Exemplo 2.1: Histograma

Exemplo 2.1: Inferência Qual o melhor modelo probabilístico ou distribuição estatística que pode representar a amostra coletada? Lognormal? x f ( ) µ =1 σ =0,5 x f ( ) 1/ λ x f ( ) a b m Triangular? x f ( ) µ Normal? Exponencial?

Testes de Aderência (não paramétricos) Testa a validade ou não da hipótese de aderência (ou hipótese nula) em confronto com a hipótese alternativa: H0: o modelo é adequado para representar a distribuição da população. Ha: o modelo não é adequado para representar a distribuição da população. Se a um dado nível de significância (100)% rejeitarmos H0, o modelo testado não é adequado para representar a distribuição da população. O nível de significância  equivale à probabilidade de rejeitarmos a hipótese nula H0, dado que ela está correta. Testes usuais: Qui quadrado Kolmogorov-Sminov

Teste do Qui-quadrado

P-value Parâmetro usual nos softwares de estatística. Para o teste do qui- quadrado no Excel, utilizar: =DIST.QUI (valor de E; graus de liberdade) Valor Critério p-value<0,01 Evidência forte contra a hipótese de aderência 0,01p-value<0,05 Evidência moderada contra a hipótese de aderência 0,05p-value<0,10 Evidência potencial contra a hipótese de aderência 0,10p-value Evidência fraca ou inexistente contra a hipótese de aderência

Distribuições discretas: Binomial x f ( )

Distribuições discretas: Poisson

Distribuições contínuas: Beta α =1,5 β =5 α =6 β =2 f ( x ) α =4 β =4 α =2 α =2 α =3 β =1 β =1 α =2 β =2 β =3 x 0,5 1

Distribuições contínuas: Erlang x f ( ) λ =0,5 k= 3 =0,2 10

Distribuições contínuas: Exponencial f ( ) 1/ λ

Distribuições contínuas: Gama f ( x ) α =0, α =1 α =2 x

Distribuições contínuas: Lognormal µ =1 σ =0,5 f ( x ) µ =1 σ =1 x

Distribuições contínuas: Normal f ( x ) µ

Distribuições contínuas: Uniforme ( x ) 1 / ( b-a ) x a b

Distribuições contínuas: Triangular f ( x ) a m b x

Distribuições contínuas: Weibull f ( x ) α =0,5 β =1 α =3 β =1 α =2 =1 β =1 α β =1 α =3 β =2 x

Modelagem de dados... Sem dados! Distribuição Parâmetros Características Aplicabilidade Exponencial Média Variância alta Cauda para direita Grande variabilidade dos valores Independência entre um valor e outro Muitos valores baixos e poucos valores altos Utilizada para representar o tempo entre chegadas sucessivas e o tempo entre falhas sucessivas Triangular Menor valor, moda e maior valor Simétrica ou não Quando se conhece ou se tem um bom “chute” sobre a moda (valor que mais ocorre), o menor valor e o maior valor que podem ocorrer Normal Média e desvio-padrão Simétrica Forma de sino Variabilidade controlada pelo desvio-padrão Quando a probabilidade de ocorrência de valores acima da média é a mesma que valores abaixo da média Quando o tempo de um processo pode ser considerado a soma de diversos tempos de sub-processos Processos manuais Uniforme Maior valor e menor valor Todos os valores no intervalo são igualmente prováveis de ocorrer Quando não se tem nenhuma informação sobre o processo ou apenas os valores limites (simulação do pior caso) Discreta Valores e probabilidade de ocorrência destes valores Apenas assume os valores fornecidos pelo analista Utilizada para a escolha de parâmetros das entidades (por exemplo: em uma certa loja, 30% dos clientes realizam suas compras no balcão e 70% nas prateleiras) Quando se conhecem apenas “valores intermediários” da distribuição ou a porcentagem de ocorrência de alguns valores discretos