A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

2 Marcelo Marinho DRE: Mariana Belmar DRE:

Apresentações semelhantes


Apresentação em tema: "2 Marcelo Marinho DRE: Mariana Belmar DRE:"— Transcrição da apresentação:

1 2 Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138
Alunos: Marcelo Marinho DRE: Mariana Belmar DRE: Thiego Batalha DRE:

2 Introdução A dengue é uma doença infecciosa aguda de curta duração, que possui gravidade variável, podendo inclusive, em alguns casos, levar à morte. Ela é transmitida pelo mosquito Aedes aegypti infectado, encontrado em áreas tropicais e subtropicais do mundo, inclusive no Brasil, pois as condições do meio ambiente favorecem o seu desenvolvimento e proliferação.

3 Caracterização da categoria
Descrição do problema Com base no banco de dados disponível, referente aos anos de e 2002, verificar a possibilidade de predizer se o indivíduo possui ou não dengue através dos dados clínicos. Caracterização da categoria Para o problema acima descrito, será utilizada uma predição.

4 Fonte dos dados Sistema de Informação de Agravos de Notificação (SINAN) do Ministério da Saúde.

5 Dados excluídos A princípio, foram mantidas as variáveis:
Dados clínicos (todas); Antecedentes epidemiológicos (DENGUE, ANO, VACINADO e DT_DOSE); Dados de perfil (NU_IDADE, CS_SEXO, CS_RACA, CS_ESCOLAR e CS_ZONA); e Conclusão (ID_DG_NOT).

6 Dados errados Observamos erros significativos baseados em cruzamentos simples de informações entre duas variáveis correlacionadas. Em alguns casos, tivemos observações com valores absurdos entre variáveis correlacionadas, que foram corrigidas ou excluídas da amostra, de acordo com o caso.

7 Transformação das variáveis
Dados faltantes (missings) Na maioria das variáveis mantidas no banco de dados, foi observado um imenso número de dados faltantes (missings). Em alguns casos, esse problema pôde ser contornado através de variáveis correlacionadas presentes no banco. Nos demais casos, foram considerados “9” (ignorado) os dados faltantes. Transformação das variáveis Nos casos de variáveis de data, foi deixado para a análise do banco apenas o ano referente, por questões de praticidade. Foram padronizadas também as datas que apresentavam diferenças entre si e também as informações fornecidas nos três campos referentes à especificação do caso “outros”.

8 Significância das variáveis
As variáveis mantiveram um padrão semelhante ao da distribuição da variável utilizada como parâmetro.

9 Frequências da variável resposta ID_DG_NOT

10 Evidências de falta de significância
Informações presentes em outros campos subseqüentes, o que torna redundante a informação; e Falta de informação para a análise, pois a maioria das observações disponíveis eram missings.

11 Banco de Dados Após as análises e tratamentos apresentados, nosso banco de dados final ficou com 20 variáveis, além da variável resposta ID_DG_NOT. São elas:

12 Seleção do método Utilizou-se o procedimento hierárquico chamado árvore de classificação, para melhor visualização e entendimento do modelo; e Dentro deste procedimento foi aplicado o método CART (Classification Regression Tree).

13 Ajuste do modelo Tentativas de bondade de ajuste: medida Gini e Qui-quadrado; Em ambas as tentativas foi utilizada a poda por erro de classificação e a poda por “deviance”; Assumiu-se probabilidades a priori estimadas para os resultados da variável resposta; e Utilização de uma amostra de 8985 casos extraídos do banco de dados com os casos de dengue do ano de 2001.

14

15 Matriz de confusão

16 Gráficos de alavancagem do ajuste obtido com o banco de dados de 2001

17 Gráficos de alavancagem obtido usando uma amostra do banco de 2002

18 Resultados da validação
100 5 4 3 2 0,03 99,97 1 Valores observados Valores preditos Percentuais 7227 Total 251 5 4 41 3 2 6935 1 Resposta Banco de dados de 2002

19 Implementação Preparação do modelo para sua utilização;
Modelo ajustado através do método de Árvore de classificação; Parâmetros da árvore ajustada: Teste de bondade de ajuste: qui-quadrado; Poda: erro de classificação; e Probabilidades a priori para a variável resposta ID_DG_NOT: estimada.

20 Implementação Utilização da amostra de validação com os casos de dengue do ano de 2002 (7227 casos); Exclusão de variáveis desnecessárias. ARTRALGIA DOR ANO VACINADO PROSTACAO LACO ID_DG_NOT EXANTEMA Variável de saída Variáveis de entrada Utilizando o modelo de árvore de classificação escolhido, será feita a predição se o indivíduo possui dengue ou não, onde o resultado da predição será apresentado na variável de saída.

21 Árvore de Classificação escolhida

22 Retorno do Investimento (ROI)
Avaliação do impacto financeiro do projeto; ROI: neste caso, o retorno seria uma redução nos custos da realização de exame de sangue para confirmação do diagnóstico de dengue; Cálculo do ROI será baseado utilizando o custo de fazer exame de sangue para confirmação da doença; Custo do exame de sangue: R$ 20,00; Foram calculados três ROI´s: Considerando a amostra de treinamento do banco de dados com os casos de dengue do ano de 2001 (7147 casos); Considerando a amostra de validação do banco de dados com os casos de dengue do ano de 2001 (1838 casos); e Considerando a amostra de validação do banco de dados com os casos de dengue do ano de 2002 (7227 casos).

23 Retorno do Investimento (ROI)
Amostra de treinamento do banco de dados de 2001: 3 5 4 1 2 1822 10 5306 Predito Observado Amostra de treinamento 0,0420% Redução: R$ ,00 Custo com o modelo: R$ ,00 Custo sem o modelo: ROI considerando amostra de treinamento do banco de 2001

24 Retorno do Investimento (ROI)
Amostra de treinamento do banco de dados de 2001: Custo sem o modelo: R$ 20,00 x 7147 = R$ ,00 Custo com o modelo: R$ 20,00 x 7144 = R$ ,00 ROI: (R$ ,00 – R$ ,00) / R$ ,00 = 0,0420 %

25 Retorno do Investimento (ROI)
Amostra de validação do banco de dados de 2001: 5 4 3 2 487 1346 1 Predito Observado Amostra de validação banco de 2001 0% Redução: R$ ,00 Custo com o modelo: Custo sem o modelo: ROI considerando amostra de validação do banco de 2001

26 Retorno do Investimento (ROI)
Amostra de validação do banco de dados de 2001: Custo sem o modelo: R$ 20,00 x 1838 = R$ ,00 Custo com o modelo: ROI: (R$ ,00 – R$ ,00) / R$ ,00 = 0 %

27 Retorno do Investimento (ROI)
Amostra de validação do banco de dados de 2002: 5 2 4 3 251 41 6933 1 Predito Observado Amostra de validação banco de 2002 0% Redução: R$ ,00 Custo com o modelo: Custo sem o modelo: ROI considerando amostra de validação do banco de 2002

28 Retorno do Investimento (ROI)
Amostra de validação do banco de dados de 2002: Custo sem o modelo: R$ 20,00 x 7227 = R$ ,00 Custo com o modelo: ROI: (R$ ,00 – R$ ,00) / R$ ,00 = 0 %


Carregar ppt "2 Marcelo Marinho DRE: Mariana Belmar DRE:"

Apresentações semelhantes


Anúncios Google