A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

1 BUSINESS INTELLIGENCE MASTER Projeto de Sistema Inteligente de Apoio à Decisão.

Apresentações semelhantes


Apresentação em tema: "1 BUSINESS INTELLIGENCE MASTER Projeto de Sistema Inteligente de Apoio à Decisão."— Transcrição da apresentação:

1 1 BUSINESS INTELLIGENCE MASTER Projeto de Sistema Inteligente de Apoio à Decisão

2 ESTUDO DE CASO 2: Inferência da Qualidade de Produtos de Destilação

3 Metodologia 1.Identificação do Problema 2.Estudo do Problema  Diagnóstico da situação atual  Definição dos objetivos  Avaliação e análise dos dados disponíveis 3.Definição de Escopo do Projeto 4.MODELAGEM: Esboço da Metodologia para solução do problema 5.Desenvolvimento 6.Testes 7.Avaliação 8.Implementação da(s) alternativa(s) escolhida(s) 9.Avaliação dos resultados 10.Revisão da solução SBAI200 9

4 Identificação do Problema  Refinarias produzem diferentes produtos, com características distintas, dependendo da destinação do produto  Essas características são resultantes da configuração da torre de destilação (temperatura, pressão, vazão, etc.)

5 Características geológicas definem o aspecto físico e a composição química. Identificação do Problema

6  Dentro das variáveis de processo destaca-se a importância de quatro grandezas físicas que representam 90% do controle necessário para a produção de derivados, são elas: Pressão, Temperatura, Vazão e Nível. Identificação do Problema

7  Refinarias produzem diferentes produtos, com características distintas, dependendo da destinação do produto  Essas características são resultantes da configuração da torre de destilação (temperatura, pressão, vazão, etc.)  Como garantir que o produto resultante esteja sempre dentro das especificações desejadas?

8 Identificação do Problema  É necessário um monitoramento constante da qualidade dos produtos de destilação  Análise de laboratório demanda muito tempo  Analisadores de processo on-line são muito caros

9 Estudo do Problema  Atualmente a qualidade do produto é analisada em laboratório  Cada análise demanda em torno de 4 a 5 horas  média de 4 a 5 valores por dia Diagnóstico da situação atual :

10  Desenvolver um sistema de monitoramento online, capaz de avaliar continuamente a qualidade dos produtos derivados do petróleo Estudo do Problema Definição dos objetivos :

11 Estudo do Problema Avaliação dos dados disponíveis : Refinaria do Paraná (REPAR), operada pela Petrobras –Janeiro de 2000 a Junho de 2001 –Um valor por minuto (total de valores) –81 sensores distribuídos ao longo da planta Variável de qualidade do produto: Temperatura do ponto de destilação de 85% do óleo Diesel (ASTM) –3 valores por dia (total de valores)

12 Características  Entrada=Leitura de 81 instrumentos armazenando um valor por minuto;  Saída=Análise laboratorial;  Período de 1 ano. Estudo do Problema Avaliação dos dados disponíveis: disponíveis:

13 Etapas do Trabalho Pré-ProcessamentoInferência Definição dos padrões de i/o Seleção de Variáveis Modelagem

14 Pré-ProcessamentoInferência Definição dos padrões de i/o Seleção de Variáveis SegmentaçãoNormalizaçãoEqualizaçãoValidaçãoLimpeza Etapas do Trabalho Modelagem

15 Análise dos Dados  Valores discrepantes e falhas de aquisição;  Metade dos dados estavam sem a definição dos respectivos instrumentos;  Faixas de medição inconsistentes com faixas de operação;  Sensores com pouquíssimas ou nenhuma variação durante todo o ano. Pré-Processamento dos Dados: Modelagem

16 Ações tomadas:  Eliminação de instrumentos com sensoriamento danificado;  Verificação dos dados que estavam sem identificação de instrumento;  Adequação das faixas de operação de cada instrumento cruzando a informação fornecida pelo CENPES.  Substituição dos instantes sem leitura pelos períodos anteriores. Pré-Processamento dos Dados: Limpeza: Modelagem

17 EntradasSaída Pré-Processamento dos Dados: Resultado da Limpeza: Modelagem

18 Pré-ProcessamentoInferência Definição dos padrões de i/o Seleção de Variáveis SegmentaçãoNormalizaçãoEqualizaçãoValidaçãoLimpeza Etapas do Trabalho Modelagem

19 Entradas Saída # # Pré-Processamento dos Dados: Segmentação: Modelagem

20 Resultado: A saída aglomera as transições que representam as análises de laboratório e as entradas transformam- se em 771 janelas com instantes anteriores à transição da saída. Pré-Processamento dos Dados: Segmentação: Modelagem

21 Pré-ProcessamentoInferência Definição dos padrões de i/o Seleção de Variáveis SegmentaçãoNormalizaçãoEqualizaçãoValidaçãoLimpeza Etapas do Trabalho Modelagem

22 Resultado:  As janelas de entradas foram reduzidas de 771 para 664. Ações tomadas: Eliminação das janelas com baixa relevância ao processo  Para cada variável do processo calculou-se a Média (m) e o Desvio Padrão (d);  Arbitrou-se que, se o ponto pertencente à variável estivesse acima da faixa m+1,96*d ou abaixo de m-1,96*d, este deveria ser sinalizado.  Se o número destes pontos excedesse 11% do total, esta variável era marcada como defeituosa.  Se o número de variáveis defeituosas fosse maior que 12% a janela deveria ser rejeitada. Pré-Processamento dos Dados: Validação: Modelagem

23 Pré-ProcessamentoInferência Definição dos padrões de i/o Seleção de Variáveis SegmentaçãoNormalizaçãoEqualizaçãoValidaçãoLimpeza Etapas do Trabalho Modelagem

24 Pré-Processamento dos Dados: Normalização: Modelagem  dados medidos pelos sensores diferem enormemente em unidades e valores. –Padrão –Padrão: remover o valor médio de cada sinal e dividi-lo por seu desvio padrão  média zero, variância unitária  difícil implementação na prática –Faixa de variação –Faixa de variação: usa a faixa nominal de cada sensor i  limitada por [0,1]

25  Normaliza os dados de entrada e saída convertendo seus valores para faixa de 0 a 1;  Isto facilita o treinamento da rede usando função de ativação sigmóide. Pré-Processamento dos Dados: Normalização: Modelagem

26 Pré-Processamento dos Dados: Normalização: Modelagem

27 Pré-ProcessamentoInferência Definição dos padrões de i/o Seleção de Variáveis SegmentaçãoNormalizaçãoEqualizaçãoValidaçãoLimpeza Etapas do Trabalho Modelagem

28  Equaliza a saída do sistema através do histograma dos dados. (0-1). Pré-Processamento dos Dados: Equalização: Modelagem

29 Vantagens deste processamento  Em termos práticos, esta ação melhora a faixa dinâmica de utilização do neurônio de saída, evitando que os mesmos atuem somente em uma pequena porção da faixa ativa. Pré-Processamento dos Dados: Equalização: Modelagem

30 Pré-ProcessamentoInferência Definição dos padrões de i/o Seleção de Variáveis Etapas do Trabalho Modelagem Devido ao grande número de variáveis de entrada (81), as seguintes técnicas para seleção de variáveis foram usadas:Devido ao grande número de variáveis de entrada (81), as seguintes técnicas para seleção de variáveis foram usadas: –Análise de Componentes Principais (PCA) –Correlação Cruzada (CORR) –Determinação Automática de Relavância (ARD) –Estimador por Mínimos Quadrados (LSE)

31 Inferência por Redes Neurais Bayesianas –Uma das técnicas mais usadas na indústria do petróleo –Algoritmo multivariável –Algoritmo multivariável que projeta os dados em um espaço de menor dimensão variância cumulativa seja 95% da variância total. –Procedimento para seleção de variáveis: selecionar um número L de componentes principais tais que a variância cumulativa seja 95% da variância total. Modelagem Seleção de Variáveis: Análise de Componentes Principais:

32 Inferência por Redes Neurais Bayesianas –Principal desvantagem do PCA: considera somente a matriz de entrada, e não sua relação com o vetor de saída correlação cruzada –A correlação cruzada intrinsecamente considera tal relação. Modelagem Seleção de Variáveis: Correlação Cruzada:

33 Objetivo  Indicar as variáveis de entrada que melhor se relacionam com a saída inferida.  Determinar os atrasos (dead times) correspondentes a cada variável. Modelagem Seleção de Variáveis: Correlação:

34 Inferência por Redes Neurais Bayesianas –Principal desvantagem do PCA: considera somente a matriz de entrada, e não sua relação com o vetor de saída correlação cruzada –A correlação cruzada intrinsecamente considera tal relação. as diferentes taxas de amostragem –O algoritmo original foi adaptado para considerar as diferentes taxas de amostragem para entrada e saída: Modelagem Seleção de Variáveis: Correlação Cruzada:

35 Inferência por Redes Neurais Bayesianas –Utilizada para dois propósitos: cálculo de médiascálculo de médias seleção de variáveisseleção de variáveis –Para seleção de variáveis: calcular a função c i () para todas as 81 variáveis;calcular a função c i () para todas as 81 variáveis; determinar o valor máximo dessa função para cada variável;determinar o valor máximo dessa função para cada variável; selecionar as variáveis com maiores valores de correlação.selecionar as variáveis com maiores valores de correlação. Modelagem Seleção de Variáveis: Correlação Cruzada:

36 Dead-time Modelagem Seleção de Variáveis: Correlação Cruzada:

37 Aplicando Considerando um sistema de n entradas (X) e 1 saída (Y), o método LSE calcula a importância da iésima variável de entrada estimando o iésimo parâmetro b da função (Y = X*b) que descreve a variação da variável da saída em relação a cada iésima de entrada sobre o conjunto de dados. Ps. Faz-se uma regressão multivariável das variações das entradas em relação à variação da saída, obtendo o vetor de coeficientes b. Modelagem Seleção de Variáveis: Estimador de Mínimos Quadrados (LSE):

38 Supondo: X= entradas do sistema [664x37]/janela Y= saídas do sistema [664x1]/janela  Então teremos: Modelagem Seleção de Variáveis: Estimador de Mínimos Quadrados (LSE):

39 Supondo: X = Diferença entre entradas Y = Diferença entre Saídas Modelagem Seleção de Variáveis: Estimador de Mínimos Quadrados (LSE):

40 Aplicando  Para encontrar o b: Y = X x b => b =  X-1 x Y  Recurso matemático: Cálculo da Pseudo Inversa: b = ((X’ x X) -1 x X’) x Y  Grau LSE = abs(b)./sum(abs(b)); Modelagem Seleção de Variáveis: Estimador de Mínimos Quadrados (LSE):

41 Pré-ProcessamentoInferência Definição dos padrões i/o Seleção de Variáveis Preparando sinais p/o Treinamento da Rede Neural Etapas do Trabalho Modelagem

42 Objetivos  Definir, sobre os dados de entrada e saída, os grupos para executar a validação cruzada;  Aplicar a média em torno da correlação máxima em cada janela para redução de ruídos. Modelagem Definição dos Padrões I/O: Preparação:

43 Validação Cruzada  Foram criados 3 grupos de dados: Um de treino composto por 60% da informação, um de validação com 30% e um de teste com 10% dos dados. Ps. Cabe como observação que os termos foram aglomerados intercalando os valores para não viciar a rede. Modelagem Definição dos Padrões I/O: Preparação:

44 Média para Redução de Ruído  Considerando que cada janela tem 360 instantes e está referenciada a um valor de saída, calculou- se a média dos 60, 120, 180, 240 e 300 termos vizinhos ao atraso definido pela correlação máxima anteriormente. Ps. A escolha da quantidade de vizinhos necessários para absorver a essência do sinal não foi baseada em heurística, mas em testes sistemáticos. Modelagem Definição dos Padrões I/O: Preparação:

45 Inferência por Redes Neurais Bayesianas Média  reduzir a desproporção entre os valores de entrada e saída e reduzir o ruídoMédia  reduzir a desproporção entre os valores de entrada e saída e reduzir o ruído –Aritmética –Ponderada Atraso temporal entre sensores de entrada e inferência de saída Melhor valor N a = 60, correspondente a uma hora. Melhor função de ponderação: correlação cruzada = c i (  ). Melhor valor N c = 180, correspondente a três horas. Modelagem

46 Pré-Processamento Definição dos padrões de i/o Seleção de Variáveis REde Neural MLP Instrumentos selecionados Inferência Etapas do Trabalho Modelagem

47 Métrica de avaliação: Erro médio absoluto percentual (MAPE – Mean Absolute Percent Error). Avaliação dos Resultados: Testes

48 Inferência por Redes Neurais Bayesianas 576 padrõesTreinamento: 576 padrões x –Redes MLP x Redes Bayesianas –números de neurônios na camada escondida –diferentes métodos de seleção de variáveis x –média aritmética x média ponderada 384 padrõesValidação: 384 padrões 851 padrõesTeste: 851 padrões Mean Absolute Percent Error (MAPE)Mean Absolute Percent Error (MAPE) Avaliação dos Resultados: Testes

49 Inferência por Redes Neurais Bayesianas Redes Neurais MLP com Média Aritmética Método de Seleção # Entradas# Neurônios MAPE treino MAPE Validação Todas Avaliação dos Resultados: Testes

50 Inferência por Redes Neurais Bayesianas Redes Neurais Bayesianas com Média Aritmética Método de Seleção # Entradas# Neurônios MAPE treino MAPE Validação Todas Variáveis Avaliação dos Resultados: Testes

51 Inferência por Redes Neurais Bayesianas Redes Neurais MLP com Média Ponderada Método de Seleção # Entradas# Neurônios MAPE treino MAPE Validação Todas Avaliação dos Resultados: Testes

52 Inferência por Redes Neurais Bayesianas Redes Neurais Bayesianas com Média Ponderada Método de Seleção # Entradas# Neurônios MAPE treino MAPE Validação Todas Avaliação dos Resultados: Testes

53 Inferência por Redes Neurais Bayesianas Os maiores erros são negativosOs maiores erros são negativos, correspondendo a grandes decrementos na qualidade do produto. dependência direcionalDevido à dependência direcional do processo de destilação. ValidaçãoTeste Avaliação dos Resultados: Testes


Carregar ppt "1 BUSINESS INTELLIGENCE MASTER Projeto de Sistema Inteligente de Apoio à Decisão."

Apresentações semelhantes


Anúncios Google