Hidden Markov Models 2 de maio de 2006 1 2 K … 1 2 K … 1 2 K … … … … 1 2 K … x1x1 x2x2 x3x3 xKxK 2 1 K 2.

Slides:

Advertisements

Apresentações semelhantes

Microcontroladores Uma visão geral.

Advertisements

Probabilidade e Esperança Condicional

Complexidade de Algoritmos

ÉTICA EM NEGOCIAÇÃO Profa.: Mayna Nogueira.

Hipermetilação e Câncer

Aprendizado por Reforço: Uma Aplicação do Aprendizado Q

MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010.

Inteligência Artificial

Curso Introdução às Redes Neuronais Parte 2 Prof. Dr. rer.nat. Aldo von Wangenheim.

1 PROJETO DE INTERFACE - Projeto de Interfaces entre componentes do software - Projeto de Interfaces entre software e outros produtores e consumidores.

Medida do Tempo de Execução de um Programa

Reconhecimento de Padrões PCA David Menotti, Ph.D. Universidade Federal de Ouro Preto (UFOP) Programa de Pós-Graduação em Ciência.

Genética – Conceitos Básicos

FACENS – Engenharia da Computação Inteligência Artificial

O que você deve saber sobre

Análise Sintática Ascendente

Gramáticas Estocásticas Livre de Contexto Anderson Faustino da Silva.

INF 1771 – Inteligência Artificial

Máxima Verossimilhança

Aplicação do QFD Para Desenvolver Produtos Estratégicos

Prof. Wellington D. Previero

Site: Estatística Prof. Edson Nemer Site:

Análise Computacional de Seqüências Nucleotídicas e Protéicas

Criptografia Simétrica

Informática Teórica Engenharia da Computação

Aula prática 6 Vetores e Matrizes

Introdução à Programação

[Clayton J Pereira] [Leonilson Kiyoshi] [Prof. Dr. Vitor Leite]

Pesquisa em memória primária: hashing

C OMPARAÇÃO DO COMPORTAMENTO DO BIC EM ALGUNS MODELOS PROBABILÍSTICOS Diogo Taurinho Prado Orientadora: Denise Duarte.

Produto cartesiano Mais parâmetros dos dados Algoritmo

Probabilidade é uma medida numérica de plausibilidade de que um evento ocorrerá. 0 0,5 1,0 menos provávelmais provável.

Introdução ao conceito de Multiplicação

Divisão (semana 6).

Aula T06 – BCC202 Análise de Algoritmos (Parte 4) Túlio Toffolo

Inteligência Artificial

Identificação de Voz Marcelo Lucena André Palhares.

2 Probabilidade Albertazzi.Probabilidade. (2.1).

Matemática e suas Tecnologias - Matemática PROBABILIDADE CONDICIONAL

Sistemas Baseados em Aprendizado (Aprendizado de Máquina)

Introdução à Bioinformática

Comunicação & Expressão Profª Drª Louise Lage Módulo 4

Introdução à Biologia Molecular História Cadeias de DNA e de Proteínas.

(OU) Hardware da Rede Implementacao da rede

Estatística Geral (Elementos de Probabilidade)

Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN

Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001.

Você consegue reconhecer uma P.A. na sequência abaixo?

GenScan Katia Guimarães.

Modelagem de Sistemas de Computação e Comunicação Sidney Lucena PPGI/UNIRIO

Aula Prática Ivan G. Costa Filho Eduardo G. Gusmão

Domínios, Motivos, Padrões e Perfis

Complexidade de Computação Katia Guimarães. Avaliando a Qualidade de um Algoritmo É preciso ter bem definido –O que é dado de entrada e –O que é esperado.

Equipe responsável pela produção

Álgebra Linear e Geometria Analítica

Alinhamentos Múltiplos

Extração de Informação

Redes Neurais Artificiais

Introdução à Inteligência Artificial Prof. Cláudio M. N. A. Pereira.

O Que São as Redes Neurais Artificiais

Algoritmos e Programação I

* Com o avanço das descobertas acerca dos Ácidos Nucléicos e das Proteínas surgiu o Dogma da biologia Molecular; * Surgimento dos métodos de sequenciamento.

Aula Prática 6 Vetores e Matrizes Monitoria

Desenvolvimento motor

Princípio Fundamental da Contagem (Regra do Produto) Exemplo

PROBABILIDADE Profa. Ana Clara Guedes.

PESQUISA OPERACIONAL II Professor: D. Sc. Edwin B. Mitacc Meza

Transcrição da apresentação:

Hidden Markov Models 2 de maio de K … 1 2 K … 1 2 K … … … … 1 2 K … x1x1 x2x2 x3x3 xKxK 2 1 K 2

Introdução ● Um cassino tem dois dados – Um dado honesto P(1)=P(2)=P(3)=P(4)=P(5)=P(6)= 1/6 – Um dado viciado P(1)=P(2)=P(3)=P(4)=P(5)=1/10 P(6)=1/2

Introdução ● O jogo: – Você aposta R$1 – Você joga seu dado (sempre com um dado honesto) – O jogador do cassino joga seu dado (talvez com um dado honesto, talvez com um dado viciado) – O número maior ganha R$2

O modelo do cassino desonesto HONESTOVICIADO P(1|H) = 1/6 P(2|H) = 1/6 P(3|H) = 1/6 P(4|H) = 1/6 P(5|H) = 1/6 P(6|H) = 1/6 P(1|V) = 1/10 P(2|V) = 1/10 P(3|V) = 1/10 P(4|V) = 1/10 P(5|V) = 1/10 P(6|V) = 1/2

Pergunta #1: Avaliação ● Dada uma seqüência de jogadas de dado do cassino ● Quão verossímil é esta seqüência, dado nosso modelo de como a cassino funciona?

Pergunta #2: Decodificação ● Dada uma seqüência de jogadas de dado do cassino ● Qual parte da seqüência foi gerada com o dado honesto e qual parte foi gerada com o dado viciado?

Pergunta #3: Aprendizado ● Dada uma seqüência de jogadas de dado do cassino ● Quão honesto é o dado honesto e quão viciado é o dado viciado? Com que freqüência o cassino muda de honesto pra viciado e de viciado para honesto?

HMM-Hidden Markov Model ● Para responder a estes tipos de perguntas, criou-se um modelo probabilístico chamado HMM (Hidden Markov Model) ● Surgiu no campo do reconhecimento de voz ● Tem aplicações em várias áreas onde tem- se umas seqüência de símbolos e um padrão a ser achado. – Ex: seqüências de nucleotídeos ou de aminoácidos.

HMM-Definição Definição: Um modelo oculto de Markov (HMM) – Alfabeto  = { b 1, b 2, …, b M } – Conjunto de estados Q = { 1,..., K } – Probabilidades de transição entre quaisquer dois estados K 1 … 2

HMM-Definição a ij = probabilidade de transição do estado i para o estado j a i1 + … + a iK = 1, para todos os estados i = 1…K Probabilidades de entrada a 0i a 01 + … + a 0K = 1 Probabilidades de emissão dentro de cada estado e i (b) = P( x i = b |  i = k) e i (b 1 ) + … + e i (b M ) = 1, para todos os estados i = 1…K

O modelo do cassino desonesto HONESTO (1) VICIADO (2) a 12 =0.05 a 21 =0.05 a 22 =0.95 a 11 =0.9 5 e 1 (1) = 1/6 e 1 (2) = 1/6 e 1 (3) = 1/6 e 1 (4) = 1/6 e 1 (5) = 1/6 e 1 (6) = 1/6 e 2 (1) = 1/10 e 2 (3) = 1/10 e 2 (4) = 1/10 e 2 (5) = 1/10 e 2 (6) = 1/2

Um parse de uma seqüência 1 2 K … 1 2 K … 1 2 K … … … … 1 2 K … x1x1 x2x2 x3x3 xKxK 2 1 K 2 ● Dada uma seqüência X e um HMM, o número de possíveis seqüências de estados capazes de produzir X é da ordem de |Q| K ● Um parse de uma seqüência X de K símbolos é uma seqüência de estados  com tamanho K

Um parse de uma seqüência ● No modelo do cassino, com uma seqüência X=14126 de 5 jogadas  =(2,1,1,1,2) 1. Poderia haver |Q| k =2 5 =32 parses para esta seqüência 1 2 … 1 2 … 2 … … … … 1 2 … x1x1 x2x2 x3x3 xKxK

Um parse de uma seqüência ● Dado uma seqüência e um parse desta seqüência, é possível avaliar sua verossimilhança multiplicando as probabilidades de entrada, transição e emissão. ● X=14126 e  =(2,1,1,1,2) Likelihood= 1/2 x 1/10 x 0.05 x 1/6 x 0.95 x 1/6 x 0.95 x 1/6 x 0.05 x ½ = 2,6E … 1 2 … 2 … … … … 1 2 … x1x1 x2x2 x3x3 xKxK

Um HMM não tem memória! A cada ponto no tempo, a única coisa que afeta os estados futuros é o estado atual  t P(  t+1 =k | “o que quer que tenha acontecido até então”) = P(  t+1 =k |  1,  2, …,  t, x 1, x 2, …, x t )= P(  t+1 =k |  t ) Há variações simples no modelo do HMM para levar em consideração dois ou mais estados anteriores

#1-Avaliação Dada uma seqüência x e um HMM M, P: Qual a probabilidade de que X tenha sido gerada pelo modelo? ( P(X) ) R: Soma das probabilidades de todos os parses que possam ter gerado X

#1-Avaliação P:Dada uma posição i, qual o estado mais provável que emitiu X i ? R: No exemplo do cassino, escolhemos o maior entre: Soma da probabilidade de todos os parses que possam ter gerado X dado que  i = Honesto e Soma da probabilidade de todos os parses que possam ter gerado X dado que  i = Viciado

#2-Decodificação P:Dada uma seqüência X e um HMM M, qual a seqüência de estados mais verossímil que gerou X? x = R: Avalia-se, dentre todas as possíveis seqüências de estados, qual a mais verossímil.  = HHHHHHHHHVVVVVVVVVVHHHHHHHHHHHH

#3-Aprendizado P:Apenas observando X, como estimar os parâmetros de emissão e transição? R: Se temos um conjunto de treinamento, obtemos os parãmetros a partir deste conjunto. Se não temos um conjunto de treinamento, roda-se um algoritmo que: -Dá um chute inicial pra esses parâmetros -Avalia o quão bem os parâmetros predizem X -Refina os parâmetros -….repete o processo…

Aplicações em Biologia ● Encontrar ilhas CpG num genoma ● Encontrar domínios em proteínas (Banco PFAM) ● Encontrar genes ● Encontrar promotores

Ilhas CpG A+C+G+T+A-C-G-T- Ilha CpG Não ilha CpG

Ilhas CpG ● Parâmetros – Extraídos a partir da freqüência observada de dinucleotídeos num conjunto de treinamento +ACGT A C G T ACGT A C G T

Domínios de proteínas ● HMMER – possui ferramentas pra avaliar, decodificar e aprender os parâmetros de um HMM – Ex: O banco de domínios PFAM é gerado a partir de alinhamentos múltiplos de famílias de proteínas conhecidas é um banco de HMM’s

FIM