Utilizando Inteligência Artificial em Bioinformática

Slides:



Advertisements
Apresentações semelhantes
«Forte do Bom Sucesso (Lisboa) – Lápides 1, 2, 3» «nomes gravados, 21 de Agosto de 2008» «Ultramar.TerraWeb»
Advertisements

MACROMOLÉCULAS: ÁCIDOS NUCLÉICOS E SÍNTESE DE PROTEÍNAS
Organização Gênica de Eucariotos
Propriedades físicas representativas de
A busca das mulheres para alcançar seu espaço dentro das organizações
Vamos contar D U De 10 até 69 Professor Vaz Nunes 1999 (Ovar-Portugal). Nenhuns direitos reservados, excepto para fins comerciais. Por favor, não coloque.
Exercício do Tangram Tangram é um quebra-cabeças chinês no qual, usando 7 peças deve-se construir formas geométricas.
Biologia Prof. Fláudio.
Estrutura e função do RNA
Nome : Resolve estas operações começando no centro de cada espiral. Nos rectângulos põe o resultado de cada operação. Comprova se no final.
TRANSCRIÇÃO Biologia Molecular Profª Marília Scopel Andrighetti.
Curso de ADMINISTRAÇÃO
EXPRESSÕES ARITMÉTICAS
FUNÇÃO MODULAR.
Transcrição do RNA em Organismos Procariotos e Eucariotos
Regulação da Expressão Gênica
Introdução à expressão gênica
Regulação da Expressão Genética
ESTATÍSTICA.
Renda até 2 SM.
Diagnósticos Educativos = Diagnósticos Preenchidos 100% = 1.539
PESQUISA SOBRE PRAZO MÉDIO DA ASSISTÊNCIA NA SAÚDE SUPLEMENTAR
Inteligência Artificial
GENÉTICA MOLECULAR Tanto em organismos procariontes como em organismos eucariontes, qualquer classe de moléculas deve preencher certos requisitos básicos.
ÁCIDO DESOXIRRIBONUCLEICO
ÁCIDOS NUCLEICOS.
Replicação, transcrição e tradução
CATÁLOGO GÉIA PÁG. 1 GÉIA PÁG. 2 HESTIA PÁG. 3.
PROCESSOS PRINCIPAIS Alunos - Grau de Satisfação 4971 avaliações * Questões que entraram em vigor em 2011 ** N.A. = Não Aplicável Versão: 07/02/2012 INDICADORES.
CITOGENÉTICA - os ácidos nucleicos -
Trabalho sobre Cor Thiago Marques Toledo.
FISCALIZAÇÃO DIRECIONADA CONDUTA - AUXILIAR ANO III – Nº 05.
Coordenação Geral de Ensino da Faculdade
Os números a seguir, representam as notas de
ESTRUTURA DO GENOMA HUMANO
Plataforma Brasil – Submissão de pesquisa
Funcionários - Grau de Satisfação 2096 avaliações
Tributação da Exportação nas Empresas optantes pelo Simples Nacional
Projeto Marcas que Eu Gosto 1 PROJETO MARCAS QUE EU GOSTO Estudos Quantitativo de Consumidores Janeiro / 2005.
Modelagem Estatística
Profa. Ana Paula Miranda Guimarães
1/40 COMANDO DA 11ª REGIÃO MILITAR PALESTRA AOS MILITARES DA RESERVA, REFORMADOS E PENSIONISTAS - Mar 06 -
Projeto Medindo minha escola.
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Anne Magály de PaulaCanuto DIMAp/UFRN
Estatística Aula 9 – 28/02/2011.
Redes Neuronais/Neurais/ Conexionistas Introdução
1 Aplicações do Fecho Regular. 2 A interseção de uma linguagem livre de contexto e uma linguagem regular é uma linguagem livre de contexto livre de contexto.
A genética e os genes.
CONCEITOS FUNDAMENTAIS
Olhe fixamente para a Bruxa Nariguda
Máquina de Turing Universal
Biologia A.
3ª PESQUISA DE REMUNERAÇÃO
Equipe Bárbara Régis Lissa Lourenço Lucas Hakim Ricardo Spada Coordenador: Gabriel Pascutti.
Estrutura dos Ácidos Nucléicos, Replicação e Transcrição
Estrutura e função de ácidos nucleicos, Replicação de DNA, transcrição e processamento de RNA, expressão gênica.
Reconhecimento de Genes Marcílio C. P. de Souto DIMAp/UFRN.
Marcílio C. P. de Souto DIMAp/UFRN
Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN
Estrutura e função do RNA
A INFORMAÇÃO ADQUIRE FORMA BIOLÓGICA PROFA. GISELLE MOURA MESSIAS
Biologia Código Genético e Síntese Protéica Código Genético
Dogma Central da Biologia Molecular
Síntese de Proteínas.
Estrutura e função do RNA
Dogma Central da Biologia Molecular
DNA / RNA Ácido Desoxirribonucleico Ácido Ribonucleico
EXPRESSÃO GÊNICA.
DNA. histórico Pensava-se: proteínas possuíam o material genético. A partir de 1950: ácidos nucléicos possuíam o material genético Nas células procarióticas,
Transcrição da apresentação:

Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

Principais tópicos Introdução Bioinformática Biologia Molecular Reconhecimento de Genes Utilizando Inteligência Artificial Conclusão

IA e Bioinformática Redes Neurais, Algorítmos genéticos Bioinformática BIOLOGIA COMPUTAÇÃO Bioinformática

Definições Bioinformática Pesquisa e desenvolvimento de ferramentas computacionais, matemáticas e estatísticas para a resolução de problemas da Biologia Biologia molecular A Computação está para a Biologia da mesma forma que a Matemática está para a Física. Harold Morowitz

Bioinformática Nos últimos anos, diversos laboratórios têm trabalhado no seqüenciamento de vários genomas Até o ano 2000: Mais que 30 organismos tinham sido seqüenciados Cerca de 150 organismos estavam sendo seqüenciados Determinação da seqüência de nucleotídeos em uma molécula é o primeiro passo para entender seu funcionamento Beneficia várias áreas Medicina - Farmácia - Agricultura

Crescimento do GenBank

Andamento de projetos genoma 73 genomas completos publicados Humano Camundongo Drosophila Arabidopsis Levedura 212 de procariotos em andamento 157 de eucariotos em andamento

Fração do genoma da levedura CCACACCACACCCACACACCCACACACCACACCACACACCACACCACACCCACACACACACATCCTAACACTACCCTAACACAGCCCTAATCTAACCCTGGCCAACCTGTCTCTCAACTTACCCTCCATTACCCTGCCTCCACTCGTTACCCTGTCCCATTCAACCATACCACTCCGAACCACCATCCATCCCTCTACTTACTACCACTCACCCACCGTTACCCTCCAATTACCCATATCCAACCCACTGCCACTTACCCTACCATTACCCTACCATCCACCATGACCTACTCACCATACTGTTCTTCTACCCACCATATTGAAACGCTAACAAATGATCGTAAATAACACACACGTGCTTACCCTACCACTTTATACCACCACCACATGCCATACTCACCCTCACTTGTATACTGATTTTACGTACGCACACGGATGCTACAGTATATACCATCTCAAACTTACCCTACTCTCAGATTCCACTTCACTCCATGGCCCATCTCTCACTGAATCAGTACCAAATGCACTCACATCATTATGCACGGCACTTGCCTCAGCGGTCTATACCCTGTGCCATTTACCCATAACGCCCATCATTATCCACATTTTGATATCTATATCTCATTCGGCGGTCCCAAATATTGTATAACTGCCCTTAATACATACGTTATACCACTTTTGCACCATATACTTACCACTCCATTTATATACACTTATGTCAATATTACAGAAAAATCCCCACAAAAATCACCTAAACATAAAAATATTCTACTTTTCAACAATAATACATAAACATATTGGCTTGTGGTAGCAACACTATCATGGTATCACTAACGTAAAAGTTCCTCAATATTGCAATTTGCTTGAACGGATGCTATTTCAGAATATTTCGTACTTACACAGGCCATACATTAGAATAATATGTCACATCACTGTCGTAACACTCTTTATTCACCGAGCAATAATACGGTAGTGGCTCAAACTCATGCGGGTGCTATGATACAATTATATCTTATTTCCATTCCCATATGCTAACCGCAATATCCTAAAAGCATAACTGATGCATCTTTAATCTTGTATGTGACACTACTCATACGAAGGGACTATATCTAGTCAAGACGATACTGTGATAGGTACGTTATTTAATAGGATCTATAACGAAATGTCAAATAATTTTACGGTAATATAACTTATCAGCGGCGTATACTAAAACGGACGTTACGATATTGTCTCACTTCATCTTACCACCCTCTATCTTATTGCTGATAGAACACTAACCCCTCAGCTTTATTTCTAGTTACAGTTACACAAAAAACTATGCCAACCCAGAAATCTTGATATTTTACGTGTCAAAAAATGAGGGTCTCTAAATGAGAGTTTGGTACCATGACTTGTAACTCGCACTGCCCTGATCTGCAATCTTGTTCTTAGAAGTGACGCATATTCTATACGGCCCGACGCGACGCGCCAAAAAATGAAAAACGAAGCAGCGACTCATTTTTATTTAAGGACAAAGGTTGCGAAGCCGCACATTTCCAATTTCATTGTTGTTTATTGGACATACACTGTTAGCTTTATTACCGTCCACGTTTTTTCTACAATAGTGTAGAAGTTTCTTTCTTATGTTCATCGTATTCATAAAATGCTTCACGAACACCGTCATTGATCAAATAGGTCTATAATATTAATATACATTTATATAATCTACGGTATTTATATCATCAAAAAAAAGTAGTTTTTTTATTTTATTTTGTTCGTTAATTTTCAATTTCTATGGAAACCCGTTCGTAAAATTGGCGTTTGTCTCTAGTTTGCGATAGTGTAGATACCGTCCTTGGATAGAGCACTGGAGATGGCTGGCTTTAATCTGCTGGAGTACCATGGAACACCGGTGATCATTCTGGTCACTTGGTCTGGAGCAATACCGGTCAACATGGTGGTGAAGTCACCGTAGTTGAAAACGGCTTCAGCAACTTCGACTGGGTAGGTTTCAGTTGGGTGGGCGGCTTGGAACATGTAGTATTGGGCTAAGTGAGCTCTGATATCAGAGACGTAGACACCCAATTCCACCAAGTTGACTCTTTCGTCAGATTGAGCTAGAGTGGTGGTTGCAGAAGCAGTAGCAGCGATGGCAGCGACACCAGCGGCGATTGAAGTTAATTTGACCATTGTATTTGTTTTGTTTGTTAGTGCTGATATAAGCTTAACAGGAAAGGAAAGAATAAAGACATATTCTCAAAGGCATATAGTTGAAGCAGCTCTATTTATACCCATTCCCTCATGGGTTGTTGCTATTTAAACGATCGCTGACTGGCACCAGTTCCTCATCAAATATTCTCTATATCTCATCTTTCACACAATCTCATTATCTCTATGGAGATGCTCTTGTTTCTGAACGAATCATAAATCTTTCATAGGTTTCGTATGTGGAGTACTGTTTTATGGCGCTTATGTGTATTCGTATGCGCAGAATGTGGGAATGCCAATTATAGGGGTGCCGAGGTGCCTTATAAAACCCTTTTCTGTGCCTGTGACATTTCCTTTTTCGGTCAAAAAGAATATCCGAATTTTAGATTTGGACCCTCGTACAGAAGCTTATTGTCTAAGCCTGAATTCAGTCTGCTTTAAACGGCTTCCGCGGAGGAAATATTTCCATCTCTTGAATTCGTACAACATTAAACGTGTGTTGGGAGTCGTATACTGTTAGGGTCTGTAAACTTGTGAACTCTCGGCAAATGCCTTGGTGCAATTACGTAATTTTAGCCGCTGAGAAGCGGATGGTAATGAGACAAGTTGATATCAAACAGATACATATTTAAAAGAGGGTACCGCTAATTTAGCAGGGCAGTATTATTGTAGTTTGATATGTACGGCTAACTGAACCTAAGTAGGGATATGAGAGTAAGAACGTTCGGCTACTCTTCTTTCTAAGTGGGATTTTTCTTAATCCTTGGATTCTTAAAAGGTTATTAAAGTTCCGCACAAAGAACGCTTGGAAATCGCATTCATCAAAGAACAACTCTTCGTTTTCCAAACAATCTTCCCGAAAAAGTAGCCGTTCATTTCCCTTCCGATTTCATTCCTAGACTGCCAAATTTTTCTTGCTCATTTATAATGATTGATAAGAATTGTATTTGTGTCCCATTCTCGTAGATAAAATTCTTGGATGTTAAAAAATTATTATTTTCTTCATAAAGAAGCTTTCAAGATATAAGATACGAAATAGGGGTTGATAATTGCATGACAGTAGCTTTAGATCAAAAAGGAAAGCATGGAGGGAAACAGTAAACAGTGAAAATTCTCTTGAGAACCAAAGTAAACCTTCATTGAAGAGCTTCCTTAAAAAATTTAGAATCTCCCATGTCAACGGGTTTCCATACCTCCCCAGCATCATACATCTTTTTTCAAAGAAACTTCAAATGCCTCTTTTATGCAAGGGGCAAAATCCTGAAATGACTTAAACTTAGCAGTTTCGTCTTTTTTCAAAGAGAATGGTTGAAGAAGAATTGTTTTGGACGCTTATTGACAATCTGTTGCATTGATAAAGTACCTACTATCCCAGACTATATTTGTATACAAGTACAAAATTAGGTTTGTTGAAACAACTTTCCGATCATTGGTGCCCGTATCTGATGTTTTTTTAGTAATTTCTTTGTAAATACAGGGAGTTGTTTCGAAAGCTTATGAGAAAAATACATGAATGACAGGTAAAAATATTGGCTCGAAAAAGAGGACAAAAAGAGAAATCATAAATGAGTAAACCCACTTGCTGGACATTATCCAGTAAAGGCTTGGTAGTAACCATAATATTACCCAGGTACGAAACGCTAAGAACCTTGAAAGACTCATAAAACTTCCAGGTTAAGCTATTTTTGAAAATATTCTGAGGTAAAAGCCATTAAGGTCCAGATAACCAAGGGACAATAAACCTATGCTTTTCTTGTCTTCAATTTCAGTATCTTTCCATTTTGATAATGAGCATGTGATCCGGAAAGCTACTTTATGATGTTTCAAGGCCTGAAGTTTGAATATTTATGTAGTTCAACATCAAATGTGTCTATTTTGTGATGAGGCAACCGTCGACAACCTTATTATCGAAAAAGAACAACAAGTTCACATGCTTGTTACTCTCTATAACTAGAGAGTACTTTTTTTGGAAGCAAGTAAGAATAAGTCAATTTCTACTTACCTCATTAGGGAAAAATTTAATAGCAGTTGTTATAACGACAAATACAGGCCCTAAAAAATTCACTGTATTCAATGGTCTACGAATCGTCAATCGCTTGCGGTTATGGCACGAAGAACAATGCAATAGCTCTTACAAGCCACTACATGACAAGCAACTCATAATTTAA

Bioinformática Ênfase está se deslocando progressivamente da acumulação de dados para a sua interpretação Com os seqüenciamentos realizados, uma grande quantidade de dados tem sido gerada Estes dados precisam agora ser analisados Análise laboratorial destes dados é difícil e cara Ferramentas computacionais sofisticadas são necessárias para a análise dos dados obtidos

Bioinformática Para muitas destas análises, as ferramentas computacionais precisam lidar com dados imprecisos e ruidosos Técnicas de laboratório de Biologia Molecular quase sempre geram dados com erros ou imprecisões Na medição dos valores ou definição das classes Inteligência Artificial fornecem técnicas eficientes para lidar com problemas deste tipo

Biologia Molecular Estudo das células e moléculas Em particular: genoma dos organismos Estruturas principais: Genes Cromossomos DNA RNA Proteínas Expressão Gênica nucleotídeos aminoácidos

Biologia Molecular Dogma central da Biologia Molecular Transferência de Informação Replicação DNA Transcrição RNA Tradução Proteínas

Biologia Molecular Algumas descobertas posteriores contradizem este dogma: RNA pode sofrer replicação em alguns vírus e plantas RNA viral, através de uma enzima denominada transcriptase reversa, pode ser transcrito em DNA DNA pode traduzir diretamente proteínas específicas Sem passar pelo processo de transcrição

Biologia Molecular DNA (Ácido Desoxirribonucleico) O DNA é uma molécula formada por duas fitas (dupla fita) que se entrelaçam formando uma hélice dupla DNA é composto de quatro nucleotídeos diferentes Adenina, Citosina, Guanina e Timina Fitas são mantidas juntas por ligações que conectam cada nucleotídeo de uma fita ao seu complemento na outra A se liga com T e C se liga com G

Biologia Molecular Genes Subseqüências de DNA Localizados no cromossomo Servem como molde para a produção de proteínas Encaixadas entre os genes estão segmentos chamados de regiões não codificadoras

Biologia Molecular Proteínas Definem estrutura, função e mecanismos regulatórios das células Exemplos de mecanismos regulatórios: controle do ciclo celular, transcrição gênica Seqüências lineares Combinações de 20 aminoácidos diferentes Três nucleotídeos (codon) formam um aminoácido

Biologia Molecular

Biologia Molecular Expressão gênica Processo pelo qual genes são usados para produzir proteínas Mecanismos de expressão gênica são diferentes para organismos: Eucariotos Material genético difuso nas células (Ex.: bactérias) Procariotos Material genético em um núcleo (Ex.: seres humanos)

Processo de expressão gênica Transcrição RNA polimerase é a molécula (enzima) que transcreve DNA em RNA RNA polimerase começa a transcrição após se ligar a um sinal regulatório no DNA chamado promotor Gera molécula de RNA mensageiro (mRNA)

Processo de expressão gênica Transcrição depende do organismo Organismos eucariotos Cada gene é transcrito independentemente Existe um promotor antes de todo gene Organismos procariotos Vários genes consecutivos podem ser transcritos em uma única molécula de RNA Não existe necessariamente um promotor antes de cada gene

Processo de expressão gênica Tradução Sintetiza uma proteína utilizando como forma mRNA Leitura do mRNA é feita por uma molécula chamada de ribossomo Mensagem lida é utilizada para montar uma cadeia de proteína Tripla de nucleotídeos consecutivos (codon) codifica um aminoácido Código genético: mapeamento de codons em aminoácidos

Processo de expressão gênica DNA RNA Polimerase G C A G C T C C G G A C T C C A T . . . T promotor Transcrição mRNA A

Processo de expressão gênica DNA RNA Polimerase T G C A G C T C C G G A C T C C A T . . . promotor Transcrição mRNA A C G U C G A G G C C U G A G G U A . . .

Processo de expressão gênica DNA RNA Polimerase T G C A G C T C C G G A C T C C A T . . . Ribossomo promotor Transcrição mRNA A C G A C G U C G A G G C C U G A G G U A . . . Tradução Thr

Processo de expressão gênica DNA RNA Polimerase T G C A G C T C C G G A C T C C A T . . . promotor Transcrição mRNA A C G U C G A G G C C U G A G G U A . . . Tradução Ribossomo Ser His Ser Gly Leu Cys

Processo de expressão gênica Estrutura de leitura Para uma dada faixa de DNA, nucleotídeos podem ser agrupados em triplas de três formas diferentes Um dos nucleotídeos pode ocupar a 1a, 2a ou 3a posição em um codon Apenas um destes três possíveis agrupamentos é realmente lido pelo ribossomo O agrupamento lido é chamado de estrutura de leitura do gene A T T A C G A A G

Processo de expressão gênica Em organismos eucariotos, existe um outro passo importante durante o processo de expressão gênica Após o DNA ser transcrito, certas partes da molécula são eliminadas antes de sua transformação em proteína Genes em eucariotos são formados por segmentos alternados de exons e introns

Regiões de splice Exons: Introns: Seqüências de nucleotídeos que são expressas (traduzidas em proteínas) Introns: Seqüências intercaladas que são eliminadas na tradução Regiões de splice (splice-junctions): Pontos de fronteira onde ocorrem junções de exons e introns Doadoras: bordas exon-intron Aceptoras: bordas intron-exon

Splice-junctions DNA Transcrição doador aceptor mRNA exon intron Splicing mRNA

Biologia Molecular e IA Problemas da Biologia Molecular que podem ser tratados por IA Reconhecimento de genes Construção de árvores filogenéticas Análise de expressão gênica Previsão de estruturas de proteínas Análise de interação entre genes Montagem de fragmentos Alinhamento de seqüências

Reconhecimento de genes Um dos principais problemas em biologia molecular é a identificação de genes em seqüências de DNA não caracterizadas Algoritmos convencionais não têm sido eficientes Variação natural dos genes Complexidade dos genes Natureza pouco compreendida dos genes Abordagem promissora: Aprendizado de Máquina

Reconhecimento de genes Duas abordagens principais têm sido seguidas: Busca por sinal Busca por conteúdo

Reconhecimento de genes Busca por sinal Localiza genes indiretamente Procura sinais particulares relacionados com a expressão de genes Sinal Região localizada do DNA que realiza uma função específica (exemplo: se liga a uma enzima)

Reconhecimento de genes Busca por conteúdo Reconhece genes diretamente Identifica segmentos de seqüências de DNA que possuem as propriedades gerais de regiões codificadoras Se baseia no conhecimento das diferentes propriedades estatísticas de regiões codificadoras e não codificadoras

Busca por sinal É importante não apenas entender a função de cada gene Mas também os mecanismos que regulam a expressão do gene Vários sinais exercem importantes funções regulatórias definindo: Condições sob as quais os genes são expressos Taxa com a qual a expressão ocorre

Busca por sinal Detecção de sinal já é um problema em si Vários sinais que podem ser identificados em seqüências de nucleotídeos são importantes para a identificação de genes Sítios de início de transcrição (promotores) Sítios de término de transcrição (terminadores) Sítios de splice-junction Sítios de início da tradução (codons de iniciação) Sítios de término da tradução (codons de parada ou stop codons)

Busca por sinal Diferentes sinais têm diferentes dificuldades de identificação Codons de parada são facilmente identificados Identificação de outros sinais é mais complicada Busca por sinal é uma tarefa de classificação Dada uma janela de tamanho fixo de um DNA, determinar se ela contém um sinal de interesse Se uma característica identificável do sinal ocupa uma posição particular na janela

Seqüência de DNA ... A T C G T G C T T A C G C G T C C A Busca por sinal Promotor na posição 3? Classificador Posição 1 = ‘C’ Posição 2 = ‘T’ Posição 3 = ‘T’ Posição 4 = ‘A’ Posição 5 = ‘C’ Posição 6 = ‘G’ Representação das características Seqüência de DNA ... A T C G T G C T T A C G C G T C C A 1 2 3 4 5 6

Reconhecimento de início da tradução Reconhece codons de iniciação Tradução de mRNA em proteína não começa com sua primeira tripla de nucleotídeos Em organismos procariotos, uma simples molécula de mRNA pode ter vários sítios de início de tradução Genes consecutivos podem ser transcritos em uma única cadeia de mRNA

Reconhecimento de promotores Sinal regulatório de uma molécula de DNA onde RNA polimerase se liga para começar a transcrição RNA polimerase é uma molécula que transcreve DNA em RNA Auxilia na localização de genes no DNA Existem sítios amplamente aceitos como sendo as regiões que fornecem as carecterísticas definidoras de promotores Regiões 10 e 35

Busca pelo conteúdo Identifica genes reconhecendo padrões que que ocorrem na sua seqüência de nucleotídeos Regiões do DNA que serão traduzidas em proteínas Organismos procariotos: distinguir genes de regiões não codificadoras Organismos eucariotos: distinguir também introns de exons Janelas de tamanho fixo também são utilizadas para esta previsão

Busca pelo conteúdo Busca por conteúdo procura responder as seguintes perguntas: Quais são as regiões codificadoras Para uma dada região, que faixa e qual estrutura de leitura codifica a proteína Várias propriedades podem ser exploradas para distinguir regiões codificadoras de não codificadoras

Busca pelo conteúdo Propriedades que podem ser exploradas: Alguns aminoácidos são usados mais freqüentemente que outros em regiões codificadoras A existência de diferentes números de codons para aminoácidos diferentes Codons que mapeiam em um dado aminoácido não são usados igualmente na maioria dos organismos Não podem conter codons de parada Alguns codons têm maior probabilidade de serem vizinhos

Reconhecimento de genes Abordagens mais promissoras em reconhecimento de genes: Combinam previsão de vários sinais diferentes e regiões codificadoras Reconhecimento de operons Genes consecutivos que são ativados ou desativados em conjunto

Redes Neurais Artificiais Sistemas computacionais distribuídos baseados na estrutura e funcionamento do sistema nervoso Nodos simulam neurônios Conexões ponderadas simulam sinapses Definidas por Arquitetura Aprendizado

Redes Neurais Artificiais camadas intermediárias camada de entrada camada de saída conexões

Redes Neurais Artificiais Stormo et al (1982): reconhecimento de sítios de início de tradução no DNA de bactérias E. Coli Primeira aplicação de Redes Neurais em Bioinformática Utilizou rede Perceptron A C G T A C G T A C G T ... A T C G T G C T T A C G C G C G T ...

Redes Neurais Artificiais Reconhecimento de regiões de splicing Rampone (1998) Reconhecimento de promotores Ma e Wang (1999) Bajic et al. (2002) Previsão de estrutura de proteínas Riis et al (1995) Polyac et al (1992) Servidor GRAIL - identificação de genes Uberbacher et al (1993) Sítios de início de transcrição Towell et al (1990) Problema abordado Trabalho

Algoritmos Genéticos Técnica de busca e otimização Baseados na genética e teoria da seleção natural Utiliza uma população de soluções candidatas (indivíduos) A cada indivíduo é associado um escore de aptidão, que mede o quão boa é a solução que ele representa Otimização ocorre em várias gerações A cada geração Mecanismos de seleção selecionam os indivíduos mais aptos Operadores de reprodução geram novos indivíduos

Algoritmos Genéticos População inicial População final Avaliação População atual Seleção Reprodução

Algoritmos Genéticos Alinhamento de seqüências: Uma a uma Uma com várias Identificar: Inserções Remoções Substituições Seq1: A G C C A T A T Seq2: A C G C T A T A Seq1: A  G C C A T A T Seq2: A C G C T A T A 

Algoritmos Genéticos Alinhamento de sequências Zhang e Wong (1997) Previsão de estrutura de proteínas Alander (1995) Krasnogor et al. (1999) Problema abordado Trabalho

Raciocínio Baseado em Casos Resolve novos problemas adaptando soluções de problemas anteriores semelhantes Solução Problema Nova solução 2 Novo problema 1

Raciocínio Baseado em Casos RBC é mais que uma Base de Dados Não é uma tabela de busca Sistemas de RBC procuram casos passados semelhantes ao problema atual em uma base de casos indexada Indexação e representação de casos facilitam recuperação de casos relevantes e sua comparação com o problema atual Permite adaptação de casos

Raciocínio Baseado em Casos Ciclo de um sistema de RBC (Aamodt, 1993)

Raciocínio Baseado em Casos Alinhamento de seqüências Harris et al. (1993) Reconhecimento de genes Shavlik (1990, 1991) Problema abordado Trabalho

Classificadores de Margens Largas Maximizam a margem de separação entre classes presentes nos dados Máquinas de Vetores Suporte (SVMs) Boosting Maior capacidade de generalização Baseados na Teoria de Aprendizado EstatísticoVapnik e Chervonenkis (1968) Embute conceitos probabilísticos e estatísticos

Classificadores de Margens Largas Máquinas de Vetores Suporte Encontra um hiperplano ótimo que separa classes em um espaço abstrato margem Classe 1 Classe 2

Classificadores de Margens Largas Análise de expressão gênica Expressão Tecido normal Tecido com tumor Gene T1 T2 T3 T1 T2 T3 1 128 100 30 20 10 9 2 20 10 18 104 210 47 3 29 130 7 37 310 40 4 21 12 15 92 123 84

Classificadores de Margens Largas Promotores, reg. codificadoras AB, RNs Jackson (1995) DNA microarray SVMs, ADs Brown et al. (1999) Subfamílias proteínas SVMs Karchin et al. (2002) Especificidade proteínas ADs, AB Huss et al. (2001) Bem-Hur et al. (2000) Furey et al. (2001) Zien et al. (2000) Ding e Dubchak (2001) Trabalho SVMs, AB, clusterização Sítios de início de tradução Estrutura proteínas SVMs, RNs Problema abordado Técnicas

Árvores de Decisão Organizam informações em estrutura composta de nós e ramificações Nós: testes sobre atributos; Ramos: resultados dos testes sorri sim não segura inimigo espada balão ou bandeira inimigo amigo

Árvores de Decisão Lapedes et al (1989): detecção de regiões de splicing (regiões doadoras) Entrada: cadeia de nucleotídeos Positivo Posição 8 = ? Posição 3 = ? Negativo Posição 9 = ? A C G T

Outras técnicas Técnica Problema Trabalho Redes Baysianas Detecção de genes Friedman et al (2000) Cadeias de Markov Detecção de genes Eddy (1998) RNAs, AGs e k-NN Estrutura de proteínas Guan et al (1994) Lingüística computacional Previsão da estrutura de genes Dond e Searls (1994)

Projeto Fapesp Genoma Clínico Genoma do câncer humano Dados clínicos e de expressão gênica Sage, PCR, Microarray e MPSS 9 tipos de câncer Análise de expressão gênica Data mining Utiliza técnicas de Aprendizado de Máquina FAPESP e Instituto Ludwig

Projeto CNPq - Bioinformática Reconhecimento de genes Identificação de promotores Reconhecimento de regiões de splicing Reconhecimento de regiões codificadoras Utiliza SVMs, AB e RNs Metodologias para melhorar desempenho Redução de ruídos Seleção de atributos CNPq e FAPESP

Projeto CNPq - Bioinformática Melhoramento genético Utiliza marcadores moleculares para avaliar potencial genético 10 marcadores (2 já foram avaliados) Identificação de cruzamentos mais promissores Previsão de ganho de peso entre nascimento e desmama Utiliza SVMs e RNs CNPq e Embrapa

Referências de IA e Bioinformática Artificial Intelligence and Molecular Biology Editado por Lawrence Hunter, AAAI Press Book Disponível gratuitamente na internet Bioinformatics (Adaptive Computation and Machine Learning) Pierre Baldi, Soren Brunak, Sren Brunak, MIT Press Neural Networks and Genome Informatics Cathy H. Wu, Jerry W. McLarty, Elssevier Data Analysis and Classification for Bioinformatics Arun Jagota

Conclusão Introdução Bioinformática Biologia Molecular Reconhecimento de Genes Utilização de IA em Bioinformática

Agradecimentos Ana Carolina Lorena Cláudia Regina Milaré Humberto de Sousa Silvia Gorla Modonese da Silva Alexandre Delbem Katti Faceli Welington Martins

Reconhecimento de regiões de splicing Dados: regiões de splicing de primatas (UCI) Divisão do problema: Identificação de presença da região (Experimento 1) Determinação do tipo da região (Experimento 2) intron-exon exon-intron Técnicas: Árvores de Decisão (ADs) Redes Neurais Artificiais (RNAs) Máquinas de Vetores Suporte (SVMs)

Pré-processamento dos dados Heurística Tomek links: identificar Dados classificados incorretamente Borderlines 5 - 6 % dados

Resultados ADs: RNAs: SVMs: diminuição do tamanho das árvores induzidas (10 - 33 %) RNAs: menor tempo de treinamento (20 %) SVMs: menor tempo de treinamento (7 - 15 %) menor número de vetores suporte (6 - 10 %)

Erros obtidos (%) Experimento 1 Experimento 2 3.7  2.4 5.3  2.4 4.5  1.6 6.8  1.0 1.9  1.0 4.5  0.9 Pré-proc. 3.3  2.8 5.3  2.3 4.3  1.5 6.7  0.9 1.9  0.6 4.4  0.6 Originais EI IE Total N IE+EI Dados A D R N A 3.0  2.8 4.3  2.3 3.7  1.7 -- Pré-proc. 3.3  2.3 3.6  1.7 3.5  1.7 Originais S V M 0.9  0.5 1.2  1.2 2.1  1.2 2.0  0.4 1.0  0.8 2.9  0.8 Pré-proc. 2.1  2.3 1.7  1.1 1.9  1.1 2.2  0.6 1.3  0.8 3.6  0.9 Originais

Teste de Significância Significância com que Técnica 1 é melhor que Técnica 2 Experimento 1: Experimento 2: 95 % AD SVM Pré-processados Originais Técnica 2 Técnica 1 80 % -- AD RNA 95 % SVM Pré-processados Originais Técnica 2 Técnica 1

Análise de expressão gênica Várias medidas foram testadas para a seleção de genes Para as várias medidas foram selecionados 50, 10 e 4 genes, sendo metade hipo e metade hiper expressos Para os casos 10 e 4 genes, os genes foram selecionados dentre aqueles com expressão > 5 (apenas 84 genes)

Experimentos Os genes selecionados foram utilizados em um algoritmo de Aprendizado de Máquina (AM) AM utilizado para classificar se uma amostra é de tecido normal ou com tumor, a partir dos dados de expressão desses genes Objetivo: verificar quais entre várias medidas para seleção dos genes forneceu um conjunto de genes mais apropriado para a distinção tumor/normal

Bibliotecas empregadas Normal 1 - SAGE_Brain_normal_cerebellum_B_1_FREQUENCY 2 - SAGE_Brain_normal_cerebellum_B_BB542_FREQUENCY 3 - SAGE_Brain_normal_cortex_B_BB542_FREQUENCY 4 - SAGE_Brain_normal_cortex_B_pool6_FREQUENCY 5 - SAGE_Brain_normal_peds_cortex_B_H1571_FREQUENCY 6 - SAGE_Brain_normal_thalamus_B_1_FREQUENCY Tumor 7 - SAGE_Brain_astrocytoma_gradeIII_B_H1020_FREQUENCY 8 - SAGE_Brain_ependymoma_B_239_FREQUENCY 9 - SAGE_Brain_glioblastoma_B_GBM1062_FREQUENCY 10 - SAGE_Brain_glioblastoma_CL_H54+EGFRvIII_FREQUENCY 11 - SAGE_Brain_glioblastoma_CL_H54+LacZ_FREQUENCY 12 - SAGE_Brain_medulloblastoma_B_96-04-P019_FREQUENCY 13 - SAGE_Brain_medulloblastoma_B_98-04-P494_FREQUENCY 14 - SAGE_Brain_medulloblastoma_B_98-05-P608_FREQUENCY

Resultados Classificações incorretas Fórmula 4 genes 10 genes 50 genes Medida 1 B (Difference) A (Ratio) D E F (correlação de Pearson) 2 I (Distância Euclidiana) H (Baseado em C e D) G (Baseado em A e B) C Se senão Se senão

Genes selecionados com as várias medidas TAG UNIGENE No. de vezes que foi selecionado Descrição AAGTTGCTAT 78575 1 Prosaposin (variant Gaucher disease and variant metachromatic leukodystrophy) AGGCTACGGA 119122 6 ribosomal protein L13a ATGTGAAGAG 111779 secreted protein, acidic, cysteine-rich (osteonectin) ATTTGAGAAG 178658 9 RAD23 homolog B (S. cerevisiae) CACCTAATTG 334477 FLJ23277 protein CCACTGCACT 107003 enhancer of invasion 10 CCTGTAATCC 138593 5'-nucleotidase (purine), cytosolic type B CTGGGTTAAT 298262 5 ribosomal protein S19 GAGGGAGTTT 76064 8 ribosomal protein L27a GGCAAGCCCC 334895 2 ribosomal protein L10a GGCTGGGGGC 75721 3 profilin 1 GGGCTGGGGT 90436 sperm associated antigen 7 GTGAAACCCC 372737 hypothetical protein MGC3207 GTGAAACCCT 182476 hypothetical protein PP1226 GTGAAGGCAG 77039 ribosomal protein S3A GTTGTGGTTA 75415 beta-2-microglobulin TACCATCAAT 169476 glyceraldehyde-3-phosphate dehydrogenase TACTAGTCCT 289088 heat shock 90kD protein 1, alpha TAGGTTGTCT 279860 tumor protein, translationally-controlled 1 TGCACGTTTT 169793 ribosomal protein L32 TGCCTGCACC 135084 cystatin C (amyloid angiopathy and cerebral hemorrhage) TGGAGTGGAG 3764 guanylate kinase 1 TGTACCTGTA 334842 tubulin, alpha, ubiquitous TTGGGGTTTC 62954 ferritin, heavy polypeptide 1