ANÁLISE DE SEQUÊNCIAS Dilvan Moreira (Baseado em material do prof. André Carvalho)

Leitura  Introduction to Computational Genomics: A Case Studies Approach  Capítulo 1

28/6/2016André de Carvalho - ICMC/USP 3 Introdução  Células  Biologia Molecular  Modelos Probabilísticos de Seqüências  Modelos Multinomiais  Modelos de Markov  Anotação de Genomas  Bancos de Dados

Células

28/6/2016André de Carvalho - ICMC/USP 5  Célula  Unidade básica dos seres vivos  Compartimento envolvido por membrana, preenchido com uma solução aquosa  Pode possuir organelas com funções específicas Mitocôndrias: geração de energia Complexo de Golgi: acúmulo de secreções Entre outras Células

28/6/2016André de Carvalho - ICMC/USP 6  Doutrinas da célula  Todos os seres vivos são formados por células e seus produtos  Células possuem estrutura e função  Todas as células surgem de células pré-existentes Uma célula pode criar cópias de si mesma por replicação e posterior divisão Células

28/6/2016André de Carvalho - ICMC/USP 7  Dependendo do número de células, um organismo é classificados como  Unicelular (bactérias, protozoários)  Pluricelular (vermes, mamíferos)  De acordo com a presença de um núcleo em suas células, um organismo pode ser classificada como:  Eucariota: possui um núcleo definido por membrana  Procariota: não possui um núcleo Células

28/6/2016André de Carvalho - ICMC/USP 8 Células  O fato de um organismo ser procarioto não quer dizer que seja unicelular  Maioria vive como organismo unicelular Embora algumas espécies se agrupem em cachos, cadeias ou outras formas de organização estrutural multicelular  Muitos organismos unicelulares são eucariotos

28/6/2016André de Carvalho - ICMC/USP9 Uma Célula animal Núcleo: DNA e RNA. Retículo Endoplasmático (RE) rugoso: Produz proteínas. RE liso: Produz lipídios. Mitocondria: Produz energia. Possui DNA próprio e capacidade de autoduplicação. Complexo de Golgi: Tem como função básica a digestão celular.

28/6/2016André de Carvalho - ICMC/USP 10 Células  Todas as células de um mesmo organismo possuem os mesmos genes  Nem todas as células possuem as mesmas organelas em iguais proporções  Células variam em forma e função  Normalmente a forma esta relacionada à função  Função e forma específica de uma célula são definidas pelos genes expressos por ela

28/6/2016André de Carvalho - ICMC/USP 11 Células  Os processos químicos que ocorrem em uma célula são basicamente os mesmos  Para todos os tipos celulares e organismos Mesmo que estas células apresentem diferentes formas e funções  Replicação de DNA em uma bactéria é semelhante à replicação de DNA em um mamífero Facilita avanço científico Por possibilitar a realização de experimentos com seres vivos mais primitivos e inferir resultados para outros seres

28/6/2016André de Carvalho - ICMC/USP 12 Citologia X Biologia Molecular  Citologia  Ciência que estuda as células mortas Estuda a organização celular, os tipos de células, funcionamento das células, mecanismo de divisão celular, etc.  Com o avanço da ciência, tornou-se possível a análise de células vivas (in vivo) Nível de moléculas Deu origem ao termo Biologia Molecular

28/6/2016André de Carvalho - ICMC/USP 13 DNA  Ácido Desoxirribonucleico  Pode ter uma ou duas fitas  DNA dupla fita Sequências se entrelaçam formando uma hélice dupla Forma um Cromossomo  DNA é composto de quatro nucleotídeos (bases) diferentes Adenina, Citosina, Guanina e Timina (Uracila no RNA) Dupla fita é causada pelo empareamento de bases

28/6/2016André de Carvalho - ICMC/USP 14 DNA  Fitas do DNA são mantidas juntas por ligações que conectam cada nucleotídeo de uma fita ao seu complemento na outra

28/6/2016André de Carvalho - ICMC/USP15 DNA  DNA é sempre lido no sentido 5 ’ a 3 ’ para processo de transcrição 5’ ATTTAGGCC 3’ 3’ TAAATCCGG 5’

28/6/2016André de Carvalho - ICMC/USP16 DNA  5’ end  Em uma ponta, existe o primeiro nucleotídeo. Ele tem seu grupo fosfato C5 se projetando para fora.  3’end  Na outra ponta, existe o último nucletídeo adicionado a fita de DNA. É o único que ainda tem seu componente C3 –OH.

28/6/2016André de Carvalho - ICMC/USP 17 Biologia Molecular  Genoma é o conjunto de todo DNA contido em uma célula (organismo)  Incluindo seus genes Genes carregam informação necessária para produzir proteínas requeridas pelo organismo  Proteínas determinam Aparência do organismo Quão bem o corpo metaboliza alimentos ou se defende de infecções As vezes, como o organismo se comporta

28/6/2016André de Carvalho - ICMC/USP 18 Fração do genoma da levedura CCACACCACACCCACACACCCACACACCACACCACACACCACACCACACCCACACACACACATCCTAACACTACCCTAACACAGCCCTAATCTAACCCTGGCCAACCTGTCTCTCAACTTACCC TCCATTACCCTGCCTCCACTCGTTACCCTGTCCCATTCAACCATACCACTCCGAACCACCATCCATCCCTCTACTTACTACCACTCACCCACCGTTACCCTCCAATTACCCATATCCAACCCAC TGCCACTTACCCTACCATTACCCTACCATCCACCATGACCTACTCACCATACTGTTCTTCTACCCACCATATTGAAACGCTAACAAATGATCGTAAATAACACACACGTGCTTACCCTACCACT TTATACCACCACCACATGCCATACTCACCCTCACTTGTATACTGATTTTACGTACGCACACGGATGCTACAGTATATACCATCTCAAACTTACCCTACTCTCAGATTCCACTTCACTCCATGGC CCATCTCTCACTGAATCAGTACCAAATGCACTCACATCATTATGCACGGCACTTGCCTCAGCGGTCTATACCCTGTGCCATTTACCCATAACGCCCATCATTATCCACATTTTGATATCTATAT CTCATTCGGCGGTCCCAAATATTGTATAACTGCCCTTAATACATACGTTATACCACTTTTGCACCATATACTTACCACTCCATTTATATACACTTATGTCAATATTACAGAAAAATCCCCACAA AAATCACCTAAACATAAAAATATTCTACTTTTCAACAATAATACATAAACATATTGGCTTGTGGTAGCAACACTATCATGGTATCACTAACGTAAAAGTTCCTCAATATTGCAATTTGCTTGAA CGGATGCTATTTCAGAATATTTCGTACTTACACAGGCCATACATTAGAATAATATGTCACATCACTGTCGTAACACTCTTTATTCACCGAGCAATAATACGGTAGTGGCTCAAACTCATGCGGG TGCTATGATACAATTATATCTTATTTCCATTCCCATATGCTAACCGCAATATCCTAAAAGCATAACTGATGCATCTTTAATCTTGTATGTGACACTACTCATACGAAGGGACTATATCTAGTCA AGACGATACTGTGATAGGTACGTTATTTAATAGGATCTATAACGAAATGTCAAATAATTTTACGGTAATATAACTTATCAGCGGCGTATACTAAAACGGACGTTACGATATTGTCTCACTTCAT CTTACCACCCTCTATCTTATTGCTGATAGAACACTAACCCCTCAGCTTTATTTCTAGTTACAGTTACACAAAAAACTATGCCAACCCAGAAATCTTGATATTTTACGTGTCAAAAAATGAGGGT CTCTAAATGAGAGTTTGGTACCATGACTTGTAACTCGCACTGCCCTGATCTGCAATCTTGTTCTTAGAAGTGACGCATATTCTATACGGCCCGACGCGACGCGCCAAAAAATGAAAAACGAAGC AGCGACTCATTTTTATTTAAGGACAAAGGTTGCGAAGCCGCACATTTCCAATTTCATTGTTGTTTATTGGACATACACTGTTAGCTTTATTACCGTCCACGTTTTTTCTACAATAGTGTAGAAG TTTCTTTCTTATGTTCATCGTATTCATAAAATGCTTCACGAACACCGTCATTGATCAAATAGGTCTATAATATTAATATACATTTATATAATCTACGGTATTTATATCATCAAAAAAAAGTAGT TTTTTTATTTTATTTTGTTCGTTAATTTTCAATTTCTATGGAAACCCGTTCGTAAAATTGGCGTTTGTCTCTAGTTTGCGATAGTGTAGATACCGTCCTTGGATAGAGCACTGGAGATGGCTGG CTTTAATCTGCTGGAGTACCATGGAACACCGGTGATCATTCTGGTCACTTGGTCTGGAGCAATACCGGTCAACATGGTGGTGAAGTCACCGTAGTTGAAAACGGCTTCAGCAACTTCGACTGGG TAGGTTTCAGTTGGGTGGGCGGCTTGGAACATGTAGTATTGGGCTAAGTGAGCTCTGATATCAGAGACGTAGACACCCAATTCCACCAAGTTGACTCTTTCGTCAGATTGAGCTAGAGTGGTGG TTGCAGAAGCAGTAGCAGCGATGGCAGCGACACCAGCGGCGATTGAAGTTAATTTGACCATTGTATTTGTTTTGTTTGTTAGTGCTGATATAAGCTTAACAGGAAAGGAAAGAATAAAGACATA TTCTCAAAGGCATATAGTTGAAGCAGCTCTATTTATACCCATTCCCTCATGGGTTGTTGCTATTTAAACGATCGCTGACTGGCACCAGTTCCTCATCAAATATTCTCTATATCTCATCTTTCAC ACAATCTCATTATCTCTATGGAGATGCTCTTGTTTCTGAACGAATCATAAATCTTTCATAGGTTTCGTATGTGGAGTACTGTTTTATGGCGCTTATGTGTATTCGTATGCGCAGAATGTGGGAA TGCCAATTATAGGGGTGCCGAGGTGCCTTATAAAACCCTTTTCTGTGCCTGTGACATTTCCTTTTTCGGTCAAAAAGAATATCCGAATTTTAGATTTGGACCCTCGTACAGAAGCTTATTGTCT AAGCCTGAATTCAGTCTGCTTTAAACGGCTTCCGCGGAGGAAATATTTCCATCTCTTGAATTCGTACAACATTAAACGTGTGTTGGGAGTCGTATACTGTTAGGGTCTGTAAACTTGTGAACTC TCGGCAAATGCCTTGGTGCAATTACGTAATTTTAGCCGCTGAGAAGCGGATGGTAATGAGACAAGTTGATATCAAACAGATACATATTTAAAAGAGGGTACCGCTAATTTAGCAGGGCAGTATT ATTGTAGTTTGATATGTACGGCTAACTGAACCTAAGTAGGGATATGAGAGTAAGAACGTTCGGCTACTCTTCTTTCTAAGTGGGATTTTTCTTAATCCTTGGATTCTTAAAAGGTTATTAAAGT TCCGCACAAAGAACGCTTGGAAATCGCATTCATCAAAGAACAACTCTTCGTTTTCCAAACAATCTTCCCGAAAAAGTAGCCGTTCATTTCCCTTCCGATTTCATTCCTAGACTGCCAAATTTTT CTTGCTCATTTATAATGATTGATAAGAATTGTATTTGTGTCCCATTCTCGTAGATAAAATTCTTGGATGTTAAAAAATTATTATTTTCTTCATAAAGAAGCTTTCAAGATATAAGATACGAAAT AGGGGTTGATAATTGCATGACAGTAGCTTTAGATCAAAAAGGAAAGCATGGAGGGAAACAGTAAACAGTGAAAATTCTCTTGAGAACCAAAGTAAACCTTCATTGAAGAGCTTCCTTAAAAAAT TTAGAATCTCCCATGTCAACGGGTTTCCATACCTCCCCAGCATCATACATCTTTTTTCAAAGAAACTTCAAATGCCTCTTTTATGCAAGGGGCAAAATCCTGAAATGACTTAAACTTAGCAGTT TCGTCTTTTTTCAAAGAGAATGGTTGAAGAAGAATTGTTTTGGACGCTTATTGACAATCTGTTGCATTGATAAAGTACCTACTATCCCAGACTATATTTGTATACAAGTACAAAATTAGGTTTG TTGAAACAACTTTCCGATCATTGGTGCCCGTATCTGATGTTTTTTTAGTAATTTCTTTGTAAATACAGGGAGTTGTTTCGAAAGCTTATGAGAAAAATACATGAATGACAGGTAAAAATATTGG CTCGAAAAAGAGGACAAAAAGAGAAATCATAAATGAGTAAACCCACTTGCTGGACATTATCCAGTAAAGGCTTGGTAGTAACCATAATATTACCCAGGTACGAAACGCTAAGAACCTTGAAAGA CTCATAAAACTTCCAGGTTAAGCTATTTTTGAAAATATTCTGAGGTAAAAGCCATTAAGGTCCAGATAACCAAGGGACAATAAACCTATGCTTTTCTTGTCTTCAATTTCAGTATCTTTCCATT TTGATAATGAGCATGTGATCCGGAAAGCTACTTTATGATGTTTCAAGGCCTGAAGTTTGAATATTTATGTAGTTCAACATCAAATGTGTCTATTTTGTGATGAGGCAACCGTCGACAACCTTAT TATCGAAAAAGAACAACAAGTTCACATGCTTGTTACTCTCTATAACTAGAGAGTACTTTTTTTGGAAGCAAGTAAGAATAAGTCAATTTCTACTTACCTCATTAGGGAAAAATTTAATAGCAGT TGTTATAACGACAAATACAGGCCCTAAAAAATTCACTGTATTCAATGGTCTACGAATCGTCAATCGCTTGCGGTTATGGCACGAAGAACAATGCAATAGCTCTTACAAGCCACTACATGACAAG CAACTCATAATTTAA

28/6/2016André de Carvalho - ICMC/USP 19 Biologia Molecular Células haplóides: 1 conjunto de cromossomos Células diplóides: 2 conjuntos de cromossomos (pares)

28/6/2016André de Carvalho - ICMC/USP 20 Biologia Molecular  Genes  Subsequências de DNA Localizados no cromossomo  Servem como molde para a produção de proteínas ou RNA  Encaixadas entre os genes estão segmentos chamados de regiões não codificadoras

28/6/2016André de Carvalho - ICMC/USP 21 Nem todo DNA Codifica Genes 22.000 ? 3200 x 10 6 Human Mosca da fruta13601180 x 10 6 Drosophilia melanogaster Verme1909995.5 x 10 6 C. Elegans Levedura588512.1 x 10 6 Saccharomyces cerevisiae 44064639221E. Coli Infecção no ouvido17381830138Hemophilus influenzae Pneumonia680816394Mycoplasma pneumoniae Organela subcelular3716569Human mitochondrion Virus da E.coli10 5386 ФX-174 DescriçãoGenesNum. de pbOrganismo Seres humanos

28/6/2016André de Carvalho - ICMC/USP 22 DNA Não Codificante  Não participa da síntese de proteínas/RNA  Era considerado "lixo" genético  Se liga à fita de DNA  Uma das funções: bloqueio genético durante o processo de transcrição Gene da região do DNA ao qual esta ligado não é lido Evita que a proteína associada seja expressa Inibição de genes pode prevenir crescimento de células com tumor Pesquisadores conseguiram posteriormente religar genes sem problemas de crescimento de tumores

28/6/2016André de Carvalho - ICMC/USP 23 Biologia Molecular  Cientistas identificaram gene ligado a câncer de mama (SATB1)  Trabalho publicado na Nature, Março de 2008  Organismo sadio: um organizador de outros genes  Organismo com câncer: promove crescimento de tumores, controlando cerca de 1000 outros genes Líder de gangue, quadrilha, máfia Papel ativo na formação de outros focos de câncer (metastase) Causa de morte mais comum em pacientes com a doença

28/6/2016André de Carvalho - ICMC/USP 24 Bioinformática  Experimentos feitos em ratos:  Após o gene ser inativado, termina a proliferação alucinada das células de tumor Câncer perde potencial de agressividade  Permite diagnósticos mais precoces e precisos Células de tumor de mama com gene defeituoso

28/6/2016André de Carvalho - ICMC/USP 25 Biologia Molecular  Proteínas  Definem estrutura, função e mecanismos regulatórios das células Exemplos de mecanismos regulatórios: controle do ciclo celular, transcrição gênica  Sequências lineares Combinações de 20 aminoácidos diferentes Três nucleotídeos consecutivos (códon) formam um aminoácido

28/6/2016André de Carvalho - ICMC/USP 26 Tamanho de Genomas  Procariotos  0.5 a 12 megabases - MB - (1.000.000 bp)  Virais  5 a 50 kilobases – KB - (1.000 bp)  Eucariotos  8 megabases a 670 gigabases - GB- (1.000.000.000 bp)  Grande quantidade de DNA repetido  Organelas  Maioria dos eucariotos também tem genoma fora do núcleo  Geralmente restos de procariotos que viveram em simbiose

28/6/2016 André de Carvalho - ICMC/USP 27 Vírus X Bactérias  Bactérias  Unicelulares, procarióticos  Vida livre  Podem ser encontrados na forma isolada ou em colônias  Geralmente têm um genoma circular de simples-fita  Virus  Menores que bactérias  Não têm vida livre  Simples ou dupla fita  Formados basicamente por proteínas  Reproduzem-se pela invasão e posse do controle da máquina de auto-reprodução celular

28/6/2016André de Carvalho - ICMC/USP 28 Modelos Probabilísticos de Seqüências  Grande parte dos estudos em genômica computacional emprega métodos estatísticos  Ex.: encontrar estruturas de interesse em sequências de milhões de bp Maior parte da sequência não contém informação relevante Necessário obter modelos probabilísticos de sequências de DNA

28/6/2016André de Carvalho - ICMC/USP 29 Modelos Probabilísticos de Sequências  Abstração de molécula tridimensional para sequência de símbolos (linear)  Alfabeto {A, C, T, G}  Permite uso de ferramentas matemáticas poderosas Negligencia informação presente na estrutura tridimensional

28/6/2016André de Carvalho - ICMC/USP 30 Modelos Probabilísticos de Seqüências  Definição 1.1  Uma sequência de DNA s é um string finito do alfabeto N = {A, C, T, G} de nucleotídeos.  Genoma é o conjunto de todas as sequências de DNA de um organismo ou organela  Permite uso de modelos estatísticos de:  Evolução de sequências, similaridade de sequências, etc.

28/6/2016André de Carvalho - ICMC/USP 31 Modelos Probabilísticos de Seqüências  Definição 1.2  Os elementos de uma sequência s são denotados por s = s 1,s 2,..., s n, onde cada s i representa um elemento  Dado um conjunto de índices K, é possível concatenar elementos de s em sua ordem original s(K) = s i,s j, s k se K = {i, j, k} Também é possível usar K = [i, j] = (i:j) Símbolo específico pode ser denotado por k = {i}, assim s i = s(i)

28/6/2016André de Carvalho - ICMC/USP 32 Exercício  Dada a seqüência de DNA s = ATATGTCGTGCA, encontrar:  s{7} =  s(2:6) =  s{2, 5, 9} =

28/6/2016André de Carvalho - ICMC/USP 33 Modelos Probabilísticos de Seqüências  Quase todos os métodos probabilísticos de análise de seqüência podem ser agrupados em duas categorias:  Modelos multinomiais  Modelos de Markov

28/6/2016André de Carvalho - ICMC/USP 34 Modelos Multinomiais  Modelos mais simples  Assumem uma distribuição de probabilidade p sobre o alfabeto  Nucleotídeos são independentes e identicamente distribuídos (i.i.d.) ao longo da sequência  Ex.: Para sequência de DNA p = (p a, p b, p c, p d ), onde P x = p(s i = x) Independe da posição de i P a + p b + p c + p d = 1 (restrição de normalização) Definir probabilidades iguais ou baseadas na frequência de cada nucleotídeo

28/6/2016André de Carvalho - ICMC/USP 35 Modelos Multinomiais  Não se espera que as sequências de DNA sejam verdadeiramente aleatórias  Validade do modelo pode ser testada com sequências reais Estimar frequência de símbolos em regiões da sequência Testar violações da independência checando correlações entre indivíduos vizinhos Regiões onde ocorrem mudanças e com correlações são de grande interesse

28/6/2016André de Carvalho - ICMC/USP 36 Modelos de Markov  Fornecem modelo mais complexo de seqüências de DNA  Probabilidade de observar um símbolo depende do símbolo anterior na seqüência Último símbolo – ordem 1 Dois últimos – ordem 2 Nenhum anterior – ordem 0 (multinomial) Consegue modelar co-relações locais entre nucleotídeos

28/6/2016André de Carvalho - ICMC/USP 37 Modelos de Markov ACGT A0.990.0020.0060.002 C 0.990.0020.006 G 0.0020.990.002 T 0.0060.0020.99 ACGT 0.006 0.002 Matriz de transição  =  A  C  G  T Probabilidade de cada estado inicial P CA DeDe Para Probabilidades iguais = multinomial

28/6/2016André de Carvalho - ICMC/USP 38 Modelos de Markov  Entradas na matriz de transição são definidas por:  p xy = p(s i+1 = y/ s i = x)  p(s) = p(s 1 s 2... s n ) p(s) = p(s 1 ) p(s 2 )... p(s n ) - ordem 0 p(s) = p(s n /s n-1 ) p(s n-1 /s n-2 )... p(s 2 /s 1 )  (s 1 ) - ordem 1

28/6/2016André de Carvalho - ICMC/USP 39 Anotação de Genomas  Estatísticas simples podem descrever características importantes BaseNúmeroFreqüência A567.6230.3102 C350.7230.1916 G347.4360.1898 T564.2410.3083 Estatística básica do H. influenza (1.830.138 bp)

28/6/2016André de Carvalho - ICMC/USP 40 Anotação de Genomas  Composição das bases  Frequência das bases são diferentes em genomas de diferentes organismos  Frequências pode variar em diferentes trechos (faixas) Viola suposição do modelo multinomial

28/6/2016André de Carvalho - ICMC/USP 41 Anotação de Genomas Olhar apenas uma das fitas Janela de tamanho k

28/6/2016André de Carvalho - ICMC/USP 42 Anotação de Genomas Olhar apenas uma das fitas Janela de tamanho k

28/6/2016André de Carvalho - ICMC/USP 43 Anotação de Genomas  Conteúdo (frequência) GC (C e G)  Medida mais relatada em artigos C e G (A e T) têm frequências similares Frequência agregada GC versus AT (AT = 1–GC) OrganismoConteúdo GC H. influenza38.8 M. turbeculosis65.8 S. Enteritidis49.5 Conteúdo GC para diferentes organismos

28/6/2016André de Carvalho - ICMC/USP 44 Anotação de Genomas  Conteúdo (frequência) GC  Pode ser usado para detectar material genético externo em trecho de um genoma  Espécies podem adquirir subsequências de outros organismos (ex. vírus) Transferência genética horizontal

28/6/2016André de Carvalho - ICMC/USP 45 Anotação de Genomas  Análise de pontos de mudança  Utilizar método para detectar onde muda a distribuição de bases ou GC  Regiões de mudança dividem a sequência em trechos mais uniformes  Pode ajudar a identificar importantes sinais biológicos  Medida mais simples: usar threshold Definição do valor do threshold (como o tamanho da janela) é um problema estatístico

28/6/2016André de Carvalho - ICMC/USP 46 Anotação de Genomas

28/6/2016André de Carvalho - ICMC/USP 47 Anotação de Genomas  Frequência k-mer e viés de motivo (motif)  Outra medida útil é a frequência de sequências de tamanho 2 e maior Dimers, trimers, k-mers  K-mers não usuais: qualquer palavra que aparece com frequência maior ou menor que esperada  Viés na posição ou frequência dessas palavras podem relevar informações importantes sobre sua função  Conta-se número de k-mers percorrendo a sequência com uma janela de tamanho k

28/6/2016André de Carvalho - ICMC/USP 48 Anotação de Genomas  Frequência k-mer e viés de motivo  É possível também plotar a frequência apenas de alguns k-mers de interesse Ex. Dimers (dinucleotídeos) AT e CG  Existem exemples de viés estatísticos de uso de nucleotídeos Ex.: Baixa frequência de CGs em alguns organismos Fácil ver esses viés em “ assinaturas de genoma ” Chaos-Game representation (CGR)

28/6/2016André de Carvalho - ICMC/USP 49 Assinatura de Genoma  CGR representa por cores frequência observada dos k-mers  Quanto mais escuro, mais frequente 2-mers5-mers8-mers

28/6/2016André de Carvalho - ICMC/USP 50 Assinatura de Genoma  CGR exibe frequência de 4 k palavras ou strings  Imagem quadrada é dividida em 4 quadrantes q1, um para cada nucleotídeo  Pixel indicando a frequência de todos os strings de qq tamanho terminando em um dado nucleotídeo ocorre no quadrante desse nucleotídeo

28/6/2016André de Carvalho - ICMC/USP 51 Exemplo 2-mers CCGG CA AATTTA GA Quadrante com frequência de todas as palavras que terminam com o nucleotídeo A C AT G CA AATA GA

 Cada quadrante q1 é sub-dividido em 4 quadrantes q2  Um q2 para cada nucleotídeo presente na penúltima posição da palavra  Cada q2 está na mesma posição relativa do mesmo nucleotídeo no quadrante q1  Continuar até o número apropriado de pixels (4 K ) ser obtido  Preencher cada quadrado com cor proporcional a frequência de seu k-mer 28/6/2016André de Carvalho - ICMC/USP 52 Assinatura de Genoma C G A T

28/6/2016André de Carvalho - ICMC/USP 53 Anotação de Genomas  Frequência de motifs (k-mers) pode trazer informações relevantes  Sequência de nucleotídeos frequente que pode ter uma relevância biológica  Análise estatística simples pode levar em conta frequência de nucleotídeos Pode encontrar motifs sub ou super representados Ajuda a decidir quando um viés é significante  Motifs pouco usuais podem ter relevância biológica Ex.: motifs frequentes podem estar associados a elementos repetitivos

28/6/2016André de Carvalho - ICMC/USP54 Anotação de Genomas  Procura por dimers (dinucleotídeos) pouco usuais no H. influenza A C G T A1.2491 0.8496 0.8210 0.9535 C1.1182 1.0121 1.0894 0.8190 G0.8736 1.4349 1.0076 0.8526 T0.7541 0.8763 1.1204 1.2505 Frequência observada

28/6/2016André de Carvalho - ICMC/USP 55 Importante Distinguir  Casamento de padrões  Dado um motif, encontrar suas ocorrências em uma sequência  Descoberta de padrões  Descobrir em uma sequência padrões de interesse Úteis Novos

28/6/2016André de Carvalho - ICMC/USP 56 Bancos de Dados de Genoma  Conhecimento adquirido no curso será utilizado em sequências reais  DNA e proteínas  Armazenadas em bancos de dados disponíveis na internet  Necessário saber como: Acessar Manipular Processar  Passos envolvidos nessas operações estão padronizados Esses dados

28/6/2016André de Carvalho - ICMC/USP 57 Bancos de Dados de Genoma  Gerais  DNA, proteinas e carboidratos, estruturas 3- dimensionais,...  Especializados  EST, STS, SNP, RNA, genomas, famílias de proteina, pathways, dados de microarray,...)

28/6/2016André de Carvalho - ICMC/USP 58 Bancos de Dados de Genoma  Toda sequência de genoma publicada deve ser disponibilizada em uma BD pública  Membros do International Nucleotide Sequence Database Collaboration são os principais repositórios  Consórcio formado por 3 grandes BDs EMBL (European Molecular Biology Laboratory nucleotide sequence database at EBI, Hinxton, UK) EMBLEBI GenBank (at National Center for Biotechnology information, NCBI, Bethesda, MD, USA) GenBankNCBI DDBJ (DNA Data Bank Japan at CIB, Mishima, Japan) DDBJCIB

28/6/2016André de Carvalho - ICMC/USP 59 Bancos de Dados de Genoma

28/6/2016André de Carvalho - ICMC/USP 60 GenBank  Cada sequência  É identificada por um número único de adesão  Inclui uma quantidade de meta-dados Dados sobre os dados ou anotação Ex.: Espécie do organismo sequenciado

28/6/2016André de Carvalho - ICMC/USP 61 Formatos de Dados e Anotação  Existem vários formatos diferentes para fornecer uma sequência e sua anotação  EMBL, GenBank e DDBJ têm seu próprio formato padrão  Também existem formatos que não estão associados a um BD Mas geralmente a um programa de análise de sequências FASTA

28/6/2016André de Carvalho - ICMC/USP 62 Formato FASTA

28/6/2016André de Carvalho - ICMC/USP 63 Formato FASTA >FOSB_MOUSE Protein fosB. 338 bp MFQAFPGDYDSGSRCSSSPSAESQYLSSVDSFGSPPTAAASQECAGLGEMPGSFVPTVTA ITTSQDLQWLVQPTLISSMAQSQGQPLASQPPAVDPYDMPGTSYSTPGLSAYSTGGASGS GGPSTSTTTSGPVSARPARARPRRPREETLTPEEEEKRRVRRERNKLAAAKCRNRRRELT DRLQAETDQLEEEKAELESEIAELQKEKERLEFVLVAHKPGCKIPYEEGPGPGPLAEVRD LPGSTSAKEDGFGWLLPPPPPPPLPFQSSRDAPPNLTASLFTHSEVQVLGDPFPVVSPSY TSSFVLTCPEVSAFAGAQRTSGSEQPSDPLNSPSLLAL Primeira linha: “>” seguido pela anotação Qualquer formato, sem quebra de linha Informação sobre a sequência começa na linha seguinte Até outro símbolo “>” aparecer como primeiro caractere de uma linha

28/6/2016André de Carvalho - ICMC/USP 64 FORMATO FASTA  Aceito pela maioria dos programas de análise de sequência  Fornecido pela maioria dos BDs online  Limita quantidade de anotação permitida  Outros padrões são utilizados quando é desejado incluir mais meta-informação Informação sobre a sequência

28/6/2016André de Carvalho - ICMC/USP 65 Formato GenBank  Uma entrada contém várias seções  LOCUS: identifica a sequência  DEFINITION: define a sequência  ACCESSION: identifica unicamente a sequência Relatado em publicações científicas e usado para referência cruzada a outros BDs  SOURCE e ORGANISM: identificam origem biológica da sequência  REFERENCE: lista artigos relacionados a sequência  ORIGIN: lista todos os nucleotídeos  Entre outras

28/6/2016André de Carvalho - ICMC/USP 66 Formato GenBank  ORIGIN  Sequencias são organizadas em linhas contendo 6 blocos, cada um com 10 bases  Símbolo “ // ” indica final da entrada

28/6/2016André de Carvalho - ICMC/USP 67 Formato GenBank

28/6/2016André de Carvalho - ICMC/USP 68 Formato GenBank

28/6/2016André de Carvalho - ICMC/USP 69 Formato GenBank LOCUS SCU49845 5028 bp DNA PLN 21-JUN- 1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS. SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709 PUBMED 7871890 REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260 PUBMED 8846915 REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA FEATURES Location/Qualifiers source 1..5028 /organism="Saccharomyces cerevisiae" /db_xref="taxon:4932" /chromosome="IX" gene 687..3158 /gene="AXL2" CDS 687..3158 /gene="AXL2" /note="plasma membrane glycoprotein" /codon_start=1 /function="required for axial budding pattern of S. cerevisiae" /product="Axl2p" /protein_id="AAA98666.1" /db_xref="GI:1293615" /translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN VILEGTDSADSTSLNNTYQFVVTNRPSISLSSDFNLLALLKNYGYTNGKNALKLDPNE VFNVTFDRSMFTNEESIVSYYGRSQLYNAPLPNWLFFDSGELKFTGTAPVINSAIAPE TSYSFVIIATDIEGFSAVEVEFELVIGAHQLTTSIQNSLIINVTDTGNVSYDLPLNYV YLDDDPISSDKLGSINLLDAPDWVALDNATISGSVPDELLGKNSNPANFSVSIYDTYG DVIYFNFEVVSTTDLFAISSLPNINATRGEWFSYYFLPSQFTDYVNTNVSLEFTNSSQ DHDWVKFQSSNLTLAGEVPKNFDKLSLGLKANQGSQSQELYFNIIGMDSKITHSNHSA NATSTRSSHHSTSTSSYTSSTYTAKISSTSAAATSSAPAALPAANKTSSHNKKAVAIA CGVAIPLGVILVALICFLIFWRRRRENPDDENLPHAISGPDLNNPANKPNQENATPLN NPFDDDASSYDDTSIARRLAALNTLKLDNHSATESDISSVDEKRDSLSGMNTYNDQFQ SQSKEELLAKPPVQPPESPFFDPQNRSSSVYMDSEPAVNKSWRYTGNLSPVSDIVRDS YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK HRNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML BASE COUNT 1510 a 1074 c 835 g 1609 t ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241

28/6/2016André de Carvalho - ICMC/USP 70 Alfabeto Padrão  Sequências em diferentes repositórios seguem alfabeto padrão de nucleotídeos  Inclui símbolos para nucleotídeos ambíguos  Símbolos mais comuns: A AdeninaN qualquer (aNy) base C CitosinaR A ou G (puRine) G GuaninaY C ou T (pYrimidine) T TiminaM A ou C (aMino)

28/6/2016André de Carvalho - ICMC/USP 71 Conclusão  Células  Biologia Molecular  Modelos Probabilísticos de Seqüências  Modelos Multinomiais  Modelos de Markov  Anotação de Genomas  Bancos de Dados

Perguntas?

NCBI: National Center for Biotechnology information Established in 1988 as a national resource for molecular biology information, NCBI creates public databases, conducts research in computational biology, develops software tools for analyzing genome data, and disseminates biomedical information - all for the better understanding of molecular processes affecting human health and disease.

The EMBL Nucleotide Sequence Database (also known as EMBL-Bank) constitutes Europe's primary nucleotide sequence resource. Main sources for DNA and RNA sequences are direct submissions from individual researchers, genome sequencing projects and patent applications.direct submissions

DDBJ (DNA Data Bank of Japan) began DNA data bank activities in earnest in 1986 at the National Institute of Genetics (NIG). DDBJ has been functioning as the international nucleotide sequence database in collaboration with EBI/EMBL and NCBI/GenBank.

Fasta Protein Database Query Provides sequence similarity searching against nucleotide and protein databases using the Fasta programs. Fasta can be very specific when identifying long regions of low similarity especially for highly diverged sequences. You can also conduct sequence similarity searching against complete proteome or genome databases using the Fasta programs.proteome genomeFasta programs Download Software

ANÁLISE DE SEQUÊNCIAS Dilvan Moreira (Baseado em material do prof. André Carvalho)

Apresentações semelhantes

Apresentação em tema: "ANÁLISE DE SEQUÊNCIAS Dilvan Moreira (Baseado em material do prof. André Carvalho)"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

ANÁLISE DE SEQUÊNCIAS Dilvan Moreira (Baseado em material do prof. André Carvalho)

Apresentações semelhantes

Apresentação em tema: "ANÁLISE DE SEQUÊNCIAS Dilvan Moreira (Baseado em material do prof. André Carvalho)"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback