Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouManuel Alcântara Viveiros Alterado mais de 7 anos atrás
1
ANÁLISE DE SEQUÊNCIAS Dilvan Moreira (Baseado em material do prof. André Carvalho)
2
Leitura Introduction to Computational Genomics: A Case Studies Approach Capítulo 1
3
28/6/2016André de Carvalho - ICMC/USP 3 Introdução Células Biologia Molecular Modelos Probabilísticos de Seqüências Modelos Multinomiais Modelos de Markov Anotação de Genomas Bancos de Dados
4
Células
5
28/6/2016André de Carvalho - ICMC/USP 5 Célula Unidade básica dos seres vivos Compartimento envolvido por membrana, preenchido com uma solução aquosa Pode possuir organelas com funções específicas Mitocôndrias: geração de energia Complexo de Golgi: acúmulo de secreções Entre outras Células
6
28/6/2016André de Carvalho - ICMC/USP 6 Doutrinas da célula Todos os seres vivos são formados por células e seus produtos Células possuem estrutura e função Todas as células surgem de células pré-existentes Uma célula pode criar cópias de si mesma por replicação e posterior divisão Células
7
28/6/2016André de Carvalho - ICMC/USP 7 Dependendo do número de células, um organismo é classificados como Unicelular (bactérias, protozoários) Pluricelular (vermes, mamíferos) De acordo com a presença de um núcleo em suas células, um organismo pode ser classificada como: Eucariota: possui um núcleo definido por membrana Procariota: não possui um núcleo Células
8
28/6/2016André de Carvalho - ICMC/USP 8 Células O fato de um organismo ser procarioto não quer dizer que seja unicelular Maioria vive como organismo unicelular Embora algumas espécies se agrupem em cachos, cadeias ou outras formas de organização estrutural multicelular Muitos organismos unicelulares são eucariotos
9
28/6/2016André de Carvalho - ICMC/USP9 Uma Célula animal Núcleo: DNA e RNA. Retículo Endoplasmático (RE) rugoso: Produz proteínas. RE liso: Produz lipídios. Mitocondria: Produz energia. Possui DNA próprio e capacidade de autoduplicação. Complexo de Golgi: Tem como função básica a digestão celular.
10
28/6/2016André de Carvalho - ICMC/USP 10 Células Todas as células de um mesmo organismo possuem os mesmos genes Nem todas as células possuem as mesmas organelas em iguais proporções Células variam em forma e função Normalmente a forma esta relacionada à função Função e forma específica de uma célula são definidas pelos genes expressos por ela
11
28/6/2016André de Carvalho - ICMC/USP 11 Células Os processos químicos que ocorrem em uma célula são basicamente os mesmos Para todos os tipos celulares e organismos Mesmo que estas células apresentem diferentes formas e funções Replicação de DNA em uma bactéria é semelhante à replicação de DNA em um mamífero Facilita avanço científico Por possibilitar a realização de experimentos com seres vivos mais primitivos e inferir resultados para outros seres
12
28/6/2016André de Carvalho - ICMC/USP 12 Citologia X Biologia Molecular Citologia Ciência que estuda as células mortas Estuda a organização celular, os tipos de células, funcionamento das células, mecanismo de divisão celular, etc. Com o avanço da ciência, tornou-se possível a análise de células vivas (in vivo) Nível de moléculas Deu origem ao termo Biologia Molecular
13
28/6/2016André de Carvalho - ICMC/USP 13 DNA Ácido Desoxirribonucleico Pode ter uma ou duas fitas DNA dupla fita Sequências se entrelaçam formando uma hélice dupla Forma um Cromossomo DNA é composto de quatro nucleotídeos (bases) diferentes Adenina, Citosina, Guanina e Timina (Uracila no RNA) Dupla fita é causada pelo empareamento de bases
14
28/6/2016André de Carvalho - ICMC/USP 14 DNA Fitas do DNA são mantidas juntas por ligações que conectam cada nucleotídeo de uma fita ao seu complemento na outra
15
28/6/2016André de Carvalho - ICMC/USP15 DNA DNA é sempre lido no sentido 5 ’ a 3 ’ para processo de transcrição 5’ ATTTAGGCC 3’ 3’ TAAATCCGG 5’
16
28/6/2016André de Carvalho - ICMC/USP16 DNA 5’ end Em uma ponta, existe o primeiro nucleotídeo. Ele tem seu grupo fosfato C5 se projetando para fora. 3’end Na outra ponta, existe o último nucletídeo adicionado a fita de DNA. É o único que ainda tem seu componente C3 –OH.
17
28/6/2016André de Carvalho - ICMC/USP 17 Biologia Molecular Genoma é o conjunto de todo DNA contido em uma célula (organismo) Incluindo seus genes Genes carregam informação necessária para produzir proteínas requeridas pelo organismo Proteínas determinam Aparência do organismo Quão bem o corpo metaboliza alimentos ou se defende de infecções As vezes, como o organismo se comporta
18
28/6/2016André de Carvalho - ICMC/USP 18 Fração do genoma da levedura CCACACCACACCCACACACCCACACACCACACCACACACCACACCACACCCACACACACACATCCTAACACTACCCTAACACAGCCCTAATCTAACCCTGGCCAACCTGTCTCTCAACTTACCC TCCATTACCCTGCCTCCACTCGTTACCCTGTCCCATTCAACCATACCACTCCGAACCACCATCCATCCCTCTACTTACTACCACTCACCCACCGTTACCCTCCAATTACCCATATCCAACCCAC TGCCACTTACCCTACCATTACCCTACCATCCACCATGACCTACTCACCATACTGTTCTTCTACCCACCATATTGAAACGCTAACAAATGATCGTAAATAACACACACGTGCTTACCCTACCACT TTATACCACCACCACATGCCATACTCACCCTCACTTGTATACTGATTTTACGTACGCACACGGATGCTACAGTATATACCATCTCAAACTTACCCTACTCTCAGATTCCACTTCACTCCATGGC CCATCTCTCACTGAATCAGTACCAAATGCACTCACATCATTATGCACGGCACTTGCCTCAGCGGTCTATACCCTGTGCCATTTACCCATAACGCCCATCATTATCCACATTTTGATATCTATAT CTCATTCGGCGGTCCCAAATATTGTATAACTGCCCTTAATACATACGTTATACCACTTTTGCACCATATACTTACCACTCCATTTATATACACTTATGTCAATATTACAGAAAAATCCCCACAA AAATCACCTAAACATAAAAATATTCTACTTTTCAACAATAATACATAAACATATTGGCTTGTGGTAGCAACACTATCATGGTATCACTAACGTAAAAGTTCCTCAATATTGCAATTTGCTTGAA CGGATGCTATTTCAGAATATTTCGTACTTACACAGGCCATACATTAGAATAATATGTCACATCACTGTCGTAACACTCTTTATTCACCGAGCAATAATACGGTAGTGGCTCAAACTCATGCGGG TGCTATGATACAATTATATCTTATTTCCATTCCCATATGCTAACCGCAATATCCTAAAAGCATAACTGATGCATCTTTAATCTTGTATGTGACACTACTCATACGAAGGGACTATATCTAGTCA AGACGATACTGTGATAGGTACGTTATTTAATAGGATCTATAACGAAATGTCAAATAATTTTACGGTAATATAACTTATCAGCGGCGTATACTAAAACGGACGTTACGATATTGTCTCACTTCAT CTTACCACCCTCTATCTTATTGCTGATAGAACACTAACCCCTCAGCTTTATTTCTAGTTACAGTTACACAAAAAACTATGCCAACCCAGAAATCTTGATATTTTACGTGTCAAAAAATGAGGGT CTCTAAATGAGAGTTTGGTACCATGACTTGTAACTCGCACTGCCCTGATCTGCAATCTTGTTCTTAGAAGTGACGCATATTCTATACGGCCCGACGCGACGCGCCAAAAAATGAAAAACGAAGC AGCGACTCATTTTTATTTAAGGACAAAGGTTGCGAAGCCGCACATTTCCAATTTCATTGTTGTTTATTGGACATACACTGTTAGCTTTATTACCGTCCACGTTTTTTCTACAATAGTGTAGAAG TTTCTTTCTTATGTTCATCGTATTCATAAAATGCTTCACGAACACCGTCATTGATCAAATAGGTCTATAATATTAATATACATTTATATAATCTACGGTATTTATATCATCAAAAAAAAGTAGT TTTTTTATTTTATTTTGTTCGTTAATTTTCAATTTCTATGGAAACCCGTTCGTAAAATTGGCGTTTGTCTCTAGTTTGCGATAGTGTAGATACCGTCCTTGGATAGAGCACTGGAGATGGCTGG CTTTAATCTGCTGGAGTACCATGGAACACCGGTGATCATTCTGGTCACTTGGTCTGGAGCAATACCGGTCAACATGGTGGTGAAGTCACCGTAGTTGAAAACGGCTTCAGCAACTTCGACTGGG TAGGTTTCAGTTGGGTGGGCGGCTTGGAACATGTAGTATTGGGCTAAGTGAGCTCTGATATCAGAGACGTAGACACCCAATTCCACCAAGTTGACTCTTTCGTCAGATTGAGCTAGAGTGGTGG TTGCAGAAGCAGTAGCAGCGATGGCAGCGACACCAGCGGCGATTGAAGTTAATTTGACCATTGTATTTGTTTTGTTTGTTAGTGCTGATATAAGCTTAACAGGAAAGGAAAGAATAAAGACATA TTCTCAAAGGCATATAGTTGAAGCAGCTCTATTTATACCCATTCCCTCATGGGTTGTTGCTATTTAAACGATCGCTGACTGGCACCAGTTCCTCATCAAATATTCTCTATATCTCATCTTTCAC ACAATCTCATTATCTCTATGGAGATGCTCTTGTTTCTGAACGAATCATAAATCTTTCATAGGTTTCGTATGTGGAGTACTGTTTTATGGCGCTTATGTGTATTCGTATGCGCAGAATGTGGGAA TGCCAATTATAGGGGTGCCGAGGTGCCTTATAAAACCCTTTTCTGTGCCTGTGACATTTCCTTTTTCGGTCAAAAAGAATATCCGAATTTTAGATTTGGACCCTCGTACAGAAGCTTATTGTCT AAGCCTGAATTCAGTCTGCTTTAAACGGCTTCCGCGGAGGAAATATTTCCATCTCTTGAATTCGTACAACATTAAACGTGTGTTGGGAGTCGTATACTGTTAGGGTCTGTAAACTTGTGAACTC TCGGCAAATGCCTTGGTGCAATTACGTAATTTTAGCCGCTGAGAAGCGGATGGTAATGAGACAAGTTGATATCAAACAGATACATATTTAAAAGAGGGTACCGCTAATTTAGCAGGGCAGTATT ATTGTAGTTTGATATGTACGGCTAACTGAACCTAAGTAGGGATATGAGAGTAAGAACGTTCGGCTACTCTTCTTTCTAAGTGGGATTTTTCTTAATCCTTGGATTCTTAAAAGGTTATTAAAGT TCCGCACAAAGAACGCTTGGAAATCGCATTCATCAAAGAACAACTCTTCGTTTTCCAAACAATCTTCCCGAAAAAGTAGCCGTTCATTTCCCTTCCGATTTCATTCCTAGACTGCCAAATTTTT CTTGCTCATTTATAATGATTGATAAGAATTGTATTTGTGTCCCATTCTCGTAGATAAAATTCTTGGATGTTAAAAAATTATTATTTTCTTCATAAAGAAGCTTTCAAGATATAAGATACGAAAT AGGGGTTGATAATTGCATGACAGTAGCTTTAGATCAAAAAGGAAAGCATGGAGGGAAACAGTAAACAGTGAAAATTCTCTTGAGAACCAAAGTAAACCTTCATTGAAGAGCTTCCTTAAAAAAT TTAGAATCTCCCATGTCAACGGGTTTCCATACCTCCCCAGCATCATACATCTTTTTTCAAAGAAACTTCAAATGCCTCTTTTATGCAAGGGGCAAAATCCTGAAATGACTTAAACTTAGCAGTT TCGTCTTTTTTCAAAGAGAATGGTTGAAGAAGAATTGTTTTGGACGCTTATTGACAATCTGTTGCATTGATAAAGTACCTACTATCCCAGACTATATTTGTATACAAGTACAAAATTAGGTTTG TTGAAACAACTTTCCGATCATTGGTGCCCGTATCTGATGTTTTTTTAGTAATTTCTTTGTAAATACAGGGAGTTGTTTCGAAAGCTTATGAGAAAAATACATGAATGACAGGTAAAAATATTGG CTCGAAAAAGAGGACAAAAAGAGAAATCATAAATGAGTAAACCCACTTGCTGGACATTATCCAGTAAAGGCTTGGTAGTAACCATAATATTACCCAGGTACGAAACGCTAAGAACCTTGAAAGA CTCATAAAACTTCCAGGTTAAGCTATTTTTGAAAATATTCTGAGGTAAAAGCCATTAAGGTCCAGATAACCAAGGGACAATAAACCTATGCTTTTCTTGTCTTCAATTTCAGTATCTTTCCATT TTGATAATGAGCATGTGATCCGGAAAGCTACTTTATGATGTTTCAAGGCCTGAAGTTTGAATATTTATGTAGTTCAACATCAAATGTGTCTATTTTGTGATGAGGCAACCGTCGACAACCTTAT TATCGAAAAAGAACAACAAGTTCACATGCTTGTTACTCTCTATAACTAGAGAGTACTTTTTTTGGAAGCAAGTAAGAATAAGTCAATTTCTACTTACCTCATTAGGGAAAAATTTAATAGCAGT TGTTATAACGACAAATACAGGCCCTAAAAAATTCACTGTATTCAATGGTCTACGAATCGTCAATCGCTTGCGGTTATGGCACGAAGAACAATGCAATAGCTCTTACAAGCCACTACATGACAAG CAACTCATAATTTAA
19
28/6/2016André de Carvalho - ICMC/USP 19 Biologia Molecular Células haplóides: 1 conjunto de cromossomos Células diplóides: 2 conjuntos de cromossomos (pares)
20
28/6/2016André de Carvalho - ICMC/USP 20 Biologia Molecular Genes Subsequências de DNA Localizados no cromossomo Servem como molde para a produção de proteínas ou RNA Encaixadas entre os genes estão segmentos chamados de regiões não codificadoras
21
28/6/2016André de Carvalho - ICMC/USP 21 Nem todo DNA Codifica Genes 22.000 ? 3200 x 10 6 Human Mosca da fruta13601180 x 10 6 Drosophilia melanogaster Verme1909995.5 x 10 6 C. Elegans Levedura588512.1 x 10 6 Saccharomyces cerevisiae 44064639221E. Coli Infecção no ouvido17381830138Hemophilus influenzae Pneumonia680816394Mycoplasma pneumoniae Organela subcelular3716569Human mitochondrion Virus da E.coli10 5386 ФX-174 DescriçãoGenesNum. de pbOrganismo Seres humanos
22
28/6/2016André de Carvalho - ICMC/USP 22 DNA Não Codificante Não participa da síntese de proteínas/RNA Era considerado "lixo" genético Se liga à fita de DNA Uma das funções: bloqueio genético durante o processo de transcrição Gene da região do DNA ao qual esta ligado não é lido Evita que a proteína associada seja expressa Inibição de genes pode prevenir crescimento de células com tumor Pesquisadores conseguiram posteriormente religar genes sem problemas de crescimento de tumores
23
28/6/2016André de Carvalho - ICMC/USP 23 Biologia Molecular Cientistas identificaram gene ligado a câncer de mama (SATB1) Trabalho publicado na Nature, Março de 2008 Organismo sadio: um organizador de outros genes Organismo com câncer: promove crescimento de tumores, controlando cerca de 1000 outros genes Líder de gangue, quadrilha, máfia Papel ativo na formação de outros focos de câncer (metastase) Causa de morte mais comum em pacientes com a doença
24
28/6/2016André de Carvalho - ICMC/USP 24 Bioinformática Experimentos feitos em ratos: Após o gene ser inativado, termina a proliferação alucinada das células de tumor Câncer perde potencial de agressividade Permite diagnósticos mais precoces e precisos Células de tumor de mama com gene defeituoso
25
28/6/2016André de Carvalho - ICMC/USP 25 Biologia Molecular Proteínas Definem estrutura, função e mecanismos regulatórios das células Exemplos de mecanismos regulatórios: controle do ciclo celular, transcrição gênica Sequências lineares Combinações de 20 aminoácidos diferentes Três nucleotídeos consecutivos (códon) formam um aminoácido
26
28/6/2016André de Carvalho - ICMC/USP 26 Tamanho de Genomas Procariotos 0.5 a 12 megabases - MB - (1.000.000 bp) Virais 5 a 50 kilobases – KB - (1.000 bp) Eucariotos 8 megabases a 670 gigabases - GB- (1.000.000.000 bp) Grande quantidade de DNA repetido Organelas Maioria dos eucariotos também tem genoma fora do núcleo Geralmente restos de procariotos que viveram em simbiose
27
28/6/2016 André de Carvalho - ICMC/USP 27 Vírus X Bactérias Bactérias Unicelulares, procarióticos Vida livre Podem ser encontrados na forma isolada ou em colônias Geralmente têm um genoma circular de simples-fita Virus Menores que bactérias Não têm vida livre Simples ou dupla fita Formados basicamente por proteínas Reproduzem-se pela invasão e posse do controle da máquina de auto-reprodução celular
28
28/6/2016André de Carvalho - ICMC/USP 28 Modelos Probabilísticos de Seqüências Grande parte dos estudos em genômica computacional emprega métodos estatísticos Ex.: encontrar estruturas de interesse em sequências de milhões de bp Maior parte da sequência não contém informação relevante Necessário obter modelos probabilísticos de sequências de DNA
29
28/6/2016André de Carvalho - ICMC/USP 29 Modelos Probabilísticos de Sequências Abstração de molécula tridimensional para sequência de símbolos (linear) Alfabeto {A, C, T, G} Permite uso de ferramentas matemáticas poderosas Negligencia informação presente na estrutura tridimensional
30
28/6/2016André de Carvalho - ICMC/USP 30 Modelos Probabilísticos de Seqüências Definição 1.1 Uma sequência de DNA s é um string finito do alfabeto N = {A, C, T, G} de nucleotídeos. Genoma é o conjunto de todas as sequências de DNA de um organismo ou organela Permite uso de modelos estatísticos de: Evolução de sequências, similaridade de sequências, etc.
31
28/6/2016André de Carvalho - ICMC/USP 31 Modelos Probabilísticos de Seqüências Definição 1.2 Os elementos de uma sequência s são denotados por s = s 1,s 2,..., s n, onde cada s i representa um elemento Dado um conjunto de índices K, é possível concatenar elementos de s em sua ordem original s(K) = s i,s j, s k se K = {i, j, k} Também é possível usar K = [i, j] = (i:j) Símbolo específico pode ser denotado por k = {i}, assim s i = s(i)
32
28/6/2016André de Carvalho - ICMC/USP 32 Exercício Dada a seqüência de DNA s = ATATGTCGTGCA, encontrar: s{7} = s(2:6) = s{2, 5, 9} =
33
28/6/2016André de Carvalho - ICMC/USP 33 Modelos Probabilísticos de Seqüências Quase todos os métodos probabilísticos de análise de seqüência podem ser agrupados em duas categorias: Modelos multinomiais Modelos de Markov
34
28/6/2016André de Carvalho - ICMC/USP 34 Modelos Multinomiais Modelos mais simples Assumem uma distribuição de probabilidade p sobre o alfabeto Nucleotídeos são independentes e identicamente distribuídos (i.i.d.) ao longo da sequência Ex.: Para sequência de DNA p = (p a, p b, p c, p d ), onde P x = p(s i = x) Independe da posição de i P a + p b + p c + p d = 1 (restrição de normalização) Definir probabilidades iguais ou baseadas na frequência de cada nucleotídeo
35
28/6/2016André de Carvalho - ICMC/USP 35 Modelos Multinomiais Não se espera que as sequências de DNA sejam verdadeiramente aleatórias Validade do modelo pode ser testada com sequências reais Estimar frequência de símbolos em regiões da sequência Testar violações da independência checando correlações entre indivíduos vizinhos Regiões onde ocorrem mudanças e com correlações são de grande interesse
36
28/6/2016André de Carvalho - ICMC/USP 36 Modelos de Markov Fornecem modelo mais complexo de seqüências de DNA Probabilidade de observar um símbolo depende do símbolo anterior na seqüência Último símbolo – ordem 1 Dois últimos – ordem 2 Nenhum anterior – ordem 0 (multinomial) Consegue modelar co-relações locais entre nucleotídeos
37
28/6/2016André de Carvalho - ICMC/USP 37 Modelos de Markov ACGT A0.990.0020.0060.002 C 0.990.0020.006 G 0.0020.990.002 T 0.0060.0020.99 ACGT 0.006 0.002 Matriz de transição = A C G T Probabilidade de cada estado inicial P CA DeDe Para Probabilidades iguais = multinomial
38
28/6/2016André de Carvalho - ICMC/USP 38 Modelos de Markov Entradas na matriz de transição são definidas por: p xy = p(s i+1 = y/ s i = x) p(s) = p(s 1 s 2... s n ) p(s) = p(s 1 ) p(s 2 )... p(s n ) - ordem 0 p(s) = p(s n /s n-1 ) p(s n-1 /s n-2 )... p(s 2 /s 1 ) (s 1 ) - ordem 1
39
28/6/2016André de Carvalho - ICMC/USP 39 Anotação de Genomas Estatísticas simples podem descrever características importantes BaseNúmeroFreqüência A567.6230.3102 C350.7230.1916 G347.4360.1898 T564.2410.3083 Estatística básica do H. influenza (1.830.138 bp)
40
28/6/2016André de Carvalho - ICMC/USP 40 Anotação de Genomas Composição das bases Frequência das bases são diferentes em genomas de diferentes organismos Frequências pode variar em diferentes trechos (faixas) Viola suposição do modelo multinomial
41
28/6/2016André de Carvalho - ICMC/USP 41 Anotação de Genomas Olhar apenas uma das fitas Janela de tamanho k
42
28/6/2016André de Carvalho - ICMC/USP 42 Anotação de Genomas Olhar apenas uma das fitas Janela de tamanho k
43
28/6/2016André de Carvalho - ICMC/USP 43 Anotação de Genomas Conteúdo (frequência) GC (C e G) Medida mais relatada em artigos C e G (A e T) têm frequências similares Frequência agregada GC versus AT (AT = 1–GC) OrganismoConteúdo GC H. influenza38.8 M. turbeculosis65.8 S. Enteritidis49.5 Conteúdo GC para diferentes organismos
44
28/6/2016André de Carvalho - ICMC/USP 44 Anotação de Genomas Conteúdo (frequência) GC Pode ser usado para detectar material genético externo em trecho de um genoma Espécies podem adquirir subsequências de outros organismos (ex. vírus) Transferência genética horizontal
45
28/6/2016André de Carvalho - ICMC/USP 45 Anotação de Genomas Análise de pontos de mudança Utilizar método para detectar onde muda a distribuição de bases ou GC Regiões de mudança dividem a sequência em trechos mais uniformes Pode ajudar a identificar importantes sinais biológicos Medida mais simples: usar threshold Definição do valor do threshold (como o tamanho da janela) é um problema estatístico
46
28/6/2016André de Carvalho - ICMC/USP 46 Anotação de Genomas
47
28/6/2016André de Carvalho - ICMC/USP 47 Anotação de Genomas Frequência k-mer e viés de motivo (motif) Outra medida útil é a frequência de sequências de tamanho 2 e maior Dimers, trimers, k-mers K-mers não usuais: qualquer palavra que aparece com frequência maior ou menor que esperada Viés na posição ou frequência dessas palavras podem relevar informações importantes sobre sua função Conta-se número de k-mers percorrendo a sequência com uma janela de tamanho k
48
28/6/2016André de Carvalho - ICMC/USP 48 Anotação de Genomas Frequência k-mer e viés de motivo É possível também plotar a frequência apenas de alguns k-mers de interesse Ex. Dimers (dinucleotídeos) AT e CG Existem exemples de viés estatísticos de uso de nucleotídeos Ex.: Baixa frequência de CGs em alguns organismos Fácil ver esses viés em “ assinaturas de genoma ” Chaos-Game representation (CGR)
49
28/6/2016André de Carvalho - ICMC/USP 49 Assinatura de Genoma CGR representa por cores frequência observada dos k-mers Quanto mais escuro, mais frequente 2-mers5-mers8-mers
50
28/6/2016André de Carvalho - ICMC/USP 50 Assinatura de Genoma CGR exibe frequência de 4 k palavras ou strings Imagem quadrada é dividida em 4 quadrantes q1, um para cada nucleotídeo Pixel indicando a frequência de todos os strings de qq tamanho terminando em um dado nucleotídeo ocorre no quadrante desse nucleotídeo
51
28/6/2016André de Carvalho - ICMC/USP 51 Exemplo 2-mers CCGG CA AATTTA GA Quadrante com frequência de todas as palavras que terminam com o nucleotídeo A C AT G CA AATA GA
52
Cada quadrante q1 é sub-dividido em 4 quadrantes q2 Um q2 para cada nucleotídeo presente na penúltima posição da palavra Cada q2 está na mesma posição relativa do mesmo nucleotídeo no quadrante q1 Continuar até o número apropriado de pixels (4 K ) ser obtido Preencher cada quadrado com cor proporcional a frequência de seu k-mer 28/6/2016André de Carvalho - ICMC/USP 52 Assinatura de Genoma C G A T
53
28/6/2016André de Carvalho - ICMC/USP 53 Anotação de Genomas Frequência de motifs (k-mers) pode trazer informações relevantes Sequência de nucleotídeos frequente que pode ter uma relevância biológica Análise estatística simples pode levar em conta frequência de nucleotídeos Pode encontrar motifs sub ou super representados Ajuda a decidir quando um viés é significante Motifs pouco usuais podem ter relevância biológica Ex.: motifs frequentes podem estar associados a elementos repetitivos
54
28/6/2016André de Carvalho - ICMC/USP54 Anotação de Genomas Procura por dimers (dinucleotídeos) pouco usuais no H. influenza A C G T A1.2491 0.8496 0.8210 0.9535 C1.1182 1.0121 1.0894 0.8190 G0.8736 1.4349 1.0076 0.8526 T0.7541 0.8763 1.1204 1.2505 Frequência observada
55
28/6/2016André de Carvalho - ICMC/USP 55 Importante Distinguir Casamento de padrões Dado um motif, encontrar suas ocorrências em uma sequência Descoberta de padrões Descobrir em uma sequência padrões de interesse Úteis Novos
56
28/6/2016André de Carvalho - ICMC/USP 56 Bancos de Dados de Genoma Conhecimento adquirido no curso será utilizado em sequências reais DNA e proteínas Armazenadas em bancos de dados disponíveis na internet Necessário saber como: Acessar Manipular Processar Passos envolvidos nessas operações estão padronizados Esses dados
57
28/6/2016André de Carvalho - ICMC/USP 57 Bancos de Dados de Genoma Gerais DNA, proteinas e carboidratos, estruturas 3- dimensionais,... Especializados EST, STS, SNP, RNA, genomas, famílias de proteina, pathways, dados de microarray,...)
58
28/6/2016André de Carvalho - ICMC/USP 58 Bancos de Dados de Genoma Toda sequência de genoma publicada deve ser disponibilizada em uma BD pública Membros do International Nucleotide Sequence Database Collaboration são os principais repositórios Consórcio formado por 3 grandes BDs EMBL (European Molecular Biology Laboratory nucleotide sequence database at EBI, Hinxton, UK) EMBLEBI GenBank (at National Center for Biotechnology information, NCBI, Bethesda, MD, USA) GenBankNCBI DDBJ (DNA Data Bank Japan at CIB, Mishima, Japan) DDBJCIB
59
28/6/2016André de Carvalho - ICMC/USP 59 Bancos de Dados de Genoma
60
28/6/2016André de Carvalho - ICMC/USP 60 GenBank Cada sequência É identificada por um número único de adesão Inclui uma quantidade de meta-dados Dados sobre os dados ou anotação Ex.: Espécie do organismo sequenciado
61
28/6/2016André de Carvalho - ICMC/USP 61 Formatos de Dados e Anotação Existem vários formatos diferentes para fornecer uma sequência e sua anotação EMBL, GenBank e DDBJ têm seu próprio formato padrão Também existem formatos que não estão associados a um BD Mas geralmente a um programa de análise de sequências FASTA
62
28/6/2016André de Carvalho - ICMC/USP 62 Formato FASTA
63
28/6/2016André de Carvalho - ICMC/USP 63 Formato FASTA >FOSB_MOUSE Protein fosB. 338 bp MFQAFPGDYDSGSRCSSSPSAESQYLSSVDSFGSPPTAAASQECAGLGEMPGSFVPTVTA ITTSQDLQWLVQPTLISSMAQSQGQPLASQPPAVDPYDMPGTSYSTPGLSAYSTGGASGS GGPSTSTTTSGPVSARPARARPRRPREETLTPEEEEKRRVRRERNKLAAAKCRNRRRELT DRLQAETDQLEEEKAELESEIAELQKEKERLEFVLVAHKPGCKIPYEEGPGPGPLAEVRD LPGSTSAKEDGFGWLLPPPPPPPLPFQSSRDAPPNLTASLFTHSEVQVLGDPFPVVSPSY TSSFVLTCPEVSAFAGAQRTSGSEQPSDPLNSPSLLAL Primeira linha: “>” seguido pela anotação Qualquer formato, sem quebra de linha Informação sobre a sequência começa na linha seguinte Até outro símbolo “>” aparecer como primeiro caractere de uma linha
64
28/6/2016André de Carvalho - ICMC/USP 64 FORMATO FASTA Aceito pela maioria dos programas de análise de sequência Fornecido pela maioria dos BDs online Limita quantidade de anotação permitida Outros padrões são utilizados quando é desejado incluir mais meta-informação Informação sobre a sequência
65
28/6/2016André de Carvalho - ICMC/USP 65 Formato GenBank Uma entrada contém várias seções LOCUS: identifica a sequência DEFINITION: define a sequência ACCESSION: identifica unicamente a sequência Relatado em publicações científicas e usado para referência cruzada a outros BDs SOURCE e ORGANISM: identificam origem biológica da sequência REFERENCE: lista artigos relacionados a sequência ORIGIN: lista todos os nucleotídeos Entre outras
66
28/6/2016André de Carvalho - ICMC/USP 66 Formato GenBank ORIGIN Sequencias são organizadas em linhas contendo 6 blocos, cada um com 10 bases Símbolo “ // ” indica final da entrada
67
28/6/2016André de Carvalho - ICMC/USP 67 Formato GenBank
68
28/6/2016André de Carvalho - ICMC/USP 68 Formato GenBank
69
28/6/2016André de Carvalho - ICMC/USP 69 Formato GenBank LOCUS SCU49845 5028 bp DNA PLN 21-JUN- 1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS. SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709 PUBMED 7871890 REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260 PUBMED 8846915 REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA FEATURES Location/Qualifiers source 1..5028 /organism="Saccharomyces cerevisiae" /db_xref="taxon:4932" /chromosome="IX" gene 687..3158 /gene="AXL2" CDS 687..3158 /gene="AXL2" /note="plasma membrane glycoprotein" /codon_start=1 /function="required for axial budding pattern of S. cerevisiae" /product="Axl2p" /protein_id="AAA98666.1" /db_xref="GI:1293615" /translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN VILEGTDSADSTSLNNTYQFVVTNRPSISLSSDFNLLALLKNYGYTNGKNALKLDPNE VFNVTFDRSMFTNEESIVSYYGRSQLYNAPLPNWLFFDSGELKFTGTAPVINSAIAPE TSYSFVIIATDIEGFSAVEVEFELVIGAHQLTTSIQNSLIINVTDTGNVSYDLPLNYV YLDDDPISSDKLGSINLLDAPDWVALDNATISGSVPDELLGKNSNPANFSVSIYDTYG DVIYFNFEVVSTTDLFAISSLPNINATRGEWFSYYFLPSQFTDYVNTNVSLEFTNSSQ DHDWVKFQSSNLTLAGEVPKNFDKLSLGLKANQGSQSQELYFNIIGMDSKITHSNHSA NATSTRSSHHSTSTSSYTSSTYTAKISSTSAAATSSAPAALPAANKTSSHNKKAVAIA CGVAIPLGVILVALICFLIFWRRRRENPDDENLPHAISGPDLNNPANKPNQENATPLN NPFDDDASSYDDTSIARRLAALNTLKLDNHSATESDISSVDEKRDSLSGMNTYNDQFQ SQSKEELLAKPPVQPPESPFFDPQNRSSSVYMDSEPAVNKSWRYTGNLSPVSDIVRDS YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK HRNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML BASE COUNT 1510 a 1074 c 835 g 1609 t ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241
70
28/6/2016André de Carvalho - ICMC/USP 70 Alfabeto Padrão Sequências em diferentes repositórios seguem alfabeto padrão de nucleotídeos Inclui símbolos para nucleotídeos ambíguos Símbolos mais comuns: A AdeninaN qualquer (aNy) base C CitosinaR A ou G (puRine) G GuaninaY C ou T (pYrimidine) T TiminaM A ou C (aMino)
71
28/6/2016André de Carvalho - ICMC/USP 71 Conclusão Células Biologia Molecular Modelos Probabilísticos de Seqüências Modelos Multinomiais Modelos de Markov Anotação de Genomas Bancos de Dados
72
Perguntas?
73
NCBI: National Center for Biotechnology information Established in 1988 as a national resource for molecular biology information, NCBI creates public databases, conducts research in computational biology, develops software tools for analyzing genome data, and disseminates biomedical information - all for the better understanding of molecular processes affecting human health and disease.
74
The EMBL Nucleotide Sequence Database (also known as EMBL-Bank) constitutes Europe's primary nucleotide sequence resource. Main sources for DNA and RNA sequences are direct submissions from individual researchers, genome sequencing projects and patent applications.direct submissions
75
DDBJ (DNA Data Bank of Japan) began DNA data bank activities in earnest in 1986 at the National Institute of Genetics (NIG). DDBJ has been functioning as the international nucleotide sequence database in collaboration with EBI/EMBL and NCBI/GenBank.
76
Fasta Protein Database Query Provides sequence similarity searching against nucleotide and protein databases using the Fasta programs. Fasta can be very specific when identifying long regions of low similarity especially for highly diverged sequences. You can also conduct sequence similarity searching against complete proteome or genome databases using the Fasta programs.proteome genomeFasta programs Download Software
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.