A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática.

Apresentações semelhantes


Apresentação em tema: "BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática."— Transcrição da apresentação:

1 BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática

2 A Verdadeira Revolução Início do séc. 20:Mendel e as leis da hereditariedade. 1944: DNA como elemento carreador da informação genética (Avery) 1953: Watson/Crick e aestrutura do DNA. Anos 70 e 80: Biologia Molecular/Biotecnologia Anos 90 e séc. 21: Genômica/Bioinformática

3 História da Biologia Molecular 1951Fred Sanger, Amino Acid Sequence of Insulin 1953Watson/Crick, Estrutura do DNA 1957 Francis Crick, Central Dogma, DNA RNA Protein 1960s Nirenberg, Matthaei, The Genetic Code 1967 Shapiro and Beckwith, First gene cloned, LacZ 1972 Paul Berg, First recombinant DNA molecule 1973 Cohen/Boyer, First recombinant organism 1977 Maxam/Gilbert and Fred Sanger, DNA sequencing 1977 Fred Sanger, Complete sequence of phage X David Botstein, Restriction Fragment Length Polymorphisms (RFLP) 1980 Kerry Mullis, PCR 1983 Lee Hood, First Automated DNA Sequencer

4 Sequenciamento do DNA Sanger, Gilbert (Nobel 1980)

5 Sequenciamento Automático Leroy Hood 30kb por corrida

6 A era genômica

7 376 Genomas Concluídos! 251 como rascunho! 342 em andamento 1995, Haemophilus influenzae 1996, Methanococcus jannaschii 1997, Saccharomyces cerevisiae 1997, Escherichia coli 1998, Caenorhabditis elegans 2000, Drosophila melanogaster 2000, Arabidopsis thaliana 2001, Homo sapiens 2002, Schizosaccharomyces pombe 2002, Oryza sativa 2002, Mus musculus 2005, Pan troglodites 327 Bacterial, 27 Archeal, 22 Eukaryotic 09/07/2006

8 Um modelo genético

9 Genoma Humano 2001 International Consortium Grupos acadêmicos Celera Genomics Companhia Privada

10 A nova revolução da Genômica 454 Solexa - Illumina SOLiD - ABI ~120 MB de DNA por corrida ~01 GB de DNA por corrida ~03 GB de DNA por corrida 12KB/US$ 100KB/US$300KB/US$ Tecnologia de Capilar = 0.5KB/US$

11 Nova tecnologia Dispensa clonagem dos fragmentos em sistemas bacterianos Dispensa a preparação de DNA molde para sequenciamento Reações feitas em paralelo em volume extremamente pequeno - nanotecnologia

12 Aplicações Sequenciamento de Genomas sequenciamento de novo re-sequenciamento - variabilidade SNPs e mutações Sequenciamento de Transcriptomas variabilidade - splicing, poliadenilação quantificação de expressão gênica

13 Sequenciamento de novo

14 Re-sequenciamento

15 Transcriptoma

16 Projeto 454 Participantes: LICR-SP, LICR-NY, Venter Institute Objetivo: Sequenciamento extensivo dos genes expressos na linhagem celular HCC1954 (tumor de mama) buscando conhecer, com um único set de dados, alterações genéticas e epi-genéticas neste tipo de câncer. Sequenciador: 454

17 Fapesp/LICR Genoma Humano do CâncerProjeto 454 Venter/LICR # sequências1.2 milhões520 mil # sequenciadores05 MegaBaces # corridas~15,00001 Custo (US$)*12 milhões10 mil * Excluindo o preço dos aparelhos

18 Um objetivo a curto prazo

19 Os sequenciadores de nova geração promovem uma mudança no paradigma Com os bilhões de datapoints gerados em horas, o processamento e análise dos dados tornou-se o maior gargalo das pesquisas biomédicas. Geração de dados deixa de ser o fator limitante

20 Bioinformática Computação Matemática Biologia

21 O que é Bioinformática?

22

23

24 Bioinformática - História 1970, Needleman/Wunch, Alinhamento Global. 1972, Margaret Dayhoff, Matrizes de Comparação. 1979, Walter Goad, GenBank. 1981, Smith/Waterman, Alinhamento Local. 1989, NHGRI, Projeto Genoma Humano. 1990, Altschul/Gish/Miller/Myers/Lipman, BLAST. 1994, Eddy/Krogh/Durbin, Hidden Markov Models (HMMs).

25 Bioinformática - Importância Poucas pessoas adequadamente treinadas em Biologia e Computação. Biologia em larga-escala. Produção de dados em massa gera uma demanda para análises computacionais. Economiza tempo e dinheiro.

26 Bioinformática Desenvolvimento de ferramentas. Forma de explorar novos dados. Processamento de dados gerados por projetos em larga-escala. Uma nova forma de se fazer ciência dirigida por hipóteses.

27 Bioinformática O BioinformataO Usuário - Manipula a informação. - Desenvolve ferramentas - Bancos de dados locais. - Local. - Mta programação. - Habilidades de TI. - Recursos da Web. - Local ou remoto. - nada de programação. - pouca habilidade de TI.

28 Cinco websites que todos devem conhecer NCBI (The National Center for Biotechnology Information; EBI (The European Bioinformatics Institute) The UCSC Genome Browser SwissProt/ExPASy (Swiss Bioinformatics Resource) PDB (The Protein Databank)

29 NCBI (http://www.ncbi.nlm.nih.gov/)http://www.ncbi.nlm.nih.gov/ Acesso aos bancos de dados via Entrez Medline/OMIM Genbank/Genpept/Structures Servidor de BLAST Todos os tipos de Blast Portal do Genoma Humano Muito, muito mais……..

30

31

32 EBI (http://www.ebi.ac.uk/)http://www.ebi.ac.uk/ Acesso a bancos de dados via SRS EMBL, SwissProt, …… Muitas outras ferramentas ClustalW, DALI, …

33

34 UCSC Genome Browser (http://genome.ucsc.edu/)http://genome.ucsc.edu/ Banco de dados e Browser para genomas de diferentes espécies Humano, camundongo, rato, zebrafish, etc…. Muitas outras ferramentas SNPs, domínios prtéicos, genômica comparativa, etc….

35

36 SwissProt (http://www.expasy.ch/sprot/)http://www.expasy.ch/sprot/ Checagem manual. O número de entradas errôneas é bastante reduzido. Cross-link extensivo com outros bancos SwissProt é o gold-standard em termos de bancos de dados e é o melhor lugar para se começar uma análise se vc procura info para uma ou poucas

37

38 Protein Data Bank – PDB (http://www.rcsb.org/pdb/)http://www.rcsb.org/ Armazena a estrutura tri-dimensional para milhares de proteínas Acesso a vários serviços relacionados a biologia estrutural

39

40 Bancos de Sequência Primários GenBank (USA) EMBL (Europa) DDBJ (Japão)

41 Homologia - Ortologia - Paralogia

42 Dois conceitos importantes Paralogia: O evento que originou às duas sequências é um evento de duplicação gênica! Orthologia: O evento que deu origem às duas sequências é um evento de especiação! FUNÇÕES SIMILARES! FUNÇÕES IDÊNTICAS!

43 Como definir função? Alinhamento de sequências Motivos (padrões consensuais) Blocos, perfis, etc.... Hidden Markov Models - HMM

44 Similarity Searches on Sequence Databases, EMBnet Course, October 2003

45 Alinhamento Identidade - MATCH Semelhança / divergência - MISMATCH Lacunas - GAPS Inserção/Deleção - INDELS G A A - G G A T T A G G A T C G G A - - A G

46 Alinhamento Qual é o melhor alinhamento ? Alinhamento 1: A – C – G G – A C T | | | - | | A T C G G A T – C T Alinhamento 2: A T C G G A T C T | | | | - | | A – C G G – A C T

47 Pontuação Esquema de pontuação match: +2 mismatch: +1 indel: –2 Alinhamento 1: (5 *2) + (1*1) + (4*-2) = – 8 = 3 Alinhamento 2: (6 *2) + (1*1) + (2*-2) = – 4 = 9 Escore final = soma dos escores para cada posição Favorece os matches, penaliza os gaps

48 Matriz de Substituição Tabela de comparação Reflete a probabilidade ou frequência de determinada substituição em sequências biologicamente relacionadas p(A B) = p(B A) Construídas pelo estudo do alinhamento de diversas sequências relacionadas AA ou nucleotídeos

49 Percent Accepted Mutation (PAM - Dayhoff) Margaret Dayhoff (1978) Probabilidade de substituição de aa em alinhamentos globais de sequências homólogas Cada matriz reflete as mutações entre sequências que divergiram por determinado período de tempo Mutações aceitas => não afetam negativamente a viabilidade da proteína Primeira matriz 71 grupos de proteínas, 85% de similaridade 1572 substitutições de aminoácidos Expansão do número de proteínas => 1991 database

50 Premissa => cada mutação é independente das mutações anteriores Consequência => as substituições observadas em curtos períodos podem ser extrapoladas para longos períodos PAM 1 => sequências com 1% ou menos de divergência =>1 mutação aceita a cada 100 aminoácidos PAM N mutações = (PAM 1) N PAM 250 => 250 mutações por 100 aa => 250% mutações em 2500 milhões anos PAM 250: 20% similar - PAM 120: 40% - PAM 80: 50% - PAM 60: 60% Matrizes PAM

51

52 Blocks Substitution Matrix (BLOSUM) Kenikoff & Henikoff (1992) Frequência de substituição de aa em um conjunto de ~2000 padrões (blocos) Maior número de sequências consideradas => mais de 500 famílias Alinhamentos locais de sequências relacionadas e não geradas a partir de extrapolações BLOSUM 62 é o padrão para BLAST 2.0 => sequências moderadamente distantes ou mais próximas Sequências Consenso 60% idênticas: BLOSUM 60 80% idênticas : BLOSUM 80

53 G A V C T K I G V V C Y R E (-2)+2+(-3)= 16

54 Relação ente BLOSUM e PAM PAM => origens evolutivas de proteínas BLOSUM => domínios conservados

55 Global vs. Local Global Alinhamento de toda a sequência utilizado o maior número de caracteres possíveis Sequências similares e de tamanho aproximado Local Segmentos com o maior número de identidades Regiões alinhadas e não alinhadas ( mismatch) Sequências similares em algumas regiões, que diferem em tamanho ou que compartilham domínios conservados

56 Aplicações Global Deduzir histórias evolutivas entre membros da mesma família Estabelecer a existência de um ancestral comum (homologia) Local Inferir funções biológicas Identificar regiões conservadas e de alta similaridade (sítio ativo, domínios) entre outras pouco conservadas Reconstruir sequências de DNA a partir de seus fragmentos Comparar sequências de mRNA (sem íntrons) à sequência genômica

57 Métodos de Análise Diagramas - DOT PLOT Algoritmo de Programação Dinâmica Algoritmos Heurísticos - Word-Based ou K-tuples

58 Dot Plot

59 Inserções & Deleções

60 Repetições & Inversões

61 Programas Disponíveis Dotter (http://www.cgr.ki.se/cgr/groups/sonnhammer/Dotter.html) COMPARE & DOTPLOT (Genetics Computer Group) PLALIGN (http://fasta.bioch.virginia.edu/fasta/fasta_list.html) Web browser (http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html)

62 Programação Dinâmica Needleman & Wunsch (1970) Compara cada par de caracteres nas duas sequências Posiciona os gaps de forma a obter o maior número de alinhamentos idênticos ou similares Gera uma matriz de números que representa todos os possíveis alinhamentos de acordo com um sistema de escore Alinhamento ótimo => maior escore

63 Limitações Computacionalmente lento Número de alinhamentos cresce exponencialmente com a média dos comprimentos das sequências (n) Número de cálculos => proporcional a n 2 ou n 3 Memória => capacidade da ordem de n 2

64 Needleman-Wunsch As sequências abcdefghajklm abbdhijk São alinhadas e scores são dados a b c d e f g h a j k l m | | | | | | a b b d... h i j k match mismatch gap_open -2 gap_extend Score total de = 13.

65 Needleman-Wunsch O alinhamento de maior score entre as duas sequências é considerado o mais provável.

66 Global: HBA_HUMAN vs HBB_HUMAN Score: HBA_HUMAN 1 VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFP 44 |:| :|: | | |||| : | | ||| |: : :| |: :| HBB_HUMAN 1 VHLTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFE 43 HBA_HUMAN 45 HF.DLS.....HGSAQVKGHGKKVADALTNAVAHVDDMPNALSAL 83 | ||| |: :|| ||||| | :: :||:|:: : | HBB_HUMAN 44 SFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATL 88 HBA_HUMAN 84 SDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKF 128 |:|| || ||| ||:|| : |: || | |||| | |: | HBB_HUMAN 89 SELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKV 133 HBA_HUMAN 129 LASVSTVLTSKYR 141 :| |: | || HBB_HUMAN 134 VAGVANALAHKYH 146 %id = %similarity = Overall %id = Overall %similarity = Needleman-Wunsch Saída típica:

67 Razões para se usar um banco de sequências Eu acabei de obter uma sequência. O que é sabido à respeito desta sequência? Ela é única? Eu tenho uma sequência única. Ela tem similaridade com alguma outra sequência de função conhecida? Eu encontrei uma nova proteína em um determinado organismo. Existe um ortólogo conhecido? Eu decidi trabalhar com um gene novo. Eu não tenho como obter um clone contendo a sequência deste gene. Eu preciso da sequência do cDNA para fazer uma PCR.

68 O que envolve uma busca ? Algoritmos de busca (BLAST, FASTA) Matrizes de comparação (PAM vs. BLOSUM) Banco de dados (nr, dbEST) Parâmetros de busca (filtros on/off, threshold, etc…)

69 Basic Local Alignment Search Tool Método heurístico => método empírico, que utiliza a fórmula ´tentativa e erro´ para encontrar as soluções Significado estatístico => determina se um alinhamento ocorre aleatoriamente ou não Vantagem => pelo menos 50 vezes mais rápido que os algoritmos de programação dinâmica e mais apropriados para busca em bancos de dados Desvantagem => não garante uma solução com um alinhamento ótimo como os algoritmos de programação dinâmica

70 Aplicações Identificar sequências ortólogas e parálogas Descobrir novos genes ou proteínas Descobrir variantes de genes e proteínas Investigar Expressed Sequence Tags - ESTs Explorar a estrutura e função de proteínas

71 BLAST WEB Pages BLAST (NCBI – National Center for Biotechnology Information): BLAST2 (Swiss EMBnet server - European Molecular Biology network??): WU-BLAST (Washington University):

72

73 Blast é Heurístico 1) Tabela de busca com todas as ´palavras´ (words) de comprimento W (3 aa ou11 nucleot.) mais as palavras vizinhas semelhantes, que aparecem pelo menos T vezes na sequência query. 2) Busca de sementes (hits, hot spots) na sequência do banco de dados que alinhem com as palavras previamente estabelecidas. 3) Extensão das sementes em ambas as direções, produzindo alinhamentos locais máximos (HSP - high scoring pair) com ou sem lacunas, de acordo com os parâmetros estabelecidos. 4) Registro da informação em um arquivo SeqAlign (ASN.1). 5) A informação é utilizada para buscar sequências similares. Os resultados podem ser reformatados sem a necessidade de refazer a busca.

74 Sensibilidade vs. Seletividade Sensibilidade Habilidade de encontrar a maior parte dos membros relacionados à família da sequência query Seletividade Habilidade de não identificar sequências de outras famílias como falso- positivos Grau de cobertura dos membros da família dado um nível de falso-positivos

75 Escores e Estatística Bit Score Indica quão bom é o alinhamento. Quanto maior o escore, melhor o alinhamento Considera o número de resíduos idênticos ou similares e a quantidade de gaps Influenciado pela Matriz de Substituição (padrão: BLOSUM 62 ) Exceção: blastn and MegaBLAST Normalização: bit scores de diferentes alinhamentos podem ser comparados

76 Escores e Estatística E-value Significado estatístico do alinhamento Quanto menor o escore, mais significativo é o alinhamento E-value = Significa que existem 5 chances em 100 (1 em 20) da similaridade entre as sequências ocorrer aleatoriamente Influenciado pelo tamanho do banco de dados e o sistema de escore utilizado

77 Etapas de Busca 1) Selecionar a sequência (query) 2) Selecionar o banco de dados 3) Selecionar o programa 4) Definir os parâmetros

78 Passo 1: Escolha da sequência Natureza Tamanho Formatos : Identificadores (ID), FASTA (>seq name), sequências puras (txt?)

79

80

81 Passo 2: Seleção do Banco de Dados Proteínas GenBank, PDB, SWISSPROT, PIR, REPBASE68 e BDGP Nucleotídeos GenBank, EMBL, DDBJ, PDB, REPBASE, BDGP, EST69, STS70, vetores, sequências de mitocôndrias, GSS71, sequências HTGS72 Conteúdo não-redundância, periodicidade de atualização organismos ou espécies sequências patenteadas interesse imunológico elementos repetitivos, etc.

82

83

84 Passo 3: Seleção do Programa Natureza da sequência Finalidade da busca Banco de dados

85 5 CAT CAA 5 ATC AAC 5 TCA ACT 5 GTG GGT 5 TGG GTA 5 GGG TAG 5 CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3 3 GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5 DNA codifica 6 proteínas potenciais

86 programa entrada banco de dados 1 blastn DNA DNA 1 blastp protein protein 6 blastx DNA protein 6 tblastn protein DNA 36 tblastx DNA DNA Tipos de Programas

87 Passo 4: Seleção dos parâmetros Tamanho da palavra (w-er) Filtros E value Matriz de substituição & penalidades para gap Sensibilidade e velocidade => W, T e X Seletividade => cutoff score

88 Entrez Filter Scoring matrix Word size Expect organism

89 Filtro

90 Report Header Tipo de programa (BLASTP), versão ( ) e data da versão Artigo que descreve o BLAST, request ID (issued by QBLAST), a definição da sequência e resumo do banco de dados Taxonomy reports: mostra o resultado deste BLAST na base de informação do banco de dados Taxonomy

91 Taxonomy Report

92 Graphical Overview Quanto mais próximas da query, mais semelhantes Barras em rosa: lower-scoring matches que alinham em 2 regiões (resíduos 3-60 e ) Segmento rachurado: as duas regiões de similaridade estão na mesma proteína mas esta região não alinha Outras barras: lower-scoring matches query database hits

93 One-line Descriptions (a) gi number, designação do banco de dados, número de acesso e o nome do locus para as sequências encontradas, separados por barras verticais (b) Definição da sequência (c) Escore de alinhamento ( bits) (d) E-value

94 Pairwise Sequence Alignment

95

96 Famílias de Elementos Repetitivos Alu L1 L2 Tais sequências podem gerar alinhamentos espúrios.

97 Alu Constitutes about 5% of the human genome. Short interspersed repeats. Found in primate genomes. ALU elements often found in 3 regions or introns.

98 Blast usando uma sequência de Alu

99

100 Como identificar e remover elementos repetitivos Filter para elementos repetitivos no servidor de Blast do NCBI Repeat Masker: bin/RepeatMasker

101 Nair & Rost, 2002

102 Way out! - psi-Blast - pattern (phi-Blast) - Hidden Markov Models (HMMs)

103 Position Specific Interactive (PSI)- BLAST Detecta proteínas fracamente relacionadas ou novos membros de uma família protéica (mais sensível) Utilizado quando o BLAST padrão falha em encontrar hits significativos ou retorna hits com decrições do tipo "hypothetical protein" ou "similar to... " Busca iterativa => comparam-se as sequências de alto escore com a sequência de busca para determinar quais delas são altamente conservadas Sequências resultantes => construção de um modelo de escore específico por posição (consenso) => Position-Specific Scoring Matrix (PSSM ou profile)

104 PSI-BLAST - Algoritmo Busca com BLASTp normal Construção de um consenso a partir das regiões alinhadas com E values menores que o limite estabelecido (padrão = 0.005) Utilizando este consenso, procede a uma nova pesquisa sobre a base de dados Quaisquer novos hits abaixo do limite são incluídos em um novo PSSM Fim do processo (convergência) : nenhuma nova sequência é adicionada ao consenso em iterações subsequentes

105 Pattern-Hit Initiated (PHI)-BLAST Busca proteínas que contém padrão especificado pelo usuário E é similar à sequência query em relação in the vicinity ao padrão Reduz o número de hits que contém o padrão no banco de dados mas pode também apresentar nenhuma homologia ao query Exemplo de sequência query e um padrão no formato ProSite: >gi| |ref|NP_ | Human cAMP-dependent protein kinase MSHIQIPPGLTELLQGYTVEVLRQQPPDLVEFAVEYFTRLREARAPASVLPAATPRQSLGHPPPEPGPDR VADAKGDSESEEDEDLEVPVPSRFNRRVSVCAETYNPDEEEEDTDPRVIHPKTDEQRCRLQEACKDILLF KNLDQEQLSQVLDAMFERIVKADEHVIDQGDDGDNFYVIERGTYDILVTKDNQTRSVGQYDNRGSFGELA LMYNTPRAATIVATSEGSLWGLDRVTFRRIIVKNNAKKRKMFESFIESVPLLKSLEVSERMKIVDVIGEK IYKDGERIITQGEKADSFYIIESGEVSILIRSRTKSNKDGGNQEVEIARCHKGQYFGELALVTNKPRAAS AYAVGDVKCLVMDVQAFERLLGPCMDIMKRNISHYEEQLVKMFGSSVDLGNLGQ Padrão encontrado: [LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]-A-x-[LIVMA]-x-[STACV]

106 Hidden Markov Models An approach based on statistical sampling theory Previously used with success for natural language processing Model sequence as a Markov model that is not known (hidden) Observed sequence is a noisy representation of the hidden true model

107 A HMM for a DNA sequence C A C T T (prob 0.8) or A (prob 0.2) A (prob 0.7) or T (prob 0.3) G (prob 0.1) or C (prob 0.9) G (prob 0.1) or C (prob 0.9)

108 Idea of HMM Since multiple alignment of k sequences take O(N k ) time, instead estimate a statistical model of the sequences Align the multiple sequences to this model This is equivalent to aligning the sequences to one another

109 Protein Family Classification Pfam large collection of multiple sequence alignments and hidden Markov models covers many common protein domains and families Over 73% of all known protein sequences have at least one match 5,193 different protein families

110 Pfam Initial multiple alignment of seeds using a program such as Clustal Alignment hand scrutinized and adjusted

111 Pfam Links to the Pfam software: View some examples:

112 Locating ORFs Simplest method of predicting coding regions is to search for open reading frames (ORFs) open reading frames begin with a start (AUG) codon, and ends with one of three stop codons Six total reading frames

113 Locating ORFs Prokaryotes: DNA sequences coding for proteins generally transcribed into mRNA which is translated into protein with very little modification Locating an open reading frame from a start codon to a stop codon can give a strong suggestion into protein coding regions Longer ORFs are more likely to predict protein-coding regions than shorter ORFs.

114 Locating ORFs Eukaryotes: mRNA undergoes processing to remove introns before the protein is translated ORF corresponding to a gene may contain regions with stop codons found within intronic regions Posttranscriptional modification makes gene prediction more difficult

115 Filogenia Problema de determinação de árvores filogenéticas Encontrar a árvore que melhor descreve a relação entre um conjunto de objetos (espécies ou táxons) Cenoura Baleia Chimpanzé Humano

116 Filogenia Táxons e Complexidade 3 árvores possíveis para 4 táxons Para 5 táxons?

117 Filogenia Táxons e Explosão Combinatorial

118 Métodos para reconstrução filogenética 03 métodos principais: : Parsimônia Métodos baseados em distância Verossimilhança máxima

119 Parsimônia Dá preferência à topologia que requer o menor número de mudanças.

120 Filogenia Métodos de Distância A distância evolutiva é calculada para todos os pares de táxons Matriz de Distâncias A árvore filogenética é construída considerando a relação entre esses valores de distâncias

121 O método de evolução mínima Para todas as topologias possíveis : Calcula o comprimento de todos os ramos, S Mantém a árvore com menos S. Problema: computacionalmente intenso. Não é usado com mais de 25 sequências.

122 Filogenia Métodos com Critério de Ótimo Máxima Verossimilhança Determina-se a probabilidade de um modelo evolutivo gerar um certo dado Considera todos os sítios e todas as possibilidades de mutações em todos os nós internos da árvore proposta Multiplica-se a probabilidade de cada sítio Probabilidade da árvore Pode ser utilizado para análises de características e de valores Mais consistente e com estimativas com menor variância Não é simples e intuitivo Computacionalmente intenso

123 Bootstrap procedure O suporte para cada ramo interno é expresso em termos the % de réplicas.

124 "bootstrapped tree

125 Bootstrap Ramos internos suportados por 90% das réplicas são considerados estatisticamente significativos. O procedimento de bootstrap não define se um programa é bom. Uma árvore errada pode ter 100% de suporte de bootstrap em seus ramos internos.

126 distance < parsimony ~ PHYML << Bayesian < classical ML NJ DNAPARS PHYML MrBayes fastDNAml,PAUP NJ DNAPARS PHYML MrBayes fastDNAml,PAUP Tempo de processamento para vários programas

127 Compilações Uma lista de web sites l Uma lista grande de programas phylip/software.html Recursos de Web para filogenia

128 Editor de alinhamento SEAVIEW : para windows e unix Programas para filogenia molecular PHYLIP : PAUP : PHYLO_WIN : MrBayes : PHYML : Recursos de Web para filogenia

129 Desenho de árvores NJPLOT (para todas as plataformas) Aulas de filogenia

130

131 Ontologia Fornecer um vocabulário estruturado e controlado para representar o conhecimento biológico nos bancos de dados.for the

132 Gene Onthology (GO) Biological Process Objetivo dentro da célula, tecido… Molecular Function Função básica ou tarefa Cellular Component Compartimento ou complexo

133

134 Busca com a palavra collagenase

135 molecular function 7422 termos biological process 8972 termos cellular component 1472 termos all 17,866 terms Conteúdo do GO

136


Carregar ppt "BIOLOGIA/MEDICINA A Revolução da Genômica/Bioinformática."

Apresentações semelhantes


Anúncios Google