A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de.

Apresentações semelhantes


Apresentação em tema: "Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de."— Transcrição da apresentação:

1 Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo Instituto Nacional de Ciência e Tecnologia em Células-Tronco e Terapia Celular Introdução à Bioinformática Daniel Guariz Pinheiro, PhD.

2 Sumário Introdução –Revisão Histórica –Sequenciamento –Projetos –Definição de Bioinformática Áreas de Aplicação –Estudos -omas –Problemas clássicos em Bioinformática Desenvolvimento de Sofwares –Principais programas –Análises comuns Bancos de Dados Biológicos –Principais repositórios –Extração de Conhecimento de Bases de Dados Centros de Pesquisa –Nacionais e Internacionais / Públicos e Privados Formação na Área –Cursos (Graduação / Pós-Graduação) –Eventos (Congressos, Simpósios, Cursos de Verão,...) Perspectivas profissionais Referências

3 INTRODUÇÃO

4 Revisão Histórica The Origin of Species Experiments in Plant Hybridization Molecular Structure of Nucleic Acids ENIAC, o 1° computador eletrônico 1944 Caráter Hereditário (DNA) Oswald Avery Leis da hereditariedade 1900 Gene

5 Revisão Histórica Gilbert & Sanger -Métodos para o sequenciamento de DNA - Sequenciador semi-automático Leroy Hood Sequenciador automático comercial Applied Biosystems A C G T

6 Revisão Histórica Iniciativa pública Projeto Genoma Humano Publicação do rascunho do Genoma Humano Genoma bactéria Xylella fastidiosa 1997 Organization for Nucleotide Sequencing and Analysis Cancer Genome Anatomy Project 1988 National Center for Biotechnology Information 1995 SAGEmicroarray 2005, 2006, Next-Generation Sequencing 2003 Conclusão do Projeto Genoma Humano Genomes Project

7 Projeto Genoma Humano The International Human Genome Sequencing Consortium 13 anos ( ) U$ ,00 (3 BILHÕES de DÓLARES!!!) Avanços imediatos proporcionados Identificação de ~ genes (~20% material genético total); Possibilitou a descoberta de ~1.800 genes relacionados a doenças, facilitando a identificação de outros genes; Permitiu o desenvolvimento de mais de testes genéticos; Ao menos 350 produtos biotecnológicos resultantes deste conhecimento já estão em testes clínicos; Desenvolvimentos de ferramentas para análise genômica, inclusive de outras espécies de interesse biomédico e econômico; Promoveu discussões éticas, legais e implicações sociais em torno do assunto; Base de conhecimento;

8 International Nucleotide Sequence Database Colaboration seqüências bases seqüências bases

9 Nova Geração de Sequenciadores de DNA Roche/454 FLX Illumina/Solexa GA ABI SOLiD ABI 3730xl Roche/454 FLXIllumina/Solexa GAABI SOLiD MétodoSangerPirosequenciamentoSequenciamento por Síntese Sequenciamento por Ligação Aumento na quantidade de Dados (até ~1/2 Tb por corrida); Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x) em questão de poucas semanas); Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb); Redução do custo por base sequenciada;

10 Sequence Read Archive (…) In mid-September 2010, the SRA contained >500 billion reads consisting of 60 trillion base pairs available for download (…) Almost 80% of the sequencing data are derived from the Illumina GA platform. The SOLiD and Roche/454 platforms account for 15% and 5% of submitted base pairs, respectively.(…) [Leinonen R et. al., 2011] Were growing by about 1 Tb/month. NCBIs staff scientist Martin Shumway International Nucleotide Sequence Database Collaboration SRA (NCBI Sequence Read Archive): ENA (EBI European Nucleotide Archive): DRA (DDBJ Sequence Read Archive):

11 Novas promessas HeliScope –Helicos BioSciences ION Torrent –Applied Biosystems PacBio RS –Pacific Biosciences

12 $100 genome Seqüenciamento genoma completo –2010 (~U$50.000,00) –2011 (~U$10.000,00) Testes genéticos (marcadores) –deCODEme (~U$2.000,00 ~50 doenças/traços) –23andme (~U$500,00 ~174 relatórios saúde)

13 1000 Genomes Catálogo completo e detalhado de Variantes Genômicas Humanas genomas, 4x cobertura –1.270 genomas seqüenciados –Mais de 6 trilhões de bases Suporte financeiro –Wellcome Trust Sanger Institute (Inglaterra); –Beijing Genomics Institute (China); –National Human Genome Research Institute (EUA); Craig Venter

14 Início dos anos Início do Projeto Genoma Humano

15 Por onde começar?

16 Bancos de Dados Propriedades: -Representar um aspecto do mundo real; -Conter dados coerentes e com um significado inerente; -Deve ter um propósito; A database is a repository for a collection of computerized data files. (C.J.Date) A database is a collection of related data. By data, we mean known facts that can be recorded and that have implicit meaning. (R. Elmasri and S. B. Navathe)

17 Abordagem utilizando Sistema de Arquivos Cada usuário define e implementa os arquivos necessários para uma aplicação específica. –Gera redundância na definição e no armazenamento dos dados; –Possui estrutura específica e dependente de determinada aplicação; –Não permite compartilhamento e acesso concorrente; –…

18 Abordagem utilizando Sistema de Banco de Dados Utiliza um sistema de gerenciamento de bancos de dados para manter um único repositório de dados; –Evita redundância; –Contém em si a definição de sua estrutura (metadados); –Possui restrições implementadas que evitam inconsistências nos dados; –Solução genérica para qualquer aplicação; –Permite o acesso concorrente de múltiplos usuários; –Permite diferentes visões dos dados; –Independência da aplicação; –Permite representar relacionamentos complexos entre os dados; –...

19 Em que situações a abordagem com arquivos é indicada? O banco de dados e as aplicações são simples e bem definidas e não espera-se alterações; Há o requisito de tempo-real para alguns programas, não encontrado com o uso de SGBDs dada sua sobrecarga; Não há necessidade de múltiplos acessos.

20 Elmasri, R. A. and Navathe Ambiente Simplificado de um Sistema de Banco de Dados

21 Banco de Dados Flat file Abordagem utilizando arquivos –Arquivos que contêm registros de dados que não estão estruturalmente relacionados. Exemplo: Banco de Dados flat file de seqüências de nucleotídeos (nt) Possui um padrão específico de formatação –GenBank, Fasta, ASN.1... É necessário um programa chamado de parser, que reconhece esses formatos específicos e conseguem extrair informação de forma automática. –Ex.: Módulos da BioPerl

22 Repositórios de Dados Biológicos 1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - ~1Mb 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information 1997 – EMBL – European Molecular Biology Laboratory 1986 – DDBJ – DNA Data Bank of Japan

23 E agora ?

24 Análise dos Dados Necessidade de sistemas computacionais para análise dos dados e interpretação dos resultados. Desafios : –Armazenar e organizar –Estabelecer relações –Procurar padrões –Analisar –Filtrar –Desenvolver mecanismo de visualização –Integrar –Etc. Equipe Multidisciplinar

25 Bioinformática Etimologia Bio = bios (vida) + Informática = informatik (informação + automática)

26 Termo Bioinformática Bioinformática –Paulien Hogeweg, 1978 Estudo de sistemas biológicos como sistemas dinâmicos (modelos matemáticos que descrevem o comportamento de um sistema) –Origem disputada, meados 1980 Análise de seqüências biológicas

27 Bioinformática The mathematical, statistical and computing methods that aim to solve biological problems using DNA and amino acid sequences and related information. Fredj Tekaia ( Institut Pasteur ) Métodos matemáticos, estatísticos e computacionais para resolver problemas biológicos usando seqüências de DNA e aminoácidos e informações relacionadas

28 Biologia Computacional Computational biology is not a field, but an approach involving the use of computers to study biological processes and hence it is an area as diverse as biology itself. Paul J Schulte ( University of Washington ) Biologia Computacional não é um campo, mas uma abordagem envolvendo o uso de computadores para estudar processos biológicos e portanto é uma área tão diversa quanto a biologia em si.

29 Definições atuais Bioinformática: Pesquisa, desenvolvimento, ou aplicação de ferramentas computacionais e abordagens para expandir a utilização de dados biológicos, médicos, comportamentais e de saúde, incluindo a aquisição, o armazenamento, a organização, o arquivamento a análise ou visualização desses dados. Computational Biology: O desenvolvimento e aplicação de métodos teóricos e analíticos, incluindo modelagem matemática e aplicação de técnicas de simulações computacionais para o estudo de sistemas biológicos, sociais ou comportamentais. Biomedical Information Science and Technology Initiative Consortium (NIH)

30 As Bases da Bioinformática

31 ÁREAS DE APLICAÇÃO

32 Projetos -omas x Pesquisa Clássica em Genética e Bioquímica Science 291: Genômica Transcritômica Proteômica Epigenômica Metabolômica …

33 Genômica Genômica Estrutural –Construção de mapas genéticos, físicos e de transcrição de um organismo. Genômica Funcional –Caracterização das propriedades funcionais do conjunto gênico e padrão de Expressão Gênica. Genômica Comparativa Genômica Clínica

34 Proteômica Como regra geral, as proteínas são estudadas isoladamente. A Proteômica engloba o estudo amplo de todas as propriedades das proteínas, isoladamente e em interação com o organismo.

35 Bioinformática Clássica Organização da Informação Biológica –Definição de Bases de Dados Genômica Estrutural –Análise de seqüências de DNA ou RNA Processamento automatizado dos Dados de Seqüências (pipelines); Montagem de seqüências genômicas; Predição Gênica; Definição das estruturas gênicas; Mapeamento genômico de estruturas gênicas; Identificação e de Polimorfismos de DNA;...

36 Montagem do quebra- cabeças HUMAN GENOME CONSORTIUM CELERA GENOMICS fragmentos (1000 b) - ~ 3 a 4 milhões de bases (Genoma de uma Bactéria) Estratégias (Pública x Privada) Craig Venter Francis Collins

37 Base-Calling Phred : Lê o arquivo do cromatograma da seqüência de DNA e analisa os picos para descrever as bases, associando um valor de qualidade para cada base descrita.

38 Problema clássico Como obter as sequências de nucleotídeos dos cromossomos a partir do sequenciamento de milhares de sequências de fragmentos de DNA? Como montar as peças desse quebra- cabeças?

39 Problema clássico Sejam duas seqüências de caracteres distintas: É possível quantificar o quanto elas estão relacionadas e quais regiões são correspondentes entre si? ATATTAATGATTTGTAAGGTGGTGGTGGGGAACTTG GCTAGACGAATGATTTGTAATGTGGTGGGAAACTTG Alinhamento de seqüências ATATTAATGATTTGTAAGGTGGTGGTGGGGAACTTG |||||||||||||||||||||||| GCTAGACGAATGATTTGTAATGTGGTGGGAAACTTG

40 Alinhamento de Sequências Em Bioinformática, alinhamento de sequências é uma forma de dispor as sequências de DNA, RNA, ou proteínas para identificar regiões de similaridade que podem ser consequência de relacionamentos funcionais, estruturais ou relações evolutivas entre elas.

41 Significado Biológico do Alinhamento de Sequências Definição de 3 termos importantes: –identidade: refere-se à fração de aminoácidos ou nucleotídeos idênticos entre pares de sequências após um alinhamento dessas sequências; –similaridade: refere-se à fração de aminoácidos ou nucleotídeos similares (com propriedades físico-químicas semelhantes – aminoácidos conservados) entre pares de sequências após um alinhamento dessas sequências; –homologia: representa uma relação evolutiva entre as sequências; Homólogos –Parálogos; –Ortólogos;

42 Há uma referência? Resequenciamento –Existem sequências produzidas a partir de um genoma/transcriptoma da mesma espécie da amostra ou de uma espécie relacionada que podem ser usadas como referências. Alinhamento com a referência. Sequenciamento de novo –Não há sequências que podem ser usadas como referências. Este tipo de sequenciamento exigirá uma montagem (assembly) das sequências, utilizando apenas os dados obtidos desse sequenciamento. Alinhamento entre as sequencias geradas, que permitirá a obtenção de um consenso.

43 Identificação das sequências Resequenciamento –Alinhamento: Conjunto de Sequências X Sequências Referências (Ex.: Genoma) >seq1 gcagtcagtcacacatgtca... >seq2 cgcgcatgcGcgtactctat... >seq3 tcgagcatcatcagtcgtca... >seq4 tatgctttatagcgagtcat >chrX atcacacatgtcacatggtcag ggcatcagtcagtcagtcatgc gcgcgcatgcCcgtactctatc tcatgcgtcagtcatgcatgcg agcagtcatgcatgcatcgcac tgcatcatacgtcatgcatgaa..... Objetivos: - Eliminar as sequência sem hit - Eliminar as sequência com hits múltiplos (ambiguous) - Identificar as sequência com hit único (unambiguous)

44 Montagem de sequências Sequenciamento de novo –Alinhamentos: Conjunto de Sequências X Conjunto de Sequências (alinhamento pareado) Alinhamento Múltiplo de Sequências (MSA) ACAGTACGACAGTACGACCAGTACGATAGCAGTACGATACGACCGA TCCAGTACGATAGCAGTACGATCAG GCACAGTACGACCAGTACGATACAGGAAC CAGGTACGATACGACGGACGGGG ACAGTACGACAGTACGAAAC GTACGACCAGTACGATACACT AACGACAGTACGAAACGGG TATAGGTACGATACGACGGAC Consensus : Seq A Seq B Seq C Seq D Seq E Seq F Seq G

45 Abordagens para alinhar sequências ALGORITMOS PARA ALINHAMENTO DE SEQUÊNCIAS

46 Problema básico Transformar uma sequência de caracteres em outra: –Operações: inserção deleção substituição –Custo de operação: Score de substituição Penalidade para Gaps (inserção/deleção) –Qual é a quantidade de operações mínima ? –Como achar a séries de operações que vai garantir que usamos a quantidade de operações mínima ? Exemplo: ACGT || G-GT Scores: Match: 2 Mismatch (S): -1 Gap(I): -2 Gap(D): -2 Score (4-2-1): 1 2 matches: 4 1 gap: -2 1 mismatch: -1

47 Soluções Matrix de pontos (dot matrix) –Informação qualitativa; Drosophila Dystrobrevin and Mouse ortholog [Goldstein e Gunawardenaa, 2000]

48 Soluções Matrix de pontos (dot matrix) –Informação qualitativa; Algoritmos de Programação Dinâmica –Smith-Waterman; Needleman-Wunsch; SW é um algoritmo para achar o alinhamento mais provável com uma estrutura certa;

49 Alinhamentos de Sequências Alinhamento Global (e.g. Algoritmo de Needleman-Wunsch) As sequências envolvidas devem ser alinhadas de um extremo ao outro. Adequado quando as sequências possuem aproximadamente o mesmo tamanho. T Seq X : C A T T A G C A G C C T | | | | | | G Seq Y : - A G T A – - A G C - - Alinhamento Local (e.g. Algoritmo de Smith–Waterman) Procura-se alinhar apenas as regiões mais similares, independente da localização relativa de cada região. Seq X [4,10]: T A G C A G C | | | | | Seq Y [3,7]: T A - - A G C Alinhamentos (Global/Local) (DNA/Protein) FASTA (http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml)http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml EMBOSS Align (http://www.ebi.ac.uk/Tools/emboss/align/)http://www.ebi.ac.uk/Tools/emboss/align/

50 Matriz de Programação Dinâmica Exemplo: ACGT || G-GT Scores: Match: 2 Mismatch (S): -1 Gap(I): -2 Gap(D): -2 Score (4-2-1): 1 2 matches: 4 1 gap: -2 1 mismatch: -1 D(i, j) = max D(i-1, j-1) + s(xi, yj) (diagonal -> match/mismatch) D(i -1, j) + g (acima -> gap acima) D(i, j -1) + g (esquerda -> gap esquerda) D(i-1,j- 1) D(i-1,j) D(i,j-1)D(i,j) traceback GG A > Score (-2-1): -3 1 gap: -2 1 mismatch: -1 > Score(-1-2): -3 1 mismatch: -1 1 gap: -2 > Score(-4-2): -6 2 gaps: -4 1 gap: -2 GG A GG A

51 Solução Matrix de pontos (dot matrix) –Informação qualitativa; Algoritmos de Programação Dinâmica –Smith-Waterman; Needleman-Wunsch; SW é um algoritmo para achar o alinhamento mais provável com uma estrutura certa; Por razões de tempo e espaço, não pode ser usado para alinhamento de sequências de larga escala; Utilizações de aproximações (heurísticas); Geralmente, quanto mais rápida for a aproximação, mais distante estará a resposta da solução correta;

52 Desafios Eficiência; –velocidade; –sensibilidade; –especificidade; Ambiguidade causada por sequências repetitivas; Erros inerentes às técnicas de sequenciamento.

53 Identificação de sequências Utilização de sequências referência –Ex.: Genoma Localização precisa –quantidade de matches suficientes –não tenha ambiguidade Exemplo: –Sequenciamento de transcritos humanos para determinar expressão gênica

54 BLAST Basic Local Alignment Search Tool Heurística: dicionário de palavras E-value (S): número de diferentes alinhamentos com scores equivalentes ou melhores que S que são esperados ocorrer ao acaso em buscas em um banco de dados aleatório, do mesmo tamanho, com a mesma composição de bases; QUANTO MENOR... MELHOR!!! NÃO CONFUNDIR COM P-value (probabilidade)

55 BLAT BLATThe BLAST-Like Alignment Tool Estruturalmente diferente (BLAST) –Além de outros pontos, o Blat constrói um índice do banco de dado de sequências (database) (k-mers) e faz as buscas na sequência a qual se deseja consultar (query); Blat é mais rápido, porém menos sensível; Possui código especialmente para lidar com intros em alinhamentos RNA/DNA; Comumente utilizado para localizar uma determinada sequência no genoma ou determinar a estrutura de exons de um RNA; Pode ser utilizado para alinhar sequências de Roche/454;

56 Alinhamento de sequências curtas BLAST/BLAT são lentos demais para alinhar milhões de sequências (Illumina: 35bp-100bp/SOLiD: ) Novos algoritmos –Novas implementações BWA Bowtie Bfast Mosaik...

57 Mascaramento de Vetores Mascaramento das regiões que representam, normalmente, partes dos vetores de clonagem onde as seqüências de interesse foram inseridas ou pedaços de DNA adaptadores utilizados durante o experimento. Cross_match (http://www.phrap.org/phredphrap/)http://www.phrap.org/phredphrap/ >CloneX TGAGATCACTTCCCTTGCACAGTTTGGAAGGGAGAGCACTTTATTACAGACCTTGGAAGCAAGAGGATTG CATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGC TATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTG TTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA CATTGTAAGAAGAAACCGGGGTGGGTGGTGTCTCCAGGTCAATCAACTTCTGTACTGGGCTCTGACCACA GACGATTCACGTGTGGGTCTATGTTCAGGTCCT >CloneXmasked TGAGATCACTTCCCTTGCACAGTTTGGAAGGGAGAGCACTTTATTACAGACCTTGGAAGCAAGAGGATTG CATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGC TATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTG TTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA CATTGTAAGAAGAAACCGGGGTGGGTGGTGTCTCCAGGTCAATCAACTTCTGTACTGGGCTCTGACCACA XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

58 Mascaramento de Elementos Repetitivos Mascaramento das regiões que representam, normalmente elementos repetitivos do genoma (transposons, retrotransposons,...) ou sequências de baixa complexidade; RepeatMasker (http://www.repeatmasker.org/ )http://www.repeatmasker.org/ >CloneX TGAGTTAGTTAATTGTGCCAGCCTGGCCGATAATCACATGTGGGGCTAATTGAAAGGCGG AGGGATAAATGGGTGGTGAGCCTCGCCTTTCTAGTTCTCGGGTCTCTTGCTTTGTGATGG ATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAA AGAATTGGCTATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTT GAGCACCAGATCCGGGCTGTTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATG GAGTTGGGCTTAGAGGCTATTTTTGATCA >CloneXmasked NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN ATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAA AGAATTGGCTATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTT GAGCACCAGATCCGGGCTGTTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATG GAGTTGGGCTTAGAGGCTATTTTTGATCA

59 Análise Filogenética Alinhamento Global Inferência de Filogenias Reconstruir o parentesco entre as espécies associando essas informações a uma escala temporal; PHYLIP (http://evolution.genetics.washington.edu/phylip.html)http://evolution.genetics.washington.edu/phylip.html

60 Detecção de Formas Alternativas do Gene Encadeamento Alternativo de Exons (Alternative Splicing): Alinhamento de sequências de transcritos em relação a um genoma referência; A)exon skipping (CD44) B)alternative acceptor (MDM2) C)Intron retention (WDR39)

61 Análise de SNP SNP - Single Nucleotide Polymorphism polybayes (http://bioinformatics.bc.edu/marthlab/PolyBayes)http://bioinformatics.bc.edu/marthlab/PolyBayes GAG ATGGTGCATCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCA GTG TGACTCCTGTGGAGAAGTCTGCCGTTACTGCC GAG ATGGTGCATCTGACTCCTGAGGAGAAGTCTG GTG ATGGTGCATCTGACTCCTGTGGAGAAGTCTGCCGTTACTGCCCTGT GAG GCATCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGG GTG ATGGTGCATCTGACTCCTGTGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCA GAG CATCTGACTCCTGAGGAGAAGTCTGCCGTTAC Seq 1 : Seq 2 : Seq 3 : Seq 4 : Seq 5 : Seq 6 : Seq 7 : Anemia Falciforme - deficiência no transporte de oxigênio Glutamato (GAG) / Valina (GTG)Gene HBB

62 Abordagem para montar sequências Alinhamentos para montagem de sequências; Algoritmos de montagem (Overlap-Layout- Consensus) –Requerem o alinhamentos pareados entre as sequências;

63 Abordagem para montagem de seqüências Montagem dos pequenos fragmentos seqüenciados em seqüências maiores. Considera-se um mosaico de partes da seqüências que são agrupadas, como regiões de alta qualidade e onde a sobreposição. Montagem: Phrap (http://www.phrap.org/phredphrap/)http://www.phrap.org/phredphrap/ ACAGTACGACAGTACGACCAGTACGATAGCAGTACGATACGACCGA TCCAGTACGATAGCAGTACGATCAG GCACAGTACGACCAGTACGATACAGGAAC CAGGTACGATACGACGGACGGGG ACAGTACGACAGTACGAAAC Consensus : Seq A Seq B Seq C Seq D

64 Montagem Definição –É uma estrutura hierárquica que mapeia os dados de sequências de fragmentos para uma reconstrução aproximada do alvo (neste caso transcritos) em sua forma original; leituras (reads) => contigs => scaffolds –A montagem agrupa sequências em contigs e contigs em scaffolds (supercontigs); –A montagem só é possível quando o alvo (transcriptoma) é excessivamente sequenciado;

65 Gap Conceitos Básicos (1) contig – alinhamento múltiplo de leituras de onde é extraída uma sequência consenso; unitig – contig formado pela sobreposição de sequências únicas das leituras, ou seja, sem ambiguidades; scaffold – definem a ordem e orientação dos contigs além do tamanho dos gaps entre os contigs; singlets – leituras não agrupadas em um contig; gap – espaço entre dois contigs, onde não se conhece a sequência;

66 Conceitos Básicos (2) Cobertura (coverage) –Total de pares de bases sequenciadas [N*L] dividido pelo tamanho da região de interesse (genoma) [G] ((N*L)/G) –Ex: Genoma de 1Mbp (G) »5 milhões de reads (N) de 50bp (L) »Cobertura = ( * 50) / = 25X –Na prática, corresponde a quantas vezes, em média, cada base do genoma foi sequenciada; –Profundidade (depth of coverage) Requisitos para o sequenciamento de genomas: –Sanger: C. Venter (3Gb ~7.5x) [Levy et al., 2007] –Roche 454: J. Watson (3Gb ~7.4x) [Wheeler et al., 2008] –Illumina (52pb): Panda (Ailuropoda melanoleura) (2.4Gb ~73x) [Li et al., 2010]

67 Montagem de novo Reconstrução da sequência (transcrito) em sua forma original, sem a consulta de sequências previamente resolvidas de genomas, transcritos e proteínas. A montagem é possível quando o alvo é excessivamente amostrado com leituras shotgun que se sobrepõem. Montagem de novo de dados de Next-Generation Sequencing (NGS) –tamanho das leituras (menos informação por leitura) necessidade de maior cobertura – aumento da complexidade; –grande volume de dados necessidade de algoritmos que utilizem de forma racional e eficiente os recursos computacionais (CPU/RAM);

68 Desafios (1) Contaminates nas amostras (e.g. Bacteria) Ribosomal RNA (pequenas e grandes sub-unidades) Artefatos gerados na etapa de PCR (e.g. Quimeras e mutações) Erros de sequenciamento –e.g. Roche erros de homopolímeros (3 ou mais bases consecutivas); Presença de primers/adaptadores (e.g. adaptadores SMART utilizados na síntese de cDNA); Repetições e genomas poliplóides (sequências repetitivas no transcritoma torna a montagem mais difícil); –Necessidade de spanners – leituras que atravessam uma região de repetição e que possuem suficientes regiões únicas em ambos os lados; –Utilização de leituras paired-ends/mate-pairs e suas propriedades de tamanho e orientação, estando um dos pares ancorado em uma região única;

69 Desafios (2) Passos extras na preparação das amostras e síntese de cDNA pode levar a um maior risco de erros na clonagem ou contaminação; Transcritos muito abundantes (alta cobertura), transcritos pouco abundantes (baixa cobertura); Processamento alternativo do RNA –e.g. Alternative splicing Genes parálogos A falta de um genoma referência torna difícil o julgamento da qualidade da montagem

70 Problemas recorrentes causados por repetições

71 Visualização É importante a visualização dos alinhamentos, que permite extrair conclusões ainda não consideradas. Visualização : Consed (http://www.phrap.org/phredphrap/)http://www.phrap.org/phredphrap/

72 Mapeamento e Apresentação dos Dados UCSC Genome Browser ( )http://genome.ucsc.edu/

73 Predição Estruturas Gênicas Identificação de estruturas de genes em DNA genômico O programa determina a estrutura gênica mais provável baseado em um modelo probabilístico de um gene estrutural e de propriedades composicionais no DNA genômico de determinado organismo que caracterizam um gene. GenScan (http://genes.mit.edu/GENSCAN.html)http://genes.mit.edu/GENSCAN.html

74 O processo de anotação gênica Onde está localizado ? O quê ele faz ? Como ele faz ?

75 Era pós-genômica Quais são os genes e de que forma eles podem influenciar em determinado fenótipo ?

76 Expressão Gênica Diferencial Célula do MúsculoCélula da PeleCélula neuralCélula do MúsculoCélula da PeleCélula neural Rede de Interações Gênicas Regulação Gênica Ambiente

77 Gene A Gene B Gene C Células Normais Células do Tumor oncogene supressor tumoral Expressão Gênica e Câncer Célula NormalCélula Cancerosa Cell Jan 7;100(1):57-70 Célula NormalCélula Cancerosa Auxílio diagnóstico e prognóstico Perfil de expressão de 70 genes Desenvolvimento de novos fármacos e terapias individualizadas para o tratamento do paciente com câncer

78 Genômica Funcional: Análise de Expressão Gênica Genômica Funcional = Métodos de obtenção de dados em larga escala + Métodos de Bioinformática (Genome-wide expression profiling) Revolução dos projetos -omas Mayo Clin Proc May;79(5):651-8

79 Análises de Expressão Gênica Experimento de microarray Nature Genetics 34, (2003) Hierarchical Cluster ~100,000 – ~150,000 spots

80 Bioinformática Atual Análise dos resultados obtidos através da Genômica e Proteômica. Análise dos dados obtidos através de novas técnicas de laboratório. Desenvolvimento de modelos de simulação de redes de interações gênicas. Desenvolvimento de metodologias para o reconhecimento de padrões de expressão gênica que determinam um fenótipo. Análise entre os dados clínicos de pacientes e os obtidos através da pesquisa genômica e proteômica. Integração dessas Informações.

81 Biologia Sistêmica Estudo das interações entre as componentes de um sistema biológico, e como essas interações fazem emergir função e comportamento no sistema; "Systems Biology is the science of discovering, modeling, understanding and ultimately engineering at the molecular level the dynamic relationships between the biological molecules that define living organisms Leroy Hood

82 Integração dos Bancos de Dados Biológicos Características –Grande volume de dados; Desenvolvimento de novos mecanismos e técnicas para o armazenamento e recuperação (e.g. Google BigTable ); –Não há padrão para os nomes dos objetos; Ontologias (e.g. Gene Ontology) e organizações que regulam a nomenclatura (e.g. HUGO) –Não há padrão para acesso aos dados, cuja natureza é distribuída; Utilização de formatação padrão para troca de informações (e.g. GFF) e web services; –Definição variável para alguns conceitos; e.g. gene –Dados altamente heterogêneos mas inter-relacionados; –Informação dinâmica e em constante atualização;

83 Bancos de Dados para Extração de Conhecimento Data warehouse Bancos de Dados Integração dos Dados/ Consolidação dos Dados Seleção e pré-processamento Data mining Dados Padrões e Modelos ConhecimentoTransformação Interpretação e Avaliação

84 DESENVOLVIMENTO DE SOFTWARES

85 Plataforma de Desenvolvimento Sistemas Operacionais : Linux, UNIX, MacOS, Windows Linguagens de Programação : Perl (Practical Extract and Report Language), C/C++, Java, Python Sistemas de Gerenciamento de Bancos de Dados : MySQL, PostgreSQL

86 BioPerl ? Projeto de colaboração open-source internacional (1996- …) Biblioteca de módulos Perl Soluções para a Pesquisa em Bioinformática, Genômica e Ciências Biológicas; Tarefas complexas e rotineiras utilizando algumas poucas linhas de código; Análise e anotação de seqüências e outras áreas; Licenciado sob a Perl Artistic License; Open Bioinformatics Foundation ( ) Open Bioinformatics Foundation Introdução BioPerl

87 1.Conhecimentos e alguma experiência na área de Biologia Molecular, Computação e Estatística; 2.Conhecimentos e experiência em utilizar as principais ferramentas e pacotes de análises em Bioinformática; 3.Se sentir à vontade no ambiente de linha de comando; 4.Conhecimentos e experiência em linguagens de programação C/C++, Perl ou Python; Habilidades essenciais (Bioinformática)

88 Considerações A Bioinformática estima, você é que afirma. G.I.G.O. - Garbage in, garbage out; Entra lixo, sai lixo. Quanto mais informações corretas você puder dar, melhor será o resultado. Sempre há um resultado, pode ser bom ou ruim, mas como julgar? Não há fuga da bancada. Se você torturar os dados o suficiente, eles irão confessar qualquer coisa.

89 Centros de Pesquisa

90 Next Generation Sequencers

91 No mundo... National Center for Biotechnology Information Bethesda – MD - US European Bioinformatics Institute Hinxton - UK South African National Bioinformatics Institute Tygerberg - ZA Center for Information Biology Mishima - JP TIGR/J. Craig Venter Institute San Diego - CA - US Wellcome trust SANGER Institute Hinxton - UK

92 Companhias de Bioinformática

93 e no Brasil... Ludwig Institute for Cancer Research – São Paulo Branch São Paulo - BR Laboratório Nacional de Computação Científica Petrópolis - BR Embrapa Campinas - BR Laboratório de Genética Molecular e Bioinformática (INCTC) Ribeirão Preto - BR Departamento de Bioquímica - Instituto de Química - USP São Paulo - BR Bioinformatics Laboratory - Universidade Católica de Brasília (BioFoco) Brasília - BR Laboratory for Bioinformatics – UNICAMP Campinas - BR Alellyx Applied Genomics Campinas - BR Scylla Bioinformática Campinas - BR

94 Formação na Área

95 Graduação Informática Biomédica – USP 3 principais áreas –Bioinformática –Processamento de Imagens e sinais –Sistemas de Informação em Saúde

96 Pós-Graduação Bioinformática – Interunidades/USP –http://www.ime.usp.br/posbioinfo/http://www.ime.usp.br/posbioinfo/ Genética – FMRP/USP –http://rge.fmrp.usp.br/http://rge.fmrp.usp.br/ Bioinformática – UFMG –http://www.pgbioinfo.icb.ufmg.br/http://www.pgbioinfo.icb.ufmg.br/ Genética – UFPA –http://www.lghm.ufpa.br/ppgbm/http://www.lghm.ufpa.br/ppgbm/ Bioinformática – UFPR –http://www.bioinfo.ufpr.br/http://www.bioinfo.ufpr.br/

97 Curso de Inverno em Bioinformática Objetivo principal : curso introdutório sobre as principais técnicas utilizadas em projetos de Bioinformática, permitindo a integração entre os interssados na área. Público alvo : O curso é aberto a toda comunidade, direcionado principalmente aos alunos de graduação, sem restrição de área.

98 Curso de Verão em Bioinformática Objetivo principal : apresentar um cenário real de elaboração e execução de um projeto em Bioinformática. Público alvo : alunos de graduação, pós- graduação ou profissionais, das áreas de ciências exatas ou biológicas.

99 AB3C Servir a comunidade científica brasileira e internacional influenciando as políticas governamentais e científicas; Representar a comunidade brasileira de Bioinformática e Biologia Computacional junto aos poderes públicos, influenciando as políticas de governo em ciência e tecnologia; Congregar a comunidade brasileira de Bioinformática e Biologia Computacional, possibilitando um maior relacionamento social e profissional entre seus membros; Organizar encontros e publicações de alta qualidade na área de Bioinformática e Biologia Computacional; Distribuir informação sobre treinamento, educação, emprego e notícias relevantes de áreas correlatas.

100 X-Meeting

101 Perspectivas

102 ... para a Bioinformática Consolidar-se definitivamente como ciência. –Disciplina obrigatória na área de Genética Molecular; –Disciplina opcional para área de Ciência da Computação; –No Brasil, novos cursos de graduação, extensão e pós-graduação. Em universidades públicas e privadas. No Brasil, deve desenvolver-se também em outros estados. Desenvolvimento da Bioinformática aplicada à Proteômica. Desafio do futuro: integrar todo o conhecimento adquirido (Biologia Sistêmica). Exigir e promover ainda mais a multidisciplinaridade e a integração entre os profissionais das diferentes áreas envolvidas. Conquistar o mercado. –No Brasil, a área ainda tem muito espaço pra crescer. Mais investimentos na área.

103 e para o bioinformata No Brasil –Ainda muito restrito à área acadêmica e institutos públicos de pesquisa; –Bolsas de Estudo de Instituições de fomento à Pesquisa. –Poucos cursos e treinamento para capacitação. –Excelente formação na área; América do Norte e Europa e Ásia –Grandes centros de Bioinformática financiados por instituições governamentais e privadas [empresas farmacêuticas]; –Cursos e treinamentos especializados para a capacitação. –Carreira de Bioinformática - salário médio anual - Pesquisador: US$77.710,00 – (~R$ ,00)

104 Referências

105 STRACHAN, T ; READ, A P. Genética Molecular Humana. Artmed Alberts, B; Johnson, A; Lewis J; Raff, M; Roberts, K; Walter, A. Biologia Molecular da Célula. Ed. Artmed Prosdocimi F et. al. Bioinformática: manual do usuário. Biotec. Ci. Des. 29: 18-31, O DNA Vai à Escola, Wikipedia, Revista ComCiência, Genome News Network, Folha Online, Bioinformatics.Org Catálogo de Centros de Bioinformática Salários Genome (NHGRI)

106 Links Úteis e Interessantes Bioinformatics Organization (http://www.bioinformatics.org/)http://www.bioinformatics.org/ NCBI (http://www.ncbi.nlm.nih.gov)http://www.ncbi.nlm.nih.gov EBI (http://www.ebi.ac.uk/)http://www.ebi.ac.uk/ CPAN - Comprehensive Perl Archive Network (http://www.cpan.org)http://www.cpan.org BioPerl (http://bioperl.org)http://bioperl.org Os livros editados pela OREILLY (http://www.oreilly.com)http://www.oreilly.com –Perl (http://oreilly.com/pub/topic/perl)http://oreilly.com/pub/topic/perl –Bioinformatics (http://oreilly.com/pub/topic/bioinformatics)http://oreilly.com/pub/topic/bioinformatics Periódicos Científicos –Bioinformatics (http://bioinformatics.oxfordjournals.org/)http://bioinformatics.oxfordjournals.org/ –BMC Bioinformatics (http://www.biomedcentral.com/bmcbioinformatics/)http://www.biomedcentral.com/bmcbioinformatics/

107 Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática OBRIGADO PELA PACIÊNCIA !!! Perguntas...


Carregar ppt "Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de."

Apresentações semelhantes


Anúncios Google