Bioinformática Alexandre L. Martins Valério A. Balani.

Slides:



Advertisements
Apresentações semelhantes
2008 LCG/UFRJ. All rights reserved. 1 Standard Template Library STL Claudio Esperança Paulo Roma Cavalcanti.
Advertisements

Técnicas e Projeto de Sistemas André Mesquita Rincon Processo de Software Técnico Subsequente – Módulo III.
Banco de Dados Aula 01: Conceitos Básicos
Técnicas e Projeto de Sistemas
FORTRAN 90 Denise Yumi Takamura.
INTRODUÇÃO À COMPUTAÇÃO PARALELA
SQL Procedural Junho/2006.
Estruturas de Dados para projeto de SGBD. Estruturas de dados analisadas Estruturas de nível Esparso Denso Combinadas Arvore B+ Tabela de hash.
Críticas sobre Extreme Programming Francisco Hillesheim.
Trac é uma ferramenta open source e de interface web para controle de projetos de desenvolvimento de software. O objetivo do software é ajudar o desenvolvedor.
Universidade Federal da Bahia – Centro de Processamento de Dados – Preview Computadores 1 Uma Ferramenta Orientada a Modelos para Geração de Aplicações.
Sistemas Operacionais
Prof. Dr. Helder Anibal Hermini
Prof. Dr. Helder Anibal Hermini
1. Equivalência entre portas 2. Derivação de expressões booleanas 3
Criptografia Quântica : Um Estudo
Gustavo Vieira Pereira
Compressão por Hardware
Slide 1 Rede Nacional de Ensino e Pesquisa Treinamento em Gradep - junho 2005 Aplicação GeneAl Treinamento no GRADEp Aplicação GeneAl.
Servidores e Programação Web Redes de Computadores.
Profa. Graziela Santos de Araújo Algoritmos e Programação II, 2010
Introdução aos Sistemas de Informação Gerencial Profa. Jiani Cardoso Fundamentos de Sistemas de Informação 02/set/2005.
Banco de Dados I Profa. Jiani Cardoso 2/2005
Supply Chain Management
Conceitos iniciais Hardware/Software
O Fluxo de Testes © Alexandre Vasconcelos
UD de Sorocaba/ Iperó UNIVERSIDADE ESTADUAL PAULISTA Recursos Computacionais Antonio Martins.
Campus de Sorocaba UNIVERSIDADE ESTADUAL PAULISTA Recursos Computacionais Antonio Martins.
"Tudo o que acontece, acontece em algum lugar." Gilberto Câmara - INPE Gilberto Câmara - INPE.
"Tudo o que acontece, acontece em algum lugar."
Sistemas de Tutoria Inteligente (STI) Visam proporcionar instrução de forma adaptada a cada aprendiz. STIs adaptam o processo de instrução a determinadas.
CT-300 – Seminário de Tese 1/25 Um Framework Padrão para Simulação de Modelos de Robôs Móveis de Robôs Móveis Juliano A. Pereira Prof. Carlos H. C. Ribeiro.
Adriana da Silva Jacinto CT-282 Prof. Dr.Parente Técnicas de diagnóstico 1º semestre 2005.
Modulo Especialista.
CE-262 Ontologia e Web Semântica Prof. José M Parente de Oliveira
Segurança de Dados no MAER.
CES-41 COMPILADORES Capítulo IV Complementos de Análise Léxica.
1.3 – Interpretadores – Compiladores versus Interpretadores
CES-10 INTRODUÇÃO À COMPUTAÇÃO Capítulo XI Noções de Estruturas de Dados.
Capítulo IX – Ponteiros 9.1 – Introdução 9.2 – Relação entre ponteiros e variáveis indexadas 9.3 – Alocação dinâmica de memória 9.4 – Variáveis indexadas,
Gerenciamento de Dados Instituto Tecnológico da Aeronáutica – ITA CE-245 Tecnologias da Informação Professor Adilson Marques da Cunha Aluna: Michelle.
CE-262 Ontologia e Web Semântica Prof. José M Parente de Oliveira Sala 120 – Prédio da Computação Lógica de Descrições.
Gestão Estratégica de Pessoas para Construção de Resultados.
Tema I TEMA DE DISCUSSÃO I Prof. Dr. Marcio Lobo Netto 1 o. Período / 2004 Escola Politécnica da USP MBA EPUSP em Gestão e Engenharia do Produto EP018.
FUNDAÇÃO CARLOS CHAGAS
Implementação Do JXTA Como Protocolo De Transporte Do JacORB
Business Process Management e Workflow - jBPM Aluno: Filipe Ferraz Salgado Orientador: Francisco Reverbel Novembro 2006.
BlastPhen Aluno: Ricardo Nishikido Pereira
MAC 499 Henrico Scaranello Emprego: Nov/ Hoje Universidade Anhembi-Morumbi.
A Importância da Computação Científica Profa. Dra. Marli de Freitas Gomes Hernandez UNIVERSIDADE ESTADUAL DE CAMPINAS CENTRO.
National Center for Biotechnology Information - é uma das principais fontes de informação sobre genes e proteínas da atualidade.
Interpolação Introdução Conceito de Interpolação
Aritmética de ponto flutuante Erros
Desempenho A rápida taxa de melhoria na tecnologia de computadores veio em decorrência de dois fatores: avanços na tecnologia utilizada na construção.
UERJ - Agosto 2000© Oscar Luiz Monteiro de Farias1 Bancos de Dados Mestrado em Engenharia de Computação área de concentração Geomática.
Tecnologia para Web JavaScript Enrique Pimentel Leite de Oliveira
Recursividade Estrutura de Dados.
The Data Warehouse Toolkit
PROTEÍNAS.
LINGUAGENS DE PROGRAMAÇÃO
Internet Aula 03. Histórico Durante a guerra fria, os EUA tiveram a necessidade de interligar laboratórios que trabalhavam para os militares; Essa interligação.
Baseado no documento do Prof. Ronaldo Martins da Costa
Sistemas Operacionais e Windows XP Aula 04 – DCA0302.
Sistemas de Informação Prof. Me. Everton C. Tetila Modelo de dados relacional Banco de Dados I.
Programação Concorrente com Thread Java
Robótica: Sistemas Sensorial e Motor
Computação Gráfica Geometria de Transformações
Introdução Ciência da Computação estudo de algoritmos –ÊNFASE ao estudo de DADOS armazenamento manipulação refinamento (a partir de dados cru) estrutura.
1 Seja o resultado de um experimento aleatório. Suponha que uma forma de onda é associada a cada resultado.A coleção de tais formas de ondas formam um.
Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.
Transcrição da apresentação:

Bioinformática Alexandre L. Martins Valério A. Balani

Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas com o uso do microscópio. Bem pouco se conhecia do complexo mecanismo que se processa em nível molecular, coordenando, por meio da atividade enzimática, todo o vasto funcionamento íntimo da célula.

Introdução O DNA foi, há 50 anos atrás, a última grande revolucionária descoberta científica da humanidade, abrindo novos caminhos para o desenvolvimento das ciências da vida e para o nascimento de áreas multidisciplinares de estudo e pesquisa antes desconhecidas. Biologia Molecular Bioinformática Genômica Proteômica Engenharia Genética, ...

O que é Bioinformática? "A bioinformática é uma nova disciplina científica com raízes nas ciências da computação, na estatística e na biologia molecular. A bioinformática desenvolveu-se para enfrentar os resultados das iniciativas de seqüenciamento de genes, que produzem uma quantidade cada vez maior de dados sobre proteínas, DNA e RNA. Desse modo, os biólogos moleculares passaram a utilizar métodos estatísticos capazes de analisar grandes quantidades de dados biológicos, a predizer funções dos genes e a demonstrar relações entre genes e proteínas". Universidade de Wageningen, Holanda http://www.bioinformatica.nl

O que é Bioinformática? Dentre as características da Bioinformática, pode-se citar: O recebimento das seqüências O tratamento de seqüências e a montagem do genoma A anotação do genoma. Base para novas hipóteses

O que é Bioinformática? Bioinformática: Um ramo da Biologia Computacional que se vale de “informações” para entender a Biologia. Para tanto, ela constroi ferramentas computacionais com base em “Algoritmos” que representam o comportamento dos dados biológicos, sendo este comportamento definido pela Ciência da Computação como “Estrutura de Dados”.

O que é Bioinformática? As características funcionais da Bioinformática são: Representação, Armazenamento e Distribuição de dados Biológicos.

Qual a importância da BI para os biólogos? O que é Bioinformática? Qual a importância da BI para os biólogos? Melhor planejamento experimental, Redução de custos em P&D (homem/hora), Melhor compartilhamento de informações e Melhor Armazenamento de Informações.

O que é Bioinformática? Importância Genoma Humano: previsto para ser desenvolvido e concluído em 15 anos, foi antecipado, em cerca de 5 anos. Hoje, um novo gene, com 12 mil bases tem sua seqüência decifrada em 1 minuto, há 3 anos atrás a mesma tarefa levaria 20 minutos.

Breve Introdução aos Conceitos Computacionais da Bioinformática

Menor parte da informação que não possui um significado em si. Dado Menor parte da informação que não possui um significado em si. Exemplo: 5 6 3 4 5 6.

Estrutura de Dados Comportamento dos dados e suas características cuja determinação permite definir qual o melhor tipo de tratamento a eles se deve aplicar visando a obtenção de informação sobre estes.

Ex: 12 anos, 12 anos, 25 anos : a média dos tempos em ano é 16,3 anos. Informação Conjunto de dados organizado de maneira a possuirem um significado que descreva um objeto. Ex: 12 anos, 12 anos, 25 anos : a média dos tempos em ano é 16,3 anos.

Algoritmo Processo de cálculo em que um certo número de regras formais resolvem de forma precisa ou aproximada, na generalidade, sem exceções e de forma finita, problemas da mesma natureza.

Exemplo de Algoritmo 1. Iniciar 2. Armazene X 3. Armazene Y 4. Some X + Y 5. Apresente o resultado 6. Finalizar

Linguagem Conjunto de regras gramaticais que definem a estrutura de comunicação entre o usuário e o Sistema Computacional.

int main() { int *i; new(i); while (i != null) new(i); } Um Vírus em C int main() { int *i; new(i); while (i != null) new(i); }

Sistema Computacional Infra-estrutura na qual são feitas as implementações dos conceitos computacionais, pode ser dividido em dois conjuntos: Hardware e Software.

Infra-Estrutura específica para a BI

Sistema Operacional(SO) Software responsável pelo gerenciamento das atividades de um sistema computacional.

UNIX e GNU/LINUX Estes dois sistemas fazem parte da família X (seu criador não foi o Prof. Xavier) e têm por caracterísiticas: Confiabilidade, Multiplataforma (baixa ou alta), Multiusuário, Multitarefa, Enorme gama de comandos, Não é um sistema amigavel para iniciantes, Possui um conjunto pderoso de aplicativos, POSIX (Portable Operating System Interface), Comunidade de desenvolvedores, Escrito todo em C e Baseado em arquivos texto (.txt)

Por que X? O motivo da BI usar o Unix/Linux como SO preferêncial está no fato desse SO ter sido criado para desenvovimentos de software de alto desempenho em situações críticas, particularmente aquelas nas quais estão envovidas enormes quantidades de dados. A possibilidade de se usar um SO de alta performance em baixa platamorfa (Linux e FreeBSD) ou se valer dos Clusters que são construidos com base em Linux e fazem as vezes dos Supercomputadores. O fator “preço” também é importante, é possível usar sistemas X sem a necessidade de se pagar direitos autorais. Some a isso o perfil acadêmico destes softwares que já são amplamente usados em outras áreas como física e matemática.

Linguagem de Programação Perl e BI. A Linguagem Prática de Extração e Geração de Relatórios - The Practical Extraction and Report Language (ou Pathologically Eclectic Rubbish Lister) é uma linguagem de programação estável e multiplataforma, usada em aplicações de missão crítica em todos os setores, e é bastante usada para desenvolver aplicações web de todos os tipos, foi criada por Larry Wall em dezembro de 1987. A origem do Perl remonta ao shell scripting, Awk e à linguagem C, e está disponível para praticamente todos os sistemas operacionais, mas é usado mais comumente em sistemas Unix e compatíveis. Perl é uma das linguagens preferidas por administradores de sistema e autores de aplicações para a web. É especialmente versátil no processamento de cadeias (strings), manipulação de texto e no pattern matching implementado através de expressões regulares, além de permitir tempos de desenvolvimento curtos. A linguagem Perl já foi portada para mais de 100 diferentes plataformas, e é bastante usada em desenvolvimento web, finanças e bioinformática

Características da Linguagem Perl Perl tira as melhores características de linguagens como C, awk, sed, sh, e BASIC, entre outras. Sua interface de integração com base de dados (DBI) suporta muitos bancos de dados, incluindo Oracle, Sybase, PostgreSQL, MySQL e outros. Perl tem módulos para trabalhar com HTML, XML, e outras linguagens de markup. Perl suporta Unicode.Perl permite programação procedural e orientada a objetos. Perl pode acessar bibliotecas externas em C/C++ através de XS ou SWIG. Perl é extensível. Existem milhares de módulos disponíveis no Comprehensive Perl Archive Network (CPAN). O interpretador Perl pode ser embutido em outros sistemas.

Exemplo de código em Perl printf “Oi mundo!! \n”; Em C void main() { printf (“Oi mundo!! \n”); }

Banco de Dados Bancos de dados, (ou bases de dados), são conjuntos de dados com uma estrutura regular que organizam informação. Um banco de dados normalmente agrupa informações utilizadas para um mesmo fim. Um banco de dados é usualmente mantido e acessado por meio de um software conhecido como Sistema Gerenciador de Banco de Dados (SGBD). Normalmente um SGBD adota um modelo de dados, de forma pura, reduzida ou extendida. Muitas vezes o termo banco de dados é usado como sinônimo de SGDB. O modelo de dados mais adotado hoje em dia ó o modelo relacional, onde as estruturas têm a forma de tabelas, compostas por linhas e colunas.

Bancos de Dados Sistema de Gerenciamento de Banco de Dados MySQL Construção Manipulação Administração MySQL PostgreSQL Oracle sqlServer MySQL Gratuíto Código Aberto Acesso Veloz aos Dados

Bancos de Dados

Bancos de Dados Fonte: GOLD[TM] Genomes OnLine Database http://www.genomesonline.org/

INSDC – International Nucleotide Sequence Database Colaboration Bancos de Dados Primários: GenBank EBI-EMBL (European Bioinformatics Institut) DDBJ (DNA Data Bank of Japan) PDB (Protein Data Bank) Secundários: PIR (Protein Information Resource) SWISS-PROT INSDC – International Nucleotide Sequence Database Colaboration

Nucleic Acids Research Bancos de Dados Funcionais: KEGG (Kyoto Encyclopedia of Genes and Genomes) Mapas metabólicos de organismos com genoma completamente ou parcialmente seqüenciados Estruturais: Mantém dados sobre estrutura de proteínas Nucleic Acids Research http://www3.oup.co.uk/nar/database/

BD de Seqüências EMBL (http://www.ebi.ac.uk/embl) Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD BD de seqüências de nucleotídeos EMBL (http://www.ebi.ac.uk/embl) GenBank (http://www.ncbi.nlm.nih.gov/GenBank) DDBJ (http://www.ddbj.nig.ac.jp) UniGene (http://www.ncbi.nlm.nih.gov/UniGene) BD de seqüências de proteínas SWISS-PROT, TrEMBL (http://www.expansy.ch/sprot) PIR (http://pir.georgetown.edu) BD de motivos Pfam (http://www.sanger.ac.uk/Software/Pfam) PROSITE (http://www.expansy.ch/prosite) BD de estruturas macromoleculares 3D PDB (http://www.rcsb.org/pdb)

Usos de BD de Seqüências O que se pode descobrir sobre um gene por meio de uma busca a um BD? Informação evolutiva: genes homólogos, freqüências dos alelos, ... Informação genômica: localização no cromossomo, introns, ORFs, regiões reguladoras, ... Informação estrutural: estruturas da proteína correspondente, tipos de folds, domínios estruturais, ... Informação de expressão: expressão específica a um dado tecido, fenótipos, doenças, ... Informação funcional: função molecular/enzimática, papel em diferentes rotas, papel em doenças, ...

Busca em BD de Seqüências O que queremos saber sobre a seqüência? Ela é similar ao algum gene conhecido? Quão próximo é o melhor match? Significância? O que sabemos sobre este gene? Genômica (localização no cromossomo, regiões reguladoras, ...) Estrutural (estrutura conhecida? ...) Funcional (molecular, celular e doença) Informação evolutiva Este gene é encontrado em outros organismos? Qual é sua árvore taxonômica?

NCBI e Entrez A mais usada interface para a recuperação de informação de BD biológicos é o sistema Entrez do NCBI (http://www.ncbi.nlm.nih.gov/Entrez) NCBI (National Center for Biotechnology Information) O sistema Entrez tira vantagem do fato que há relacionamentos lógicos pré-existentes entre as entradas indíviduas encontradas em diversos BD públicos Por um exemplo, um artigo no PuBMed pode descrever o sequenciamento de um gene cuja seqüência aparece no GenBank A seqüência de nucleotídeos, por sua vez, pode codificar o produto de uma proteína cuja seqüência está armazenada em um BD de proteínas A estrutura 3D desta proteína pode ser conhecida - as coordenadas da estrutura podem aparecer em um BD de estruturas Finalmente, o gene pode ter sido mapeado para uma região específica do cromossomo - BD de mapeamento A existência dessas conexões naturais, levou ao desenvolvimento de um método por meio do qual toda a informação poderia ser encontrada sem ter que visitar sequencialmente BD distintos

Mais que NCBI Links para anotações funcionais fora do NCBI Gene Ontology - nomes padrões para: Funções moleculares Localização celular Processos Links para o BD KEGG (vias)

Alinhamento de Seqüências Possibilitar ao pesquisador determinar se duas seqüências apresentam suficiente similaridade tal que uma inferência sobre homologia possa ser justificada Homologia: significa dizer que duas (ou mais) seqüências tem um ancestral comum História evolutiva Similaridade: é uma medida da qualidade do alinhamento entre duas seqüências, baseada em algum critério Não se refere a nenhum processo histórico Apenas uma comparação das seqüências com algum método É uma afirmação logicamente mais fraca

Relação entre Seqüências

Alinhamento de Seqüências Programas mais utilizados: ClustalW Multialin FASTA Blast 2 sequences Blast On-line

Alinhamento de Seqüências Alinhamento Global e Local

Alinhamento Global e Local Seqüências são comparadas como um todo Útil quando temos seqüências que diferem pouco entre si Inclui gaps Local O alinhamento localiza fragmentos de seqüências que são mais similares Algumas vezes não inclui gaps Muitas proteínas não apresentam um padrão global de similaridade Mosaico de domínios modulares Alinhamento de seqüências de nucleotídeos de um mRNA processado (spliced) com sua seqüencia genômica (Exon/Intron)

Alinhamento de Seqüências Unidade pareada (match): + Espaços (gaps): - Não pareadas (mismatch): -

Alinhamento de Seqüências

Alinhamento de Seqüências

Alinhamento de Seqüências

Alinhamento de Seqüências

Alinhamento de Seqüências

Alinhamento de Seqüências Blast 2 Sequences

Projetos Genoma Shotgun Shotgun hierárquico

Bioinformática Montagem do genoma

Identifica e atribui valor de qualidade para cada nucleotídeo Base Calling Dados Brutos Programa de do Seqüênciador Base calling PHRED Identifica e atribui valor de qualidade para cada nucleotídeo

Base Calling PHRED Reconhece arquivos .SCF, .ABI e .MegaBACE ESD Reconhece os dados brutos do seqüenciador Atribui valores de qualidade aos nucleotídeos Gera arquivos de saída com informações sobre o basecall e os valores de qualidade (FASTA e PHD)

Base Calling Cálculo Algorítmo – Métodos de Análise de Fourier. Qualiadade: probabilidade de erro PHRED Quality -log (Pe) Ex: Valor 20 para uma posição nucleotídica significa uma chance em 100 de estar errada Valor 30 para uma posição nucleotídica significa uma chance em 1000 de estar errada

Phred – qualidade dos reads Alta qualidade Média qualidade Baixa qualidade

Mascaramento de Vetores Retirada de seqüências contaminantes: Partes de vetores de clonagens DNA adaptores Programa mais utilizado é o Cross_match

Mascaramento de Vetores

Agrupamento de Seqüências Software de montagem (Assembler) PHRAP CAP3 TIGR Assembler PHRAP Phragment Assembly Program Leitura do base call Montagem dos contigs

Agrupamento de Seqüências Pontos Chaves Uso de seqüências com alta qualidade Uso de informações de qualidade computadas internamente e fornecidas pelo usuário Informações sobre as montagens realizadas Projetos Genoma = contíguo genômico Projetos Transcriptoma = seqüências dos genes expressos

O Phrap Assembler (monta as sequencias contíguas usando as reads). Contig 1 reads Região de sobreposição Contig 2

Visualização e Montagem Progamas Phrapview ou Consed

Standen Package Pregap4

Standen Package Gap4

Standen Package Gap4

Standen Package Spin

Standen Package Trev

Fluxo de dados Sequenciador Phred Phd2fasta Cross_match Consed Phrap Indireto Cross_match Consed Phrap

Análise de Genomas Então, o que fazer com um genoma completo? Afinal, um genoma seqüenciado consiste apenas de um infinidade de bases em uma ordem definida Análise é obviamente necessária a fim de se obter informações biologicamente interessantes. A análise de um genoma cobre muitos aspectos diferentes

Anotação Gênica RepeatMasker Genscan tRNAscan-SE BLAST InterproGeneOntology GenomeScan

Definição da localização dos genes (regiões codificadoras, regiões reguladoras) Predição de genes ab initio usando software baseado em regras e padrões. Identificação de genes por meio de alinhamento com proteínas conhecidas e seqüências EST Predição de genes por meio de similaridade com proteínas e seqüências EST em outros organismos Predição de genes por meio de comparação com outros genomas Regiões conservadas são provavelmente regiões codificadoras ou reguladoras

Anotação Gênica Algorítimo gene-finder chamado BGF (BGI GeneFinder) baseado no GenScan e FgeneSH Teste com Drosophila Predição: 13.366 genes Oficial: 13.379 genes

E a Bioinformática não pára por ai...