Felipe Rodrigues da Silva Embrapa Recursos Genéticos e Biotecnologia

Slides:



Advertisements
Apresentações semelhantes
«Forte do Bom Sucesso (Lisboa) – Lápides 1, 2, 3» «nomes gravados, 21 de Agosto de 2008» «Ultramar.TerraWeb»
Advertisements

Uma abordagem para detecção e remoção de artefatos em seqüências ESTs
EVOLUÇÃO E DESAFIOS DAS EXPORTAÇÕES DE CARNES DE AVES E SUÍNOS
Palestras, oficinas e outras atividades
A busca das mulheres para alcançar seu espaço dentro das organizações
Vamos contar D U De 10 até 69 Professor Vaz Nunes 1999 (Ovar-Portugal). Nenhuns direitos reservados, excepto para fins comerciais. Por favor, não coloque.
João Lúcio de Azevedo ESALQ/USP, UMC, UCS, CBA
Investor Relations4Q07 | 1. Investor Relations4Q07 | 2 2.
Exercício do Tangram Tangram é um quebra-cabeças chinês no qual, usando 7 peças deve-se construir formas geométricas.
MISSÕES ESTADUAIS.
Nome : Resolve estas operações começando no centro de cada espiral. Nos rectângulos põe o resultado de cada operação. Comprova se no final.
Exercícios Porcentagem.
Universidade Federal de Viçosa
Curso de ADMINISTRAÇÃO
CUSTO DE PRODUÇÃO E METODOLOGIA DE FIXAÇÃO DE PREÇOS MÍNIMOS Audiência Pública Comissão de Agricultura, Pecuária, Abastecimento e Desenvovimento Rural.
PUCRS - PROGRAMA DE PÓS-GRADUAÇÃO EM PEDIATRIA E SAÚDE DA CRIANÇA Início do Mestrado: 1995 Início do Doutorado: 2004 Formou 63 Mestres e 3 doutores Conceito.
Crescimento Econômico Brasileiro : Uma Visão Comparada de Longo Prazo Prof. Giácomo Balbinotto Neto UFRGS.
cve Coordenação de Vigilância Epidemiológica
Queixas músculo-esqueléticas como causa de alto índice de absenteísmo
Michelle A. Graham, Kevin A. T. Silverstein, Steven B
ABAMEC Nacional São Paulo, 16 de maio de 2000.
Custas Processuais nos Estados Brasileiros
A Tabuada.
Quem é o jovem brasileiro?
Provas de Concursos Anteriores
MATEMÁTICA PARA NEGÓCIOS
Renda até 2 SM.
República Federativa do Brasil Reforma do Estado, Investimento e Poupança Públicos MINISTRO GUIDO MANTEGA São Paulo, 14 de setembro de 2004 I FÓRUM DE.
Indicadores do Mercado de Meios Eletrônicos de Pagamento
Diagnósticos Educativos = Diagnósticos Preenchidos 100% = 1.539
FISCALIZAÇÃO DIRECIONADA CONSERVAÇÃO - FROTA ANO II – Nº 10.
Bolha Posição de máx. W2 Ponto de Estagnação
Secretaria de Estado da Educação de Minas Gerais.
1 António Arnaut Duarte. 2 Sumário: primeiros passos;primeiros passos formatar fundo;formatar fundo configurar apresentação;configurar apresentação animação.
CATÁLOGO GÉIA PÁG. 1 GÉIA PÁG. 2 HESTIA PÁG. 3.
PROCESSOS PRINCIPAIS Alunos - Grau de Satisfação 4971 avaliações * Questões que entraram em vigor em 2011 ** N.A. = Não Aplicável Versão: 07/02/2012 INDICADORES.
LINHAS MAIS RECLAMADAS Ranking Negativo para Fiscalização Direcionada Conservação - Frota ANO IV – Nº 11.
Trabalho sobre Cor Thiago Marques Toledo.
Indicadores do Mercado de Meios Eletrônicos de Pagamento Setembro de 2006.
Indicadores do Mercado
1 Indicadores do Mercado de Meios Eletrônicos de Pagamento Dezembro de 2006.
LINHAS MAIS RECLAMADAS Ranking Negativo para Fiscalização Direcionada Nível de Serviço ANO II – Nº 06.
LINHAS MAIS RECLAMADAS Ranking Negativo para Fiscalização Direcionada Conservação - Frota ANO IV – Nº 12.
FISCALIZAÇÃO DIRECIONADA CONDUTA - AUXILIAR ANO III – Nº 05.
FISCALIZAÇÃO DIRECIONADA NÍVEL DE SERVIÇO ANO I – Nº 7.
FISCALIZAÇÃO DIRECIONADA CONSERVAÇÃO - FROTA ANO III – Nº 11.
FISCALIZAÇÃO DIRECIONADA NÍVEL DE SERVIÇO ANO I – Nº 9.
FISCALIZAÇÃO DIRECIONADA CONDUTA - AUXILIAR ANO III – Nº 02.
FISCALIZAÇÃO DIRECIONADA NÍVEL DE SERVIÇO ANO I – Nº 4.
FISCALIZAÇÃO DIRECIONADA NÍVEL DE SERVIÇO ANO II – Nº 01.
FISCALIZAÇÃO DIRECIONADA CONSERVAÇÃO - FROTA ANO IV – Nº 05.
Funcionários - Grau de Satisfação 2096 avaliações
PERFIL DOS BENEFICIÁRIOS E NÃO-BENEFICIÁRIOS DO PROGRAMA BOLSA FAMÍLIA EM TERMOS DE MERCADO DE TRABALHO: CONSIDERAÇÕES METODOLÓGICAS E SUBSTANTIVAS Alessandra.
Tributação da Exportação nas Empresas optantes pelo Simples Nacional
Projeto Marcas que Eu Gosto 1 PROJETO MARCAS QUE EU GOSTO Estudos Quantitativo de Consumidores Janeiro / 2005.
Marca do evento Omer Pohlmann Filho Coordenador Geral da RBMLQ-I - Cored Investimento RBMLQ-I Extra Limite.
Núcleo de Estatística e Gestão Estratégica- NEGEST.
Projeto Medindo minha escola.
NOVOS CONCEITOS DE DEPRECIAÇÃO PARA MÁQUINA E EQUIPAMENTOS
Cruz Alta Nossa Velha - Nova Parte 51 CRUZ ALTA VISTA DO ESPAÇO – Parte
LINHAS MAIS RECLAMADAS Ranking Negativo para Fiscalização Direcionada Conduta - Auxiliar ANO V – Nº 04.
1 2 Observa ilustração. Cria um texto. Observa ilustração.
Ano III Fevereiro de 2010 Balanço Brasil - Estoque inicial, produção, importação, suprimento, consumo e exportação brasileira (Milhões de t). Balanço Mundial.
CONCEITOS FUNDAMENTAIS
Olhe fixamente para a Bruxa Nariguda
LINHAS MAIS RECLAMADAS Ranking Negativo para Fiscalização Direcionada Nível de Serviço ANO III – Nº 09.
3ª PESQUISA DE REMUNERAÇÃO
Equipe Bárbara Régis Lissa Lourenço Lucas Hakim Ricardo Spada Coordenador: Gabriel Pascutti.
LEILÃO nº 3/2014 Dia 12 de setembro, às 14 horas.
AM020C A interface entre Meio Ambiente, Sociedade e Economia Indicadores de produtividade e empregabilidade da agricultura do Brasil. Aluna Andressa Santos.
Transcrição da apresentação:

Felipe Rodrigues da Silva Embrapa Recursos Genéticos e Biotecnologia SUCEST: o projeto genoma da cana-de-açúcar. Felipe Rodrigues da Silva Embrapa Recursos Genéticos e Biotecnologia

Volume de dados disponíveis publicamente

Volume de dados disponíveis publicamente http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html

Genomas completos de organismos http://wit.integratedgenomics.com/GOLD/

SOPÃO de letrinhas... A T G C

Cana-de-açúcar Cultivada em mais de 90 países Ocupando cerca de 20 milhões de hectares Família das Gramíneas (Poace) Sugarcane is an important industrial crop of tropical and subtropical regions cultivated in more than 90 countries over close to 20 millions hectares (FAO - http://apps.fao.org). It belongs to the grass family (Poaceae), an economically important seed plant family that includes cereals like maize, wheat, rice and sorghum as well as many forage crops. http://apps.fao.org

A cana-de-açúcar no Brasil 25% da produção mundial 300 milhões de tons. 5 milhões de hectares plantados 14.5 milhões de tons. de açúcar 15.3 bilhões de litros de álcool 350 industrias 50 mil produtores 1.4 milhões de empregos direto 3.6 milhões de empregos indiretos

S. berberi, S. sinence, S. robustum Origem e tamanho Saccharum officinarum 2n = 80 X Saccharum spontaneum 2n = 64 ou 2n = 112 10 – 25% S. berberi, S. sinence, S. robustum 2C = 7.440 Mbp 2n = 100-130 D'Hont, A. and Glaszmann, J. C. 2001. Proc Int Soc Sugarcane Technol 24: 556-559. conjunto não-reduntante = 930 Mbp Sorgo = 760 Mbp Arroz = 430 Mbp The non-replicated genome size of a somatic sugarcane cell (2C) is estimated to be 7,440 mega base-pairs (Mbp) in S. officinarum. Since S. officinarum is octaploid, the size of a complete nonredundant chromosome set should be eight-fold smaller, around 930-Mbp (D'Hont and Glaszmann 2001) This value is comparable to that of sorghum (~ 760-Mbp) and about twice that of rice (~ 430-Mbp) D'Hont, A. and Glaszmann, J. C. 2001. Sugarcane genome analysis with molecular markers, a first decade of research. Proc Int Soc Sugarcane Technol 24: 556-559.

Projeto Genoma Estrutural Funcional Seqüenciamento Completo do Genoma Região Gênica e Região Intergênica EST – Expressed Sequence Tag Regiões que codificam proteínas (Genes)

Seqüenciamento Completo Biblioteca de BACs Mapa físico Genomic DNA BAC a ser seqüenciado Clones Shotgun ...ATGTTGGGCCACAGTTGACCATTGAAACTG Seqüência GTTGACCATTGAAACTGACCTTGACGTAACGTGGTA.... ...ATGTTGGGCCACAGTTGACCATTGAAACTGACCTTGACGTAACGTGGTA... Montagem

EST – Expressed Sequence Tag Dogma Central da Biologia ACCTGATGGCATTTCCATCAAGCTGACCTGGAAATCGTTGGCC DNA gene B gene A cDNA 3´ 5´ mRNA Proteína NH2 COOH inserção em vetor Clonagem em E. coli Seqüenciamento

GenBank - dbEST Março de 1998 Total de Entradas 1,528,715 Homo sapiens 967,015 (63,4%) Plantas (total) 73,087 (4.8%) Mus musculus + domesticus (camundongo) 306,544 Caenorhabditis elegans 72,521 Arabidopsis thaliana 36,173 Drosophila melanogaster 27,625 Oryza sativa (arroz) 25,844 Rattus sp. (rato) 20,311 Brugia malayi (nematoide parasita) 13,641 Toxoplasma gondii 10,671 Emericella nidulans 5,787 Schistosoma mansoni 3,659 Trypanosoma brucei rhodesiense 3,519 Danio rerio (zebrafish) 3,373 Saccharomyces cerevisiae 3,042 Zea mays (milho) 1,783 Leishmania major 1,692 Saccharum sp. 495 Outros ~ 20,000 http://www.ncbi.nlm.nih.gov/dbEST/dbEST_summary.html

Os Objetivos do projeto SUCEST Identificar 50.000 genes únicos (ou seqüenciar 300.000 ESTs) Desenvolver um Banco de Dados para a cana-de-açúcar Disponibiilizar este Banco de Dados para grupos de Data Mining Análise funcional dos ESTs

O Cronograma Data Meta Jul/1999 Distribuição dos Primeiros Clones Dec/1999 20,000 ESTs Jul/2000 60,000 ESTs Dec/2000 100,000 ESTs Jul/2001 140,000 ESTs Dec/2001 180,000 ESTs Jul/2002 220,000 ESTs Dec/2002 260,000 ESTs Jul/2003 300,000 ESTs

As Bibliotecas de cDNA Tecidos / Órgãos Variedades Raiz Meristema Caule Sementes Flores Cartucho da Folha Zona de Transição Folha-Raiz Gema Lateral Calli Plântulas imaturas Plântulas infectadas com Herbaspirillum rubrisubalbicans Plântulas infectadas com Gluconacetobacter diazotroficans Variedades SP80-3280 SP70-1143 SP80-87432 RB 845298 RB 805028 PB5211 X P57150-4

Os Laboratórios de Seqüenciamento UNIVAP (SJ) (1) UNESP (JB) (2) UFSCAR (AR) ESALQ (PI) (3) USP (RP) (1) IAC (CA) (1) UFSCAR (SC) (1) BIOINFORMATICA UNICAMP (CA) UNICAMP (CA) (1) UMC (MC) (1) USP (SP) (3) IAC (CO) (1) UNESP (BT) (2) UNESP (RC) (1) UNAERP (RP) (1) USP (SC) (1) ABI 377-96 PERNAMBUCO ALAGOAS RIO DE JANEIRO

EST – Expressed Sequence Tag Dogma Central da Biologia ACCTGATGGCATTTCCATCAAGCTGACCTGGAAATCGTTGGCC DNA gene B gene A cDNA 3´ 5´ mRNA Proteína NH2 COOH inserção em vetor Library Status Date Qtd.Plates Qtd.Reads LR1 START 6/6/99 15:49 143 14036 CL1 TEST 21/7/99 16:23 2 256 CL2 TEST 21/7/99 16:24 1 96 LR2 START 2/9/99 15:40 41 4105 RZ1 START 2/9/99 15:44 29 3168 CL4 START 14/10/99 16:09 17 1632 CL3 START 18/10/99 13:18 8 1056 RZ2 START 22/10/99 10:30 54 5760 LB1 START 19/11/99 10:53 78 7488 RT1 START 8/12/99 11:39 78 8640 RT2 START 23/12/99 12:59 117 12288 CL5 TEST 27/1/00 11:12 6 576 ST2 TEST 27/1/00 11:13 4 384 ST1 START 4/2/00 14:37 78 8448 CL6 START 4/2/00 14:39 77 7392 CL7 TEST 1 4/2/00 17:46 9 864 AM1 START 23/2/00 15:08 117 12480 HR1 START 29/2/00 15:05 104 12000 AM2 START 16/3/00 12:15 144 15648 RZ3 START 21/3/00 11:14 141 15168 ST3 START 5/4/00 12:28 116 11930 AD1 START 3/5/00 17:19 156 18137 SB1 START 3/5/00 17:46 156 16318 FL1 START 16/5/00 10:51 156 18523 FL4 START 24/5/00 12:24 156 16885 FL3 START 8/6/00 17:57 104 13056 FL5 START 14/6/00 10:31 104 10080 RT3 START 28/7/00 10:25 103 10559 LB2 START 28/7/00 10:29 103 10559 SD1 START 21/8/00 11:23 102 11040 SD2 START 21/8/00 12:25 103 10366 FL8 START 30/8/00 18:17 74 5167 LV1 START 30/8/00 18:22 74 6432 FL6 START 31/8/00 15:24 4 288 NR1 START 29/9/00 14:51 4 384 NR2 START 29/9/00 14:52 4 384 FL2 START 3/1/01 12:53 4 96 clones 384 placas 3012 277653 Clonagem em E. coli Seqüenciamento 266.016 clones 291.689 reads 260.352 clones

Limpeza das seqüências remoção de seqüências ribossômicas remoção de seqüências de vetor remoção da região de poliA corte por qualidade eliminação das derrapagens

poliA AGGGGAGAATTTATGATCCCCTAGTACACCCGGCAGGACCGGTCCGGAATTCCCCGGTCGACCCAC GCGTCCGCTACAACAACAGCAGCAGCTTCCATTTACCTTGTCGGCTGTTGCAACCGCTGCTGCCTA CCACCAGCAACTACAGCTGCTACCAGTTAACCCATTGGCACTGGCTAACCCATTGGCTGCTGCCTT CCTGCAGCAGCAACAATTGCTGCCATTCAACCAGATGTCTTTGATGAACCCTGCCTTGTCGTGGTA GCAACCCATCGTTGGAGGTGCCATCTTCTAGAATACAAATGAGTTGTACTTGATAACAATGTTCTT GTGTCGGCGTGTGCAACTTCCCAGAAATAATCAATACATTGATTGAGATTTANAAAAAAAAAAAAA AAAAAAAAAAAAAAAAAAAAAAAATATAATTAAAATAAAAAAATTTATAAAAAAAAAAAAATAATT TTTTTTTATAAAAAATAAATATAAAATAAAAAGGGGGGGCCGTTTTAAAGGAACAAAGTTTAAGAC CGGGGGTATGAAAGGGAAAATTTTTTTATATAGGGCCCCAAAATTAAATACATGGGCCGGTGTTAA CAACGGCGGGAGGGAAAAAACCTGGGGGTTACCAATTTAAAGCCGTGGAAAAAATCCCTTTTTTCA AGTGGGGTAAAAAGAAAAGGCCCCACCCATCGCCCTTCCAAAAATTGCCCCCCTTAAAGGAAAAAG GACACCCCCTTTTGGGCGCATATAACCGGGGGGGTGGGGGTACCCCCAAGGGAACTTATATTTTTC AGGCCTCATAGCCCTTTTTTTTTTTTTTTTTTTTTTTTTCAAGGTAGCGGGTTTCCCAGGAAAATT AAAAGGGGGGTCCTTTTGGGTAATAATGTTTTN

poliA AGGGGAGAATTTATGATCCCCTAGTACACCCGGCAGGACCGGTCCGGAATTCCCCGGTCGACCCAC GCGTCCGCTACAACAACAGCAGCAGCTTCCATTTACCTTGTCGGCTGTTGCAACCGCTGCTGCCTA CCACCAGCAACTACAGCTGCTACCAGTTAACCCATTGGCACTGGCTAACCCATTGGCTGCTGCCTT CCTGCAGCAGCAACAATTGCTGCCATTCAACCAGATGTCTTTGATGAACCCTGCCTTGTCGTGGTA GCAACCCATCGTTGGAGGTGCCATCTTCTAGAATACAAATGAGTTGTACTTGATAACAATGTTCTT GTGTCGGCGTGTGCAACTTCCCAGAAATAATCAATACATTGATTGAGATTTANAAAAAAAAAAAAA AAAAAAAAAAAAAAAAAAAAAAAATATAATTAAAATAAAAAAATTTATAAAAAAAAAAAAATAATT TTTTTTTATAAAAAATAAATATAAAATAAAAAGGGGGGGCCGTTTTAAAGGAACAAAGTTTAAGAC CGGGGGTATGAAAGGGAAAATTTTTTTATATAGGGCCCCAAAATTAAATACATGGGCCGGTGTTAA CAACGGCGGGAGGGAAAAAACCTGGGGGTTACCAATTTAAAGCCGTGGAAAAAATCCCTTTTTTCA AGTGGGGTAAAAAGAAAAGGCCCCACCCATCGCCCTTCCAAAAATTGCCCCCCTTAAAGGAAAAAG GACACCCCCTTTTGGGCGCATATAACCGGGGGGGTGGGGGTACCCCCAAGGGAACTTATATTTTTC AGGCCTCATAGCCCTTTTTTTTTTTTTTTTTTTTTTTTTCAAGGTAGCGGGTTTCCCAGGAAAATT AAAAGGGGGGTCCTTTTGGGTAATAATGTTTTN

Quality trimming 754 bases CGGAAGACTGGAGTCGTCGCTGCGGCACCGGTCCGGAATTCCCGGGTCGACCCACGCGTCCGGCCG CCGCCACCGCATCCCTTGCAGCCCCAATCCCCCACGGCGACCATGGCCGGCGCGCAGGAGTCCCTG TCCCTGGTGGGCACGATGCGTGGCCACAACGGCGAGGTGACGGCGATCGCCACCCCGATCGACAAC TCGCCGTTCATCGTCTCCTCCTCCCGCGACAAGTCCGTGCTGGTGTGGGACCTGCAAAACCCGGTC CACTCCACCCCGGAATCCGGCGCCACCGCCGACTACGGCGTCCCCTTCCGCCGCCTCACCGGCCAC TCCCACTTCGTCCAGGACGTCGTCCTCAGCTCCGACGGCCAGTTCGCCCTCTCCGGCTCCTGGGAC GGCGAGCTCCGCCTCTGGGACCTCTCCACCGGCGTCACCACCCGCCGCTTCGTCGGCCACGAGAAG GACGTCCTCTCCGTCGCCTTCTCCGTCGACAACCGCCAGATCGTCTCCGCGTCCCGCGACAAGACC ATCAAGCTCTGGAACACCCTCGGTGAGTGCAAGTACACCATTGGTGGCGACCTCGGCGGCGGGGAG GGCCACAACGGGTGGGTCTCCTGCGTCAGGTTCTTCCCCAACACCTTTCAGGCCACCATTGTCTCC GGATTCTGGGACCGCACCGTCAGGTCTGGAACCTTACCAACTGCAAGCTGCGATGCACTCTCGATG CCCACGCGGCTATGTTAACGCCGTCGCC ACGTX: <10 ACGTX: >=10 and <15 ACGTX: >=15 and <20 ACGTX: >=20 and <25 ACGTX: >=25 and <30 ACGTX: >=30 754 bases

Quality trimming 753 bases CGGAAGACTGGAGTCGTCGCTGCGGCACCGGTCCGGAATTCCCGGGTCGACCCACGCGTCCGGCCG CCGCCACCGCATCCCTTGCAGCCCCAATCCCCCACGGCGACCATGGCCGGCGCGCAGGAGTCCCTG TCCCTGGTGGGCACGATGCGTGGCCACAACGGCGAGGTGACGGCGATCGCCACCCCGATCGACAAC TCGCCGTTCATCGTCTCCTCCTCCCGCGACAAGTCCGTGCTGGTGTGGGACCTGCAAAACCCGGTC CACTCCACCCCGGAATCCGGCGCCACCGCCGACTACGGCGTCCCCTTCCGCCGCCTCACCGGCCAC TCCCACTTCGTCCAGGACGTCGTCCTCAGCTCCGACGGCCAGTTCGCCCTCTCCGGCTCCTGGGAC GGCGAGCTCCGCCTCTGGGACCTCTCCACCGGCGTCACCACCCGCCGCTTCGTCGGCCACGAGAAG GACGTCCTCTCCGTCGCCTTCTCCGTCGACAACCGCCAGATCGTCTCCGCGTCCCGCGACAAGACC ATCAAGCTCTGGAACACCCTCGGTGAGTGCAAGTACACCATTGGTGGCGACCTCGGCGGCGGGGAG GGCCACAACGGGTGGGTCTCCTGCGTCAGGTTCTTCCCCAACACCTTTCAGGCCACCATTGTCTCC GGATTCTGGGACCGCACCGTCAGGTCTGGAACCTTACCAACTGCAAGCTGCGATGCACTCTCGATG CCCACGCGGCTATGTTAACGCCGTCGC 753 bases ACGTX: <10 ACGTX: >=10 and <15 ACGTX: >=15 and <20 ACGTX: >=20 and <25 ACGTX: >=25 and <30 ACGTX: >=30

Quality trimming 618 bases CGGAAGACTGGAGTCGTCGCTGCGGCACCGGTCCGGAATTCCCGGGTCGACCCACGCGTCCGGCCG CCGCCACCGCATCCCTTGCAGCCCCAATCCCCCACGGCGACCATGGCCGGCGCGCAGGAGTCCCTG TCCCTGGTGGGCACGATGCGTGGCCACAACGGCGAGGTGACGGCGATCGCCACCCCGATCGACAAC TCGCCGTTCATCGTCTCCTCCTCCCGCGACAAGTCCGTGCTGGTGTGGGACCTGCAAAACCCGGTC CACTCCACCCCGGAATCCGGCGCCACCGCCGACTACGGCGTCCCCTTCCGCCGCCTCACCGGCCAC TCCCACTTCGTCCAGGACGTCGTCCTCAGCTCCGACGGCCAGTTCGCCCTCTCCGGCTCCTGGGAC GGCGAGCTCCGCCTCTGGGACCTCTCCACCGGCGTCACCACCCGCCGCTTCGTCGGCCACGAGAAG GACGTCCTCTCCGTCGCCTTCTCCGTCGACAACCGCCAGATCGTCTCCGCGTCCCGCGACAAGACC ATCAAGCTCTGGAACACCCTCGGTGAGTGCAAGTACACCATTGGTGGCGACCTCGGCGGCGGGGAG GGCCACAACGGGTGGGTCTCCTGCGT 618 bases ACGTX: <10 ACGTX: >=10 and <15 ACGTX: >=15 and <20 ACGTX: >=20 and <25 ACGTX: >=25 and <30 ACGTX: >=30

Resultado de blastX read trimmado >gi|1346109|sp|P49027|GBLP_ORYSA GUANINE NUCLEOTIDE-BINDING PROTEIN BETA SUBUNIT-LIKE PROTEIN (GPB-LR) (RWD) pir||T03764 protein RWD - rice dbj|BAA07404.1| (D38231) RWD [Oryza sativa] Length = 334 Score = 315 bits (798), Expect = 4e-85 Identities = 150/170 (88%), Positives = 156/170 (91%) Frame = +1 Query: 109 MAGAQESLSLVGTMRGHNGEVTAIATPIDNSPFIVSSSRDKSVLVWDLQNPVHSTPESGA 288 MAGAQESL L G M GHN VTAIATPIDNSPFIVSSSRDKS+LVWDL NPV + E Sbjct: 1 MAGAQESLVLAGVMHGHNDVVTAIATPIDNSPFIVSSSRDKSLLVWDLTNPVQNVGEGAG 60 Query: 289 TADYGVPFRRLTGHSHFVQDVVLSSDGQFALSGSWDGELRLWDLSTGVTTRRFVGHEKDV 468 ++YGVPFRRLTGHSHFVQDVVLSSDGQFALSGSWDGELRLWDLSTGVTTRRFVGH+KDV Sbjct: 61 ASEYGVPFRRLTGHSHFVQDVVLSSDGQFALSGSWDGELRLWDLSTGVTTRRFVGHDKDV 120 Query: 469 LSVAFSVDNRQIVSASRDKTIKLWNTLGECKYTIGGDLGGGEGHNGWVSC 618 LSVAFSVDNRQIVSASRD+TIKLWNTLGECKYTIGGDLGGGEGHNGWVSC Sbjct: 121 LSVAFSVDNRQIVSASRDRTIKLWNTLGECKYTIGGDLGGGEGHNGWVSC 170

Resultado de blastX read inteiro >gi|1346109|sp|P49027|GBLP_ORYSA GUANINE NUCLEOTIDE-BINDING PROTEIN BETA SUBUNIT-LIKE PROTEIN (GPB-LR) (RWD) pir||T03764 protein RWD - rice dbj|BAA07404.1| (D38231) RWD [Oryza sativa] Length = 334 Score = 352 bits (893), Expect(2) = e-100 Identities = 168/192 (87%), Positives = 175/192 (90%) Frame = +1 Query: 109 MAGAQESLSLVGTMRGHNGEVTAIATPIDNSPFIVSSSRDKSVLVWDLQNPVHSTPESGA 288 MAGAQESL L G M GHN VTAIATPIDNSPFIVSSSRDKS+LVWDL NPV + E Sbjct: 1 MAGAQESLVLAGVMHGHNDVVTAIATPIDNSPFIVSSSRDKSLLVWDLTNPVQNVGEGAG 60 Query: 289 TADYGVPFRRLTGHSHFVQDVVLSSDGQFALSGSWDGELRLWDLSTGVTTRRFVGHEKDV 468 ++YGVPFRRLTGHSHFVQDVVLSSDGQFALSGSWDGELRLWDLSTGVTTRRFVGH+KDV Sbjct: 61 ASEYGVPFRRLTGHSHFVQDVVLSSDGQFALSGSWDGELRLWDLSTGVTTRRFVGHDKDV 120 Query: 469 LSVAFSVDNRQIVSASRDKTIKLWNTLGECKYTIGGDLGGGEGHNGWVSCVRFFPNTFQA 648 LSVAFSVDNRQIVSASRD+TIKLWNTLGECKYTIGGDLGGGEGHNGWVSCVRF PNTFQ Sbjct: 121 LSVAFSVDNRQIVSASRDRTIKLWNTLGECKYTIGGDLGGGEGHNGWVSCVRFSPNTFQP 180 Query: 649 TIVSGFWDRTVR 684 TIVSG WDRTV+ Sbjct: 181 TIVSGSWDRTVK 192

Determinação do limiar de qualidade

Quality trimming 754 bases CGGAAGACTGGAGTCGTCGCTGCGGCACCGGTCCGGAATTCCCGGGTCGACCCACGCGTCCGGCCG CCGCCACCGCATCCCTTGCAGCCCCAATCCCCCACGGCGACCATGGCCGGCGCGCAGGAGTCCCTG TCCCTGGTGGGCACGATGCGTGGCCACAACGGCGAGGTGACGGCGATCGCCACCCCGATCGACAAC TCGCCGTTCATCGTCTCCTCCTCCCGCGACAAGTCCGTGCTGGTGTGGGACCTGCAAAACCCGGTC CACTCCACCCCGGAATCCGGCGCCACCGCCGACTACGGCGTCCCCTTCCGCCGCCTCACCGGCCAC TCCCACTTCGTCCAGGACGTCGTCCTCAGCTCCGACGGCCAGTTCGCCCTCTCCGGCTCCTGGGAC GGCGAGCTCCGCCTCTGGGACCTCTCCACCGGCGTCACCACCCGCCGCTTCGTCGGCCACGAGAAG GACGTCCTCTCCGTCGCCTTCTCCGTCGACAACCGCCAGATCGTCTCCGCGTCCCGCGACAAGACC ATCAAGCTCTGGAACACCCTCGGTGAGTGCAAGTACACCATTGGTGGCGACCTCGGCGGCGGGGAG GGCCACAACGGGTGGGTCTCCTGCGTCAGGTTCTTCCCCAACACCTTTCAGGCCACCATTGTCTCC GGATTCTGGGACCGCACCGTCAGGTCTGGAACCTTACCAACTGCAAGCTGCGATGCACTCTCGATG CCCACGCGGCTATGTTAACGCCGTCGCC ACGTX: <10 ACGTX: >=10 and <15 ACGTX: >=15 and <20 ACGTX: >=20 and <25 ACGTX: >=25 and <30 ACGTX: >=30 754 bases

Quality trimming 618 bases CGGAAGACTGGAGTCGTCGCTGCGGCACCGGTCCGGAATTCCCGGGTCGACCCACGCGTCCGGCCG CCGCCACCGCATCCCTTGCAGCCCCAATCCCCCACGGCGACCATGGCCGGCGCGCAGGAGTCCCTG TCCCTGGTGGGCACGATGCGTGGCCACAACGGCGAGGTGACGGCGATCGCCACCCCGATCGACAAC TCGCCGTTCATCGTCTCCTCCTCCCGCGACAAGTCCGTGCTGGTGTGGGACCTGCAAAACCCGGTC CACTCCACCCCGGAATCCGGCGCCACCGCCGACTACGGCGTCCCCTTCCGCCGCCTCACCGGCCAC TCCCACTTCGTCCAGGACGTCGTCCTCAGCTCCGACGGCCAGTTCGCCCTCTCCGGCTCCTGGGAC GGCGAGCTCCGCCTCTGGGACCTCTCCACCGGCGTCACCACCCGCCGCTTCGTCGGCCACGAGAAG GACGTCCTCTCCGTCGCCTTCTCCGTCGACAACCGCCAGATCGTCTCCGCGTCCCGCGACAAGACC ATCAAGCTCTGGAACACCCTCGGTGAGTGCAAGTACACCATTGGTGGCGACCTCGGCGGCGGGGAG GGCCACAACGGGTGGGTCTCCTGCGT 618 bases ACGTX: <10 ACGTX: >=10 and <15 ACGTX: >=15 and <20 ACGTX: >=20 and <25 ACGTX: >=25 and <30 ACGTX: >=30

Quality trimming CGGAAGACTGGAGTCGTCGCTGCGGCACCGGTCCGGAATTCCCGGGTCGACCCACGCGTCCGGCCG CCGCCACCGCATCCCTTGCAGCCCCAATCCCCCACGGCGACCATGGCCGGCGCGCAGGAGTCCCTG TCCCTGGTGGGCACGATGCGTGGCCACAACGGCGAGGTGACGGCGATCGCCACCCCGATCGACAAC TCGCCGTTCATCGTCTCCTCCTCCCGCGACAAGTCCGTGCTGGTGTGGGACCTGCAAAACCCGGTC CACTCCACCCCGGAATCCGGCGCCACCGCCGACTACGGCGTCCCCTTCCGCCGCCTCACCGGCCAC TCCCACTTCGTCCAGGACGTCGTCCTCAGCTCCGACGGCCAGTTCGCCCTCTCCGGCTCCTGGGAC GGCGAGCTCCGCCTCTGGGACCTCTCCACCGGCGTCACCACCCGCCGCTTCGTCGGCCACGAGAAG GACGTCCTCTCCGTCGCCTTCTCCGTCGACAACCGCCAGATCGTCTCCGCGTCCCGCGACAAGACC ATCAAGCTCTGGAACACCCTCGGTGAGTGCAAGTACACCATTGGTGGCGACCTCGGCGGCGGGGAG GGCCACAACGGGTGGGTCTCCTGCGTCAGGTTCTTCCCCAACACCTTTCAGGCCACCATTGTCTCC GGATTCTGGGACCGCACCGTCAGGTCTGGAACCTTACCAACTGCAAGCTGCGATGCACTCTCGATG CCCACGCGGCTATGTTAACGCCGTCGCC ACGTX: <10 ACGTX: >=10 and <15 ACGTX: >=15 and <20 ACGTX: >=20 and <25 ACGTX: >=25 and <30 ACGTX: >=30 base 684

Quality trimming 719 bases 618 684 719 - 66 + 35 CGGAAGACTGGAGTCGTCGCTGCGGCACCGGTCCGGAATTCCCGGGTCGACCCACGCGTCCGGCCG CCGCCACCGCATCCCTTGCAGCCCCAATCCCCCACGGCGACCATGGCCGGCGCGCAGGAGTCCCTG TCCCTGGTGGGCACGATGCGTGGCCACAACGGCGAGGTGACGGCGATCGCCACCCCGATCGACAAC TCGCCGTTCATCGTCTCCTCCTCCCGCGACAAGTCCGTGCTGGTGTGGGACCTGCAAAACCCGGTC CACTCCACCCCGGAATCCGGCGCCACCGCCGACTACGGCGTCCCCTTCCGCCGCCTCACCGGCCAC TCCCACTTCGTCCAGGACGTCGTCCTCAGCTCCGACGGCCAGTTCGCCCTCTCCGGCTCCTGGGAC GGCGAGCTCCGCCTCTGGGACCTCTCCACCGGCGTCACCACCCGCCGCTTCGTCGGCCACGAGAAG GACGTCCTCTCCGTCGCCTTCTCCGTCGACAACCGCCAGATCGTCTCCGCGTCCCGCGACAAGACC ATCAAGCTCTGGAACACCCTCGGTGAGTGCAAGTACACCATTGGTGGCGACCTCGGCGGCGGGGAG GGCCACAACGGGTGGGTCTCCTGCGTCAGGTTCTTCCCCAACACCTTTCAGGCCACCATTGTCTCC GGATTCTGGGACCGCACCGTCAGGTCTGGAACCTTACCAACTGCAAGCTGCGATGCACTCTCGATG CCCACGCGGCTATGTTAACGCCGTCGCC 719 bases antes dif. homol. depois 618 - 66 684 + 35 719

Determinação do limiar de qualidade

Exemplo de derrapagem

399.5 ±161.3 # médio bases >= 20/read todos os reads 291,689 reads 864.5 ±186.3 comprimento médio 399.5 ±161.3 # médio bases >= 20/read 283,216 reads remoção de ribossômicos 283,216 reads busca de vetores 275,436 reads corte de vector + poliA 273,728 reads corte por qualidade 273,728 reads corte de vetores em extremidade 258,107 reads corte de derrapagens 256,101 reads corte de poliA em extremidade reads trimados 237,954 reads 642.6 ±139.8 avg. read size 397.8 ±120.1 avg bases >= 20/read remoção de seqs de baixa qualidade

total 69381 25222 49706 22425 43141 23805 17748 cluster size (reads) HS X phrap CAP3 X HS total common 1 32202 13731 18535 11634 16838 14296 10744 2 12440 5617 9207 4869 7665 4852 3792 3 6752 2402 5192 2151 4193 1984 1441 4 4225 1239 3329 1145 2709 992 697 5 2856 676 2360 700 1872 521 344 6 2098 442 1806 482 1452 354 231 7 1582 288 1362 317 1115 220 144 8 1245 202 1091 242 862 153 99 9 974 156 913 186 720 113 72 10 776 105 752 143 634 74 44 11 639 76 607 511 54 30 12 492 71 547 429 46 32 13 437 47 454 90 400 40 25 14 366 42 391 341 26 15 306 31 390 50 295 18 16 273 279 35 275 17 225 23 235 177 227 191 19 124 176 >=20 1192 1814 87 2228 total 69381 25222 49706 22425 43141 23805 17748

Discrepância interna >gi|169818|gb|M11585.1|RICRGHA Rice 25S ribosomal RNA gene Length = 3377 Score = 1011 bits (510), Expect = 0.0 Identities = 540/550 (98%) Strand = Plus / Plus

Discrepância interna >gi|7489475|pir||T03241 G-box binding factor 1A - rice >gi|435942|gb|AAC49556.1| (U04295) DNA-binding factor of bZIP class [Oryza sativa] Length = 390

Teste de consistência interna

Teste de consistência interna

Teste de consistência interna

Teste de consistência externa

Teste de consistência externa

Teste de consistência externa

Números totais Total sequences 291,689 cDNA clones sequenced (5’or 3’) 260,352 5’ end sequences 259,325 3’ end sequences 32,364 Total high-quality sequences 237,954 Success index (%) 81.6 Average insert size (bp) 1,250 Average sequence size (bp) 864 / 642 Bases with phred quality = 20/read 399

Números totais Trotal sequences analyzed 237,954 Number of contigs 26,803 Number of singletons 16,338 Number of sugarcane assembled sequences (SAS) 43,141 Number of assembled sequences matching to known genes 27,833 (64.5%) Number of clones with full length inserts 14,409 (

Contribuição específica por biblioteca Número de ESTs SAS contigs singletons % contribuição AD1 8,137 1,474 1,200 3.4 AM1 5,991 841 664 1.9 AM2 6,629 982 705 2.3 CL6 3,511 595 467 1.4 FL1 8,412 1,753 1,465 4.1 FL3 5,714 840 667 FL4 7,289 1,082 886 2.5 FL5 5,115 861 744 2.0 FL8 3,362 378 337 0.9 HR1 5,070 717 519 1.7 LB1 3,699 459 369 1.1 LB2 5,402 790 650 1.8 LR1 6,653 984 819 LR2 2,329 299 254 0.7 LV1 3,068 384 327 RT1 4,227 569 484 1.3 RT2 5,819 942 728 2.2 RT3 4,356 614 478 RZ1 2,012 205 175 0.5 RZ2 3,177 385 301 RZ3 6,528 929 752 2.1 SB1 7,407 1,313 1,132 3.0 SD1 4,459 792 642 SD2 4,099 857 632 ST1 4,359 645 523 1.5 ST3 4,519 507 418 1.2 Contribuição específica por biblioteca 47% dos SAS são formados por reads oriúndos de uma única biblioteca 38% dos SAS tecido-especícos são singletons

Classificação funcional Examination of the primary BLAST matches revealed 3 major groups of SAS with varying potential to predict their cellular function, SAS in the first group. matching sequences of known proteins with strong and nominal similarity. are likely to be transcripts of genes with similar functions (15.466 SAS; 36%), The function of the BLAST match was used to assign cellular roles to this group, The second class is formed by 15% of the total SAS (6.614 or 24,9% of the categorized SAS in Figure 1) and this group matched to ‘unknown protein’. ‘hypothetical protein’ or ‘putative protein’ with no indication of the function of the gene product, Most of these were ESTs from other species that had been entered into the GenBank non-redundant database, In the third group are the 15.308 SAS (35.6% of the total SAS) with no matches in the GenBank nr database, Almost 50% of all SAS annotated in the SUCEST are associated with five broad role categories: (1) Cellular dynamics (Biogenesis. organization and structure of the cell. Cell division. Cell growth. Motility); (2) stress response (cell rescue activities. disease. virulence and defense); (3) protein metabolism (folding and stabilization. modification. synthesis. targeting. sorting and translocation. proteolysis); (4) bioenergetics (C‑compound and carbohydrate metabolism. photosynthesis) and (5) cellular communication/signal transduction (Figure 1),

Porcentagem por órgão The 26 SUCEST cDNA libraries where grouped according to the sugarcane organs used as source for mRNA extraction, Infected Plantlets (AD1. HR1). Meristem (AM1. AM2. LB1. LB2). Callus (CL6). Inflorescence (FL1. FL3. FL4. FL5. FL8). Leaf (LV1. LR1. LR2). Root (RT1. RT2. RT3). Seed (SD1. SD2). Stalk (ST1. ST3. SB1. RZ1. RZ2. RZ3), The abundance of transcripts in each category was calculated dividing the number of high quality sequences in each category by the total number of high quality sequences in each organ (the sum of high quality sequences in each library associated with the plant organ – Table 2 (???) Supplementary Material), Average percentage of SAS per category does not add to 100% because some SAS appear in more than one category, SD is standard deviation,

SAS tecido- específicas Número de ESTs Melhor hit biblioteca 360 (Y17556) alpha kafirin [Sorghum bicolor] SD 103 (A23207) zein zA1 [Zea mays] 42 (AF232008) beta-glucosidase aggregating factor precursor [Zea mays] RT 24 (AC007789) putative low molecular early light-inducible protein [Oryza sativa] 22 (AP002820) putative peroxidase [Oryza sativa] 19 (X56337) alpha-amylase [Oryza sativa] CL 18 (AP000374) cyclopropane fatty acid synthase [Arabidopsis thaliana] FL

GenBank - dbEST Março de 1998 Total de Entradas 1,528,715 Homo sapiens 967,015 (63,4%) Plantas (total) 73,087 (4.8%) Mus musculus + domesticus (camundongo) 306,544 Caenorhabditis elegans 72,521 Arabidopsis thaliana 36,173 Drosophila melanogaster 27,625 Oryza sativa (arroz) 25,844 Rattus sp. (rato) 20,311 Brugia malayi (nematoide parasita) 13,641 Toxoplasma gondii 10,671 Emericella nidulans 5,787 Schistosoma mansoni 3,659 Trypanosoma brucei rhodesiense 3,519 Danio rerio (zebrafish) 3,373 Saccharomyces cerevisiae 3,042 Zea mays (milho) 1,783 Leishmania major 1,692 Saccharum sp. 495 Outros ~ 20,000

GenBank - dbEST Março de 2001 Total de Entradas 7,692,809 Homo sapiens 3,369,459 (43.8%) Plantas (total) 1,099,102 (14.3 %) Glycine max (soja) 160,500 Arabidopsis thaliana 113,000 Medicago truncatula (barrel medic) 112,458 Lycopersicon esculentum (tomate) 107,226 Zea mays (milho) 86,999 Oryza sativa (arroz) 72,657 Hordeum vulgare (cevada) 68,480 Chlamydomonas reinhardtii 64,973 Sorghum bicolor 62,642 Triticum aestivum (trigo) 58,141 Pinus taeda (loblolly pine) 34,896 Lotus japonicus 27,078 Solanum tuberosum (batata) 26,177 Gossypium arboreum 20,978 Sorghum propinquum 17,974 Mesembryanthemum (ice plant) 14,033 Gossypium hirsutum (algodão) 9,438 Secale cereale 8,123 Saccharum sp. 495 Outras Plantas (67 spp.) 32.834

GenBank - dbEST Setembro de 2002 Total de Entradas 12,845,578 Homo sapiens 4,691,979 (36.5%) Plantas (total) 2,279,170 (17.4 %) Glycine max (soja) 284,714 Triticum aestivum (trigo) 256,593 Hordeum vulgare (cevada) 240,882 Zea mays (milho) 180,587 Arabidopsis thaliana 174,624 Medicago truncatula (barrel medic) 170,500 Lycopersicon esculentum (tomate) 148,346 Chlamydomonas reinhardtii 130,324 Oryza sativa (arroz) 108,429 Solanum tuberosum (batata) 94,420 Sorghum bicolor 84,712 Lactuca sativa (alface) 68,188 Pinus taeda (loblolly pine) 60,226 Physcomitrella patens 50,250 Helianthus annuus (girassol) 44,961 Gossypium arboreum (algodão) 38,894 Lotus japonicus 32,096 Sorghum propinquum 21,387 Saccharum sp. 495 Outras Plantas (78 spp.) 88.542 http://www.ncbi.nlm.nih.gov/dbEST/dbEST_summary.html No Laboratório de Biotecnologia de Células Vegetais (LBCV) do Instituto de Tecnologia Química e Biológica da Universidade Nova, localizado em Oeiras, na Quinta do Marquês, esta tecnologia é utilizada diariamente para manter várias linhagens de espécies diferentes de plantas herbáceas e lenhosas. Uma das plantas em estudo é a Medicago truncatula (uma luzerna anual, leguminosa pratense utilizada na produção de alimento em fresco ou para forragem para gado). Esta planta, em condições adequadas, sofre um processo de diferencia- ção in vitro denominado de Embriogénese Somática. Neste processo, as célu- las dos folíolos desta planta multiplicam-se, dando origem a células capazes de, por multiplicação e diferenciação, darem origem a embriões, em tudo idên- ticos aos originados por desenvolvimento de um zigoto (resultante da fusão do grão de pólen germinado com o óvulo).

Genetics and Molecular Biology The libraries that made SUCEST Bioinformatics of the sugarcane EST project Trimming and clustering sugarcane ESTs The sugarcane signal transduction (SUCAST) catalogue: prospecting signal transduction in sugarcane In silico characterization and expression analyses of sugarcane putative sucrose non-fermenting-1 (SNF1) related kinases Identification of 14-3-3-like protein in sugarcane (Saccharum officinarum) A search for homologues of plant photoreceptor genes and their signaling partners in the sugarcane expressed sequence tag (Sucest) database Phylogenetic relationships between Arabidopsis and sugarcane bZIP transcriptional regulatory factors Identification of sugarcane cDNAs encoding components of the cell cycle machinery Dissecting the sugarcane expressed sequence tag (SUCEST) database: unraveling flower-specific genes Molecular chaperone genes in the sugarcane expressed sequence database (SUCEST) Oxidative stress response in sugarcane In silico differential display of defense-related expressed sequence tags from sugarcane tissues infected with diazotrophic endophytes Mechanisms of sugarcane response to herbivory Base excision repair in sugarcane Genetics and Molecular Biology Preliminary analysis of microsatellite markers derived from sugarcane expressed sequence tags (ESTs) Sequence polymorphism from EST data in sugarcane: a fine analysis of 6-phosphogluconate dehydrogenase genes A search for markers of sugarcane evolution Sugarcane genes related to mitochondrial function Mitochondrial and chloroplast localization of FtsH-like proteins in sugarcane based on their phylogenetic profile Patterns of expression of cell wall related genes in sugacane Expression of sugarcane genes induced by inoculation with Gluconacetobacter diazotrophicus and Herbaspirillum rubrisubalbicans Identifying sugarcane expressed sequences associated with nutrient transporters and peptide metal chelators Prospecting sugarcane genes involved in aluminum tolerance N-glycosylation in sugarcane Sugarcane expressed sequences tags (ESTs) encoding enzymes involved in lignin biosynthesis pathways Biosynthesis of secondary metabolites in sugarcane Identification of sugarcane genes involved in the purine synthesis pathway A new member of the chalcone synthase (CHS) family in sugarcane Classification. expression pattern and comparative analysis of sugarcane expressed analysis of sugarcane expressed sequences tags (ESTs) encoding glycine-rich proteins (GRPs) Identification. classification and expression pattern analysis of sugarcane cysteine proteinases Identification of metalloprotease gene families in sugarcane Sugarcane phytocystatins: Identification. classification and expression pattern analysis DNA repair-related genes in sugarcane expressed sequence tags (ESTs) Distribution of DNA repair-related ESTs in sugarcane Survey of transposable elements in sugarcane expressed sequence tags (ESTs)

Genetics and Molecular Biology http://www.sbg.org.br/revista24_index.htm

Grupo do SUCEST

Uma parte do LBI

Uma parte do LBI

Os trimmadores

Grupo Genoma - CBMEG

Grupo Genoma - CBMEG felipes@cenargen.embrapa.br http://www.lbi.ic.unicamp.br/

www.laerte.com.br