Computational Identification and Characterization of Novel Genes from Legumes Michelle A. Graham, Kevin A.T. Silverstein, Steven B. Cannon, and Kathryn A. VandenBosch Julho, 2004 Camilla Moreira Prof. Paulo Andrade
Introdução Importância das Leguminosas (Fabaceae) Disponibilidade de seqüências ESTs TCs – tentativas consenso Seqüências específicas
Objetivo Utilizar seqüências disponíveis no banco de dados para identificar de forma rápida e eficiente seqüências de M. truncatula, L. japonicus e soja, que não têm homólogos em outros grupos de não-legumes, além de sugerir funções às seqüências-específicas encontradas
Materiais e Métodos Identificação das seqüências-específicas BLAST Caracterização BlastX InterProScan
Identificação Foram usados algoritmos BLAST para comparar os unigenes (TCs) de Medicago truncatula, Lotus japonicus e Glycine soja e max, contra conjuntos de unigenes: NR e EST do GenBank, e sequências genômicas de arroz e Arabidopsis, além de seqüências nucleotídicas do TIGR
BLAST Filtro nas seqüências (repetições, cauda poliA) 1º Round TIGR Medicago TCs Lotus Glycine TIGR Milho Tomate Arroz Arabidopsis BlastN e TBlastX 10-4 10-4 Próxima fase E-value > 10-4
BLAST BlastX Banco NR 10-4 10-4 2º Round Medicago TCs Lotus Glycine Espera-se que sejam específicas 10-4 E-value < 10-4
BLAST TBlastX (TIGR) 10-4 10-4 3º Round Algodão Alface Batata Centeio Cevada Girassol Pinus Trigo Sorgo TBlastX (TIGR) 10-4 10-4 E-value > 10-4
Genoma de Arroz e Arabidopsis BLAST 4º Round Genoma de Arroz e Arabidopsis TBlastX E-value > 10-4
Seqüências específicas de Leguminosas BLAST 5º Round EST_Others TBlastX Seqüências específicas de Leguminosas E-value > 10-4
Identificação Computacional de Genes Legume-específicos <<
InterProScan Banco de dados de proteínas, domínios e locais funcionais, no qual características identificáveis encontradas em proteínas conhecidas podem ser aplicadas à seqüências protéicas desconhecidas Busca por motivos protéicos
Caracterização Seq Específicas x GenBank (NR) 20% com homologia 1ª Análise por Motivos Conservados de outras proteínas 46 TCs contendo 55 motivos conservados 41 ricos em aa específicos 14 – F-Box, inibidores de pectinesterase, zinc finger e nodulinas
Caracterização 2ª Mineração de grupos de genes legume-específicos com domínios comuns não caracterizados (geração de único domínio) Domínio gerado procurar entre proteínas para atribuir função 2.525 TCs + 50, 672 e 688 homólogos single 665 grupos de potenciais famílias gênicas F-Box, Ricos em prolina e ricos em cisteína (CCPs)
Similaridade entre os Motivos de F-Box
Análise dos Motivos dos Grupos CCP
BAC Mth2-34P9 pb pb A. Regiões com similaridade (e<-10) a sequências do GenBank 1. retroelemento de Arabidopsis 2. Proteína gag de pêra 3, poliproteína Pol de Nicotiana tabacum 4, Proteína de membrana associada a vesícula de Arabidopsis 5. Poliproteína de N. tabacum 6. Albumin 1 de Medicago truncatula 7, Proteína T31J12.4 de Arabidopsis 8. Transposase Mariner de G. max 9. Proteína expressa de Arabidopsis 10. Fator de transcrição de Arabidopsis 11. Elemento de transposição Tnp2 de Antirrhinum majus MR = mini-repeats CCP = genes para proteínas ricas em cisteína R1, R2 e R3 Setas verdes: início da tradução da CCP Cores nos MR = similaridade entre si
Correlação “filogenética” entre os vários mini-repeats e quadro que mostra a provável composição de MR3-1 a partir de MR1-1 e MR1-2
Dot plot (esquema) Dot plot (resultado real) MYTEADDRA MYTEADDRAMYT
Conclusões Origem de não-legumes Similaridade com motivos bem representados em diversas categorias Esses genes podem ser exemplos de rápida evolução (Blast não pode identificar) Genes novos – falha na detecção por domínios (ou não detectados, ou sem similaridade com proteínas conhecidas)
Conclusões Identificação de famílias gênicas tecido específica 10 raiz e nódulos 8 sementes 4 folhas e flores 7 situações de estresse e patógenos Genes candidatos à transformação ou silenciamento gênico em análise futuras de função gênica
Obrigada