Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum) Podemos saber quantas vezes um gene foi seqüenciado e detectar os freqüentes! Usa-se também para validar bibliotecas E para expressão diferencial Aglomerados ou Clusters
Programas para agrupar transcritos Icatools Phrap Cap3, PCAP Stack Pack MegaBLAST TGICL (MegaBLAST + Cap3) Um aglomerado = Um gene
Qualidade das bibliotecas (100 primeiras ESTs) Freqüência em que uma EST foi amostrada Boa biblioteca? Número de seqüências
Organização das sequências do GenBank em um conjunto de aglomerados Cada aglomerado do UniGene contém as sequências que representam um gene único E também informações relacionadas, como em que tecidos o gene é expresso, etc. E também onde está mapeado UniGene
MegaBLAST gera o UniGene Todas ESTs contra todas Detecção de homologia > 96% de identidade > 70% do potencial Aglomerar
Etapa Número de seqüências no aglomerado Número de algomerados Construção de UniGene para AW1 (5.145 ESTs correspondem a clusters) identidade > 96 % alinhamento > 70 % do potencial