A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

BlastPhen Aluno: Ricardo Nishikido Pereira Orientadores: Paolo Zanotto (ICB) e Marco Dimas Gubitoso (IME)

Apresentações semelhantes


Apresentação em tema: "BlastPhen Aluno: Ricardo Nishikido Pereira Orientadores: Paolo Zanotto (ICB) e Marco Dimas Gubitoso (IME)"— Transcrição da apresentação:

1 BlastPhen Aluno: Ricardo Nishikido Pereira Orientadores: Paolo Zanotto (ICB) e Marco Dimas Gubitoso (IME)

2 Trabalho de Formatura Tipo de trabalho: Iniciação Científica Área: Bioinformática Período: 02/04 a 11/04

3 O problema Estimar as relações ancestrais entre diferentes seres vivos (filogenia). Técnicas estatísticas sofisticadas estão disponíveis para inferência filogenética, como os implementados nos métodos Bayeseanos e máxima verossimilhança.

4 O problema Contudo, esses métodos não consideram o genoma como um todo, apenas alguns genes. A ausência de genes ou de sua ordem no genoma podem impor um problema sério quando são feitas tentativas de integrar esses dados com os obtidos através de inferências baseadas em alinhamentos de genes.

5 Idéia Comparar genomas e construir distribuições a partir de scores (medida de similaridade utilizada pelo programa Blast, que compara seqüências de genes e proteínas). As distribuições são comparadas e diversas de suas características como momentos ou comparações mais complexas envolvendo distâncias de Kullback-Leibler, Skew Divergence, Chernoff e Bhattacharyya são estudadas.

6 Blast Desenvolvido pelo NCBI (National Center for Biotechnology Information). Os programas Blast (Basic Local Alignment Search Tools) são um conjunto de algoritmos de comparação de seqüências. Essas comparações são feitas par a par e a cada comparação de segmentos é atribuída uma pontuação (score), que reflete o grau de similaridade entre as seqüências. Quanto mais alta a pontuação, maior o grau de similaridade.

7 Blast Identidade: segmento no qual duas seqüências são invariantes. Substituição: presença de bases diferentes em uma posição de um alinhamento. Gap: espaço introduzido em um alinhamento para compensar inserções e remoções em uma seqüência em relação à outra. Raw score: o score de um alinhamento, calculado como a soma de scores de substituição e de gaps.

8 Blast Bit score: derivado do raw score; leva em conta as propriedades estatísticas do sistema de pontuação (matriz de substituição e custo dos gaps). Pode ser utilizado para comparar scores de diferentes alinhamentos. O BlastPhen utiliza o Bit score.

9 Técnicas estatísticas estudadas Para comparar as distribuições de scores dos genomas foram utilizadas diversas técnicas estatísticas. As técnicas mais simples foram as comparações das médias, medianas e modas das distribuições. Além dessas, foram implementados os seguintes métodos de comparação de distribuições:

10 Técnicas estatísticas estudadas Kullback-Leibler divergence Como essa distância não é simétrica, foi utilizada a média harmônica para simetrizá-la:

11 Técnicas estatísticas estudadas Skew divergence onde D é a distância de Kullback-Leibler e 0<α<1 é um fator de correção.

12 Técnicas estatísticas estudadas Chernoff Bhattacharyya onde μ é a função definida no item anterior.

13 Técnicas estatísticas estudadas Observação: como as métricas citadas referem-se a distribuições contínuas enquanto que neste projeto lidamos com distribuições discretas, tivemos que adaptá-las. Foram criados histogramas para agrupar os scores e as integrais foram substituídas por somatórios.

14 Problema Distribuições de scores de organismos parecidos geneticamente Distribuições de scores de organismos muito diferentes geneticamente

15 Resultados Das métricas testadas, a que se saiu melhor foi a comparação das medianas das distribuições. Os métodos de comparação de distribuições citados não se comportaram bem devido a falta de resolução das curvas, que dificultou as comparações. Exemplo de árvore construída com os resultados do BlastPhen (os dados se referem a um grupo de báculo vírus):

16 Resultados Árvore construída com técnicas tradicionais de reconstrução filogenética Árvore construída pelo BlastPhen

17 Bonsais Bonsais são equivalentes a cliques da teoria dos grafos: são grupos de vértices nos quais cada vértice possui arestas para todos os outros vértices desse grupo. Na genética, um bonsai é um grupo de organismos que possuem uma relação ancestral (i.e. uma distância finita) com todos os outros organismos desse grupo. O BlastPhen permite a separação dos seres em bonsais.

18 Paralelização e distribuição Com o intuito de otimizar o desempenho do BlastPhen, seu código foi programado para utilizar diversas máquinas com diferentes números de processadores, através de comunicação por sockets. A parte do processo que se beneficia com essa técnica é a submissão dos genomas ao Blast. Um processo servidor controla a distribuição de tarefas aos processos clientes, bem como o momento em que estes devem encerrar suas atividades.


Carregar ppt "BlastPhen Aluno: Ricardo Nishikido Pereira Orientadores: Paolo Zanotto (ICB) e Marco Dimas Gubitoso (IME)"

Apresentações semelhantes


Anúncios Google