A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Arthur Gonçalves – agc Christian Diego – cdad Icamaan Viegas – ibvs Recife, 18 de Dezembro de 2007.

Apresentações semelhantes


Apresentação em tema: "Arthur Gonçalves – agc Christian Diego – cdad Icamaan Viegas – ibvs Recife, 18 de Dezembro de 2007."— Transcrição da apresentação:

1 Arthur Gonçalves – agc Christian Diego – cdad Icamaan Viegas – ibvs Recife, 18 de Dezembro de 2007

2  Introdução  Clustering  Biclustering  Algoritmo de Cheng e Church  Coupled Two-way Clustering  Algoritmo Interative Signature  Conclusão

3  Gene Expression Profiling se estabeleceu na última década como técnica padrão para obter impressão digital de tecidos ou células em diferentes condições biológicas  Baseado na disponibilidade de sequências inteira de genoma, a tecnologia de microarray permite a medida, simultaneamente, de níveis de mRNA para milhares de genes

4  Gene Expression Profiling são poderosas fontes de informações e tem revolucionado o modo como são estudadas e compreendidas funções em um sistema biológico

5  Dado um conjunto de perfis de expressões gênicas, organizadas juntas como uma matriz com linhas correspondente a genes e colunas correspondendo a condições

6  Agrupar condições e genes em subconjuntos que conduzem a um significado biológico, é uma tarefa conhecida como clustering  Dentro de cada cluster os vetores de atributos são similares enquanto vetores de clusters disjuntos são dissimilares

7  Analises via clustering fazem muitas suposições a priori que podem não ser perfeitamente adequadas em todas as circunstancias

8  Clustering devem ser aplicados EXCLUSIVAMENTE a genes ou amostras, implicitamente, direcionando a analise a um particular aspecto do sistema  Algoritmos de clustering geralmente procuram agrupar o conjunto de elementos em grupos disjuntos, exigindo que nenhum gene ou amostra pertença a mais que um grupo

9  Bicluster é definido como uma submatriz "amarrada" a um conjunto de genes e um conjunto de amostras

10  Podemos caracterizar um fenômeno biológico por uma coleção de biclusters, cada um representando um diferente tipo de comportamento, ligando um conjunto de genes a um correspondente conjunto de amostra  A falta de restrições estruturais em soluções de biclustering permite maior liberdade mas é conseqüentemente mais vulnerável a overfitting

11

12  Em aplicações clínicas, análise de expressões gênicas é feita em tecidos de pacientes com uma condição médica  Usando tais análises, biólogos tem identificado impressões digitais moleculares que podem ajudar na classificação e diagnóstico do status do paciente e guia protocolos de tratamento

13  Um importante aspecto de dados de expressão gênica é seu alto nível de ruídos  Microarrays provêem apenas uma rude aproximação de níveis de expressão, e são sujeitos a erros de até 2x o valor mensurado

14  Cheng e Church foram os primeiros a introduzir biclustering para análise de expressão gênica  Seu framework representa o problema de biclustering como um problema de otimização, definindo um score para cada bicluster candidato e desenvolvendo heurísticas para resolver o problema de otimização das restrições

15  As restrições forçam a uniformidade da matriz, o procedimento dá preferência a sub-matrizes maiores e a heurística é um algoritmo guloso

16  Cheng e Church implicitamente assumem que pares (gene, condição) em um “bom” bicluster tem um nível de expressão constante, além de possivelmente linhas aditivas e efeitos específicos de colunas  Após remover as médias de linhas, colunas e sub- matrizes o nível residual deverá ser tão pequeno quanto possível

17  Mais formalmente  Dado a matriz de expressão gênica E  Um subconjunto de genes I  Um subconjunto de condições J  Nós definimos

18  A intuição por trás dessa definição pode ser compreendida por um exemplo  Uma matriz completamente uniforme terá score Zero

19  Dada a definição de score o problema de máximo bicluster procura um bicluster de tamanho máximo entre todos os biclusters com score não excedendo um determinado limiar  O tamanho pode ser definido de muitos modos, por exemplo o numero de células na matriz ou o numero de linhas mais o número de colunas

20  O problema de máximo bicluster é NP-Hard se nós forçarmos todas as soluções a serem matrizes quadradas ou se nós usarmos o número total de células da sub-matriz como nosso objetivo de otimização  Cheng e Church sugeriram uma heurística gulosa para rapidamente convergir para uma sub-matriz máxima local com score menor que o limiar

21

22

23  A idéia é que linhas/colunas com alta contribuição para o score possam ser removidas com garantias de melhoramento no total do score residual médio quadrado  Uma possível variação dessa heurística remove todas as linhas e colunas com uma contribuição, para o score residual, maior que um limiar

24  Ao fim, o algoritmo retorna uma sub-matriz com baixo resíduo médio e tamanho máximo local

25  Para descobrir mais que um bicluster foi utilizado o algoritmo de bicluster em matrizes modificadas  A modificação inclui randomização dos valores nas células dos biclusters descobertos anteriormente  Isto tem o efeito de eliminar a identificação do bicluster com significantes sobreposições

26  Coupled two-way clustering (CTWC), introduzido por Getz, Levine e Domany, define um esquema genérico para transformar um algoritmo de cluster unidimensional (padrão) em um algoritmo de biclustering  O algoritmo se basea em ter um algoritmo de cluster unidimensional que possa descobrir clusters significantes (estáveis)

27

28

29  A implementação garante que cada par de subconjunto não é encontrado mais que uma vez  Note que o procedimento evita a consideracao de subconjuntos com todas as linhas ou colunas, começando de um conjunto de linhas estabelecido quando estiver formando subclusters de subconjuntos de colunas estabelecidos

30  O sucesso da estratégia CTWC depende da performance do dado algoritmo de clustering unidimensional  Muitos algoritmos populares, K-means, Hierárquico, não podem ser acoplados ao CTWC, devido a não distinguirem clusters significantes imediatamente de clusters não significantes e/ou fazerem suposição a priori do numero de clusters

31  Getz et al. reportou bons resultados usando o algoritmo SPC hierárquico  Cada cluster de genes (condição) estável é gerado dado um subconjunto de condições (resp. gene)  Esta relação hierárquica é importante quando tentamos entender o contexto do comportamento de genes ou condições comuns

32  No algoritmo de assinatura iterativa (ISA) a noção de um bicluster significante é definido intrinsecamente nos genes e exemplos do bicluster  A intuição é que genes num bicluster são co-regulados e, então, para cada exemplo (gene) a expressão gênica média sobre todos os genes (resp. exemplos) do bicluster deveria ser surpreendente (usualmente alta ou baixa)

33

34

35  O ISA converge para um ponto fixo e aproximado que é considerado um bicluster  O ponto fixo depende do conjunto inicial V in e dos limiares T C e T G

36  Para gerar um conjunto representativo de biclusters, pode-se executar o ISA com várias condições iniciais, incluindo conjuntos conhecidos de genes associados ou conjuntos aleatórios  Depois de limitar redundâncias (pontos fixos repetidos), o conjunto de pontos fixos pode ser analisado como um conjunto de biclusters

37  O ISA pode ser generalizado atribuindo pesos para cada gene/exemplo de forma que genes/exemplos com comportamento significativo terão maior peso  Substituindo as médias simples por médias ponderadas, e o algoritmo pode ser representado utilizando operações matriciais  BicAT: http://www.tik.ee.ethz.ch/sop/bicat/http://www.tik.ee.ethz.ch/sop/bicat/

38  Há uma infinidade de algoritmos para biclustering  A escolha dos 3 algoritmos apresentados se baseou nos métodos mais práticos segundo [1]  Enquanto clustering restringe a análise a um aspecto particular, biclustering tem um alto poder de representação

39  [1] Livro Texto, capítulo 26 – Biclustering Algorithms: A Survey  [2] Dissertação de Mestrado – Daniele Sunaga  [3] http://arep.med.harvard.edu/biclustering  [4] http://ctwc.weizmann.ac.il  [5] http://barkai-serv.weizmann.ac.il/GroupPage

40 Algoritmos para Biclustering Arthur Gonçalves – agc Christian Diego – cdad Icamaan Viegas – ibvs Recife, 18 de Dezembro de 2007


Carregar ppt "Arthur Gonçalves – agc Christian Diego – cdad Icamaan Viegas – ibvs Recife, 18 de Dezembro de 2007."

Apresentações semelhantes


Anúncios Google