A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

The microarray data analysis Ana Deckmann Carla Judice Jorge Lepikson Jorge Mondego Leandra Scarpari Marcelo Falsarella Carazzolle Michelle Servais Tais.

Apresentações semelhantes


Apresentação em tema: "The microarray data analysis Ana Deckmann Carla Judice Jorge Lepikson Jorge Mondego Leandra Scarpari Marcelo Falsarella Carazzolle Michelle Servais Tais."— Transcrição da apresentação:

1 The microarray data analysis Ana Deckmann Carla Judice Jorge Lepikson Jorge Mondego Leandra Scarpari Marcelo Falsarella Carazzolle Michelle Servais Tais Herig

2 Summary - Statistics background - Introduction to microarray - Pre-processing microarray data - Statistics analysis - D-maps

3 - measurement = truth + error - error = bias + variance Error model Normalization Experimental replicate (techniques and biological) and statistics Bias describe a systematic tendency of the measurement. Ex: dyes Cy3 and Cy5 don´t have the same efficient Variance is often normally distributed, ex : instrumentation imperfection and biological variation Statistics background

4 Introduction to microarray -Three different microarray technologies : - Spotted cDNA microarrays (500 to 2500 bp) - Spotted oligonucleotide microarrays (30 to 70 bp) - Affymetrix chips (25 bp) - Can be used to : - Differential gene expression studies, gene co-regulation studies, gene function identification studies. time-course studies, dose-response studies, clinical diagnosis, …

5 Two color architecture

6 Probes: 30-meros, 90% até 550 bases downstream extremidade 3’ Targets: 10ug cRNA biotinilado Codelink architecture (one color)

7  higher frequency, more energy  lower frequency, less energy excitation red laser green laser emission overlay images Scanning

8 A B C H G F D E a b c d e f g h i j k Scarpari, Leandra – 2006 – Tese Doutorado Ludwig flags : (0) Int <= Back (1) Irregular spots (3) Spot ok (4) Saturated Ludwig scanner

9 Codelink flags : (L) near background (C) contaminated (S) saturated (M) masked (G) good Codelink scanner

10 A B C H G F D E 1234 LGE defined flags : (0) – Spot ok (1) – Spot Saturado (2) – Int/Back <= 1.05 (3) – Area <= 110 or 50 (9x9 or 11x11) Defined intensity : -Int Cy3 = Area Cy3 * (median(Int Cy3)- median(Bkgd(Cy3)) -Int Cy5 = Area Cy5 * (median(Int Cy5)- median(Bkgd(Cy5)) LGE scanner

11 Cy3= ; Cy5= r=0.67 (fold=-1.49) (Target median - Bkgd median) * Area = integrated intensity pixels out pixels in > pixels out pixels in - * =

12 Cy3= ; Cy5= 15488r=0.069 fold=-14.5 flag=0 Cy3= ; Cy5= r=fold=1.40 flag=0 Cy3= ; Cy5= r=1.65 flag=0 Cy3= 6400; Cy5= NA (sinal:ruído<=1) flag=2 Cy3= ; Cy5= r=0.15 fold=-6.7 flag=1

13 Pre-processing microarray data -Bioconductor repository (http://www.bioconductor.org/) -Log intensities R=G Log 2 R=Log 2 G Most genes have low gene expression levels. What happens here?

14 up-regulated genes down-regulated genes non-differentially expressed genes are now along the horizontal line: M = 0  log 2 R - log 2 G = 0  R = G Transformed data {(M,A) i }: M = log 2 (R) - log 2 (G) (minus) A = ½·[log 2 (R) + log 2 (G)] (add) M vs A plot

15 log 2 R = red channel signal log 2 G = green channel signal Density plot

16 1 16 Print-tip box plot

17 Normalization within slides Expectation: Most genes are non-differentially expressed, i.e. most of the data points should be around M=0.

18 Median normalization : which sets the median of log intensity ratios to zero Median value = 0 Lowess normalization : global lowess normalization

19 Print-tip normalization : print-tip group lowess normalization X* ij =(X ij -median(GRID j ))/sd(GRID j ) Scaled print-tip : scaled print-tip group lowess normalization

20 Normalization across slides -QUANTILE QQPlot Mean between 8 slides

21 -LOWESS (applied in one color microarray) Transformed data {(M,A) i }: M = log 2 (Int 1 ) - log 2 (Int 2 ) ; A= ½·[log 2 (Int 1 ) + log 2 (Int 2 )]

22 Statistics analysis - T statistics test The T statistics down-weight the importance of the average if the deviation is large and vice versa; T = mean(x) / SE(x) where SE(x)=std.dev(x)/N (standard error of the mean) The blue gene has the lower T-value than red gene.

23 Top table and volcanoplot Fold change = ratio; if ratio >=1 or -1/ratio; if ratio < 1

24 Cluster data analysis

25 Automatizar a análise dos dados Diferentes formatos ●●●●  GeneTAC (LGE)  ScanArray (Ludwig)  CodeLink  NimbleGen (Futuro) Objetivo do Programa

26 Possibilita a criação de diferentes projetos ●●●●●●●●●● Características do Programa Estruturado por etapas Linguagens: cgi, R (análise estatística) Banco de dados: MySql Português e Inglês

27 Estrutura do Programa Submissão dos Arquivos da Lâmina Seleção de Dados Normalização Análises Estatísticas Definição de um Projeto Configuração da Lâmina LGE e Ludwig CodeLink

28 Criar / Selecionar um projeto Definir o padrão ●●●● Estrutura do Programa: Definição do Projeto  Número de Placas funcionais

29 Estrutura do Programa: Definição do Projeto

30 Submissão dos arquivos Definição dos grupos ●●●●●● Estrutura do Programa: Arquivos da Lâmina Definição dos canais

31 Estrutura do Programa: Arquivos da Lâmina

32 Exclusão de spots indesejados ● Estrutura do Programa: Seleção dos Dados  Diferentes formas de exibir os dados  Diferentes filtros  Imagens

33 Estrutura do Programa: Seleção dos Dados

34 Métodos diferentes ●●●●●● Estrutura do Programa: Normalização Opções Visualização

35 Estrutura do Programa: Normalização

36 ●●●● Estrutura do Programa: Análises estatísticas Fold Change Pvalue

37 Estrutura do Programa: Análises estatísticas

38 Gráficos: Lâmina (Fonte: Leandra Scarpari) Grid

39 Gráficos: M vs A plot M = log 2 (R/G) A = ½ log 2 (RG) (Fonte: Leandra Scarpari)

40 Gráficos: M vs A plot (Fonte: Ana Deckmann)

41 Gráficos: Density (Fonte: Leandra Scarpari)

42 Gráficos: VolcanoPlot Fold Change: Escala de comparação entre as razões Pvalue: Reprodução dos dados (Quanto maior o módulo, mais diferencialmente expresso) (Quanto menor, mais estão se reproduzindo os dados) (Fonte: Leandra Scarpari, Ana Deckmann)

43 Gráficos: Clustering Busca de padrões (Fonte: Ana Deckmann)

44 Fim

45 Box plot

46 Comparison of normalization methods for Codelink Bioarray data Differences between pair of arrays in the technical replicates : (1)Array 1 vs array 4 (2)Array4 vs array 5 BMC Bioinfomatics 2005, 6:309

47 - Within slide normalization BeforeAfter Print-tip normalization No norm Print tip Scaled print tip Nucleic Acids Research, 2002, vol 30, No 4


Carregar ppt "The microarray data analysis Ana Deckmann Carla Judice Jorge Lepikson Jorge Mondego Leandra Scarpari Marcelo Falsarella Carazzolle Michelle Servais Tais."

Apresentações semelhantes


Anúncios Google