A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

The microarray data analysis

Apresentações semelhantes


Apresentação em tema: "The microarray data analysis"— Transcrição da apresentação:

1 The microarray data analysis
Ana Deckmann Carla Judice Jorge Lepikson Jorge Mondego Leandra Scarpari Marcelo Falsarella Carazzolle Michelle Servais Tais Herig

2 Summary Introduction to microarray Pre-processing microarray data
Statistics background Introduction to microarray Pre-processing microarray data Statistics analysis D-maps

3 Statistics background
Error model - measurement = truth + error - error = bias + variance Bias describe a systematic tendency of the measurement. Ex: dyes Cy3 and Cy5 don´t have the same efficient Variance is often normally distributed, ex : instrumentation imperfection and biological variation Normalization Experimental replicate (techniques and biological) and statistics

4 Introduction to microarray
Three different microarray technologies : Spotted cDNA microarrays (500 to 2500 bp) Spotted oligonucleotide microarrays (30 to 70 bp) Affymetrix chips (25 bp) Can be used to : Differential gene expression studies, gene co-regulation studies, gene function identification studies. time-course studies, dose-response studies, clinical diagnosis, …

5 Two color architecture

6 Codelink architecture (one color)
Probes: 30-meros, 90% até 550 bases downstream extremidade 3’ Targets: 10ug cRNA biotinilado

7 Scanning   overlay images higher frequency, more energy
excitation red laser green laser emission overlay images higher frequency, more energy lower frequency, less energy

8 Scarpari, Leandra – 2006 – Tese Doutorado
Ludwig scanner A B C H G F D E 1 2 3 4 1 2 3 4 5 6 7 8 9 10 11 a b c d e f g h i j k Ludwig flags : (0) Int <= Back (1) Irregular spots (3) Spot ok (4) Saturated Scarpari, Leandra – 2006 – Tese Doutorado

9 Codelink scanner Codelink flags : (L) near background (C) contaminated
(S) saturated (M) masked (G) good

10 LGE scanner A B C H G F D E 1 2 3 4 Defined intensity :
Int Cy3 = Area Cy3 * (median(Int Cy3)-median(Bkgd(Cy3)) Int Cy5 = Area Cy5 * (median(Int Cy5)-median(Bkgd(Cy5)) LGE defined flags : (0) – Spot ok (1) – Spot Saturado (2) – Int/Back <= 1.05 (3) – Area <= 110 or 50 (9x9 or 11x11)

11 pixels in > pixels out
Cy3= ; Cy5= r=0.67 (fold=-1.49) (Target median - Bkgd median) * Area = integrated intensity pixels in pixels out pixels in > pixels out - * =

12 Cy3= 222824; Cy5= 15488 r=0.069 fold=-14.5 flag=0
Cy3= ; Cy5= r= flag=0 Cy3= 6400; Cy5= NA (sinal:ruído<=1) flag=2 Cy3= ; Cy5= r=0.15 fold= flag=1

13 Pre-processing microarray data
Bioconductor repository ( Log intensities Log2R=Log2G R=G Most genes have low gene expression levels. What happens here?

14 M vs A plot non-differentially expressed genes are now along the horizontal line: M = 0 log2R - log2G = 0 R = G up-regulated genes down-regulated genes Transformed data {(M,A)i}: M = log2(R) - log2(G) (minus) A = ½·[log2(R) + log2(G)] (add)

15 Density plot log2R = red channel signal log2G = green channel signal

16 Print-tip box plot 1 16

17 Normalization within slides
Expectation: Most genes are non-differentially expressed, i.e. most of the data points should be around M=0.

18 Lowess normalization : global lowess normalization
Median normalization : which sets the median of log intensity ratios to zero Median value = 0 Lowess normalization : global lowess normalization

19 Print-tip normalization : print-tip group lowess normalization
X*ij=(Xij-median(GRIDj))/sd(GRIDj) Scaled print-tip : scaled print-tip group lowess normalization

20 Normalization across slides
QUANTILE QQPlot Mean between 8 slides

21 LOWESS (applied in one color microarray)
Transformed data {(M,A)i}: M = log2(Int1) - log2(Int2) ; A= ½·[log2(Int1) + log2(Int2)]

22 Statistics analysis - T statistics test
The T statistics down-weight the importance of the average if the deviation is large and vice versa; T = mean(x) / SE(x) where SE(x)=std.dev(x)/N (standard error of the mean) The blue gene has the lower T-value than red gene.

23 Top table and volcanoplot
Fold change = ratio; if ratio >=1 or -1/ratio; if ratio < 1

24 Cluster data analysis

25 Automatizar a análise dos dados
Objetivo do Programa Automatizar a análise dos dados Diferentes formatos  GeneTAC (LGE)  ScanArray (Ludwig) CodeLink NimbleGen (Futuro)

26 Características do Programa
Possibilita a criação de diferentes projetos Estruturado por etapas Português e Inglês Linguagens: cgi, R (análise estatística) Banco de dados: MySql

27 Estrutura do Programa Definição de um Projeto Configuração da Lâmina
LGE e Ludwig Configuração da Lâmina CodeLink Submissão dos Arquivos da Lâmina Seleção de Dados Normalização Análises Estatísticas

28 Estrutura do Programa: Definição do Projeto
Criar / Selecionar um projeto Definir o padrão  Número de Placas funcionais

29 Estrutura do Programa: Definição do Projeto

30 Estrutura do Programa: Arquivos da Lâmina
Submissão dos arquivos Definição dos grupos Definição dos canais

31 Estrutura do Programa: Arquivos da Lâmina

32 Estrutura do Programa: Seleção dos Dados
Exclusão de spots indesejados  Diferentes formas de exibir os dados  Diferentes filtros Imagens

33 Estrutura do Programa: Seleção dos Dados

34 Estrutura do Programa: Normalização
Métodos diferentes Opções Visualização

35 Estrutura do Programa: Normalização

36 Estrutura do Programa: Análises estatísticas
Fold Change Pvalue

37 Estrutura do Programa: Análises estatísticas

38 Gráficos: Lâmina Grid (Fonte: Leandra Scarpari)

39 Gráficos: M vs A plot M = log2(R/G) A = ½ log2(RG)
(Fonte: Leandra Scarpari)

40 Gráficos: M vs A plot (Fonte: Ana Deckmann)

41 Gráficos: Density (Fonte: Leandra Scarpari)

42 Gráficos: VolcanoPlot
Fold Change: Escala de comparação entre as razões (Quanto maior o módulo, mais diferencialmente expresso) Pvalue: Reprodução dos dados (Quanto menor, mais estão se reproduzindo os dados) (Fonte: Leandra Scarpari, Ana Deckmann)

43 Gráficos: Clustering Busca de padrões (Fonte: Ana Deckmann)

44 Fim

45 Box plot

46 Comparison of normalization methods for Codelink Bioarray data
Differences between pair of arrays in the technical replicates : Array 1 vs array 4 Array4 vs array 5 BMC Bioinfomatics 2005, 6:309

47 - Within slide normalization
Print-tip normalization Before After No norm Print tip Scaled print tip Nucleic Acids Research, 2002, vol 30, No 4


Carregar ppt "The microarray data analysis"

Apresentações semelhantes


Anúncios Google