Carregar apresentação
A apresentação está carregando. Por favor, espere
1
The microarray data analysis
Ana Deckmann Carla Judice Jorge Lepikson Jorge Mondego Leandra Scarpari Marcelo Falsarella Carazzolle Michelle Servais Tais Herig
2
Summary Introduction to microarray Pre-processing microarray data
Statistics background Introduction to microarray Pre-processing microarray data Statistics analysis D-maps
3
Statistics background
Error model - measurement = truth + error - error = bias + variance Bias describe a systematic tendency of the measurement. Ex: dyes Cy3 and Cy5 don´t have the same efficient Variance is often normally distributed, ex : instrumentation imperfection and biological variation Normalization Experimental replicate (techniques and biological) and statistics
4
Introduction to microarray
Three different microarray technologies : Spotted cDNA microarrays (500 to 2500 bp) Spotted oligonucleotide microarrays (30 to 70 bp) Affymetrix chips (25 bp) Can be used to : Differential gene expression studies, gene co-regulation studies, gene function identification studies. time-course studies, dose-response studies, clinical diagnosis, …
5
Two color architecture
6
Codelink architecture (one color)
Probes: 30-meros, 90% até 550 bases downstream extremidade 3’ Targets: 10ug cRNA biotinilado
7
Scanning overlay images higher frequency, more energy
excitation red laser green laser emission overlay images higher frequency, more energy lower frequency, less energy
8
Scarpari, Leandra – 2006 – Tese Doutorado
Ludwig scanner A B C H G F D E 1 2 3 4 1 2 3 4 5 6 7 8 9 10 11 a b c d e f g h i j k Ludwig flags : (0) Int <= Back (1) Irregular spots (3) Spot ok (4) Saturated Scarpari, Leandra – 2006 – Tese Doutorado
9
Codelink scanner Codelink flags : (L) near background (C) contaminated
(S) saturated (M) masked (G) good
10
LGE scanner A B C H G F D E 1 2 3 4 Defined intensity :
Int Cy3 = Area Cy3 * (median(Int Cy3)-median(Bkgd(Cy3)) Int Cy5 = Area Cy5 * (median(Int Cy5)-median(Bkgd(Cy5)) LGE defined flags : (0) – Spot ok (1) – Spot Saturado (2) – Int/Back <= 1.05 (3) – Area <= 110 or 50 (9x9 or 11x11)
11
pixels in > pixels out
Cy3= ; Cy5= r=0.67 (fold=-1.49) (Target median - Bkgd median) * Area = integrated intensity pixels in pixels out pixels in > pixels out - * =
12
Cy3= 222824; Cy5= 15488 r=0.069 fold=-14.5 flag=0
Cy3= ; Cy5= r= flag=0 Cy3= 6400; Cy5= NA (sinal:ruído<=1) flag=2 Cy3= ; Cy5= r=0.15 fold= flag=1
13
Pre-processing microarray data
Bioconductor repository ( Log intensities Log2R=Log2G R=G Most genes have low gene expression levels. What happens here?
14
M vs A plot non-differentially expressed genes are now along the horizontal line: M = 0 log2R - log2G = 0 R = G up-regulated genes down-regulated genes Transformed data {(M,A)i}: M = log2(R) - log2(G) (minus) A = ½·[log2(R) + log2(G)] (add)
15
Density plot log2R = red channel signal log2G = green channel signal
16
Print-tip box plot 1 16
17
Normalization within slides
Expectation: Most genes are non-differentially expressed, i.e. most of the data points should be around M=0.
18
Lowess normalization : global lowess normalization
Median normalization : which sets the median of log intensity ratios to zero Median value = 0 Lowess normalization : global lowess normalization
19
Print-tip normalization : print-tip group lowess normalization
X*ij=(Xij-median(GRIDj))/sd(GRIDj) Scaled print-tip : scaled print-tip group lowess normalization
20
Normalization across slides
QUANTILE QQPlot Mean between 8 slides
21
LOWESS (applied in one color microarray)
Transformed data {(M,A)i}: M = log2(Int1) - log2(Int2) ; A= ½·[log2(Int1) + log2(Int2)]
22
Statistics analysis - T statistics test
The T statistics down-weight the importance of the average if the deviation is large and vice versa; T = mean(x) / SE(x) where SE(x)=std.dev(x)/N (standard error of the mean) The blue gene has the lower T-value than red gene.
23
Top table and volcanoplot
Fold change = ratio; if ratio >=1 or -1/ratio; if ratio < 1
24
Cluster data analysis
25
Automatizar a análise dos dados
Objetivo do Programa ● Automatizar a análise dos dados Diferentes formatos GeneTAC (LGE) ScanArray (Ludwig) CodeLink NimbleGen (Futuro)
26
Características do Programa
● Possibilita a criação de diferentes projetos Estruturado por etapas Português e Inglês Linguagens: cgi, R (análise estatística) Banco de dados: MySql
27
Estrutura do Programa Definição de um Projeto Configuração da Lâmina
LGE e Ludwig Configuração da Lâmina CodeLink Submissão dos Arquivos da Lâmina Seleção de Dados Normalização Análises Estatísticas
28
Estrutura do Programa: Definição do Projeto
● Criar / Selecionar um projeto Definir o padrão Número de Placas funcionais
29
Estrutura do Programa: Definição do Projeto
30
Estrutura do Programa: Arquivos da Lâmina
● Submissão dos arquivos Definição dos grupos Definição dos canais
31
Estrutura do Programa: Arquivos da Lâmina
32
Estrutura do Programa: Seleção dos Dados
● Exclusão de spots indesejados Diferentes formas de exibir os dados Diferentes filtros Imagens
33
Estrutura do Programa: Seleção dos Dados
34
Estrutura do Programa: Normalização
● Métodos diferentes Opções Visualização
35
Estrutura do Programa: Normalização
36
Estrutura do Programa: Análises estatísticas
● Fold Change Pvalue
37
Estrutura do Programa: Análises estatísticas
38
Gráficos: Lâmina Grid (Fonte: Leandra Scarpari)
39
Gráficos: M vs A plot M = log2(R/G) A = ½ log2(RG)
(Fonte: Leandra Scarpari)
40
Gráficos: M vs A plot (Fonte: Ana Deckmann)
41
Gráficos: Density (Fonte: Leandra Scarpari)
42
Gráficos: VolcanoPlot
Fold Change: Escala de comparação entre as razões (Quanto maior o módulo, mais diferencialmente expresso) Pvalue: Reprodução dos dados (Quanto menor, mais estão se reproduzindo os dados) (Fonte: Leandra Scarpari, Ana Deckmann)
43
Gráficos: Clustering Busca de padrões (Fonte: Ana Deckmann)
44
Fim
45
Box plot
46
Comparison of normalization methods for Codelink Bioarray data
Differences between pair of arrays in the technical replicates : Array 1 vs array 4 Array4 vs array 5 BMC Bioinfomatics 2005, 6:309
47
- Within slide normalization
Print-tip normalization Before After No norm Print tip Scaled print tip Nucleic Acids Research, 2002, vol 30, No 4
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.