Pré-processamento de Sequências de Transcritos

Pré-processamento de Sequências de Transcritos
Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo

Planejamento Preparação da árvore de diretórios Obtenção dos dados
dataset1 (Roche 454 GS FLX) dataset2 (Illumina Genome Analyzer) Pré-processamento Mapeamento Montagem “de novo”

ferramentas para o pré-processamento de sequências de transcritos
Introdução ferramentas para o pré-processamento de sequências de transcritos

Preparação (aula1) Organização da estrutura de diretórios para a aula 1 classes dataset1 raw processed aligned bwa dataset2 bowtie ref hg19 refGene contaminants indexes blast scripts

Preparação (aula2) Organização da estrutura de diretórios para a aula 2 classes dataset1 raw processed aligned bwa assembled newbler dataset2 bowtie velvet ref hg19 refGene contaminants indexes blast scripts

Comandos úteis #Criar diretório (mkdir)
mkdir –p /work/CBAB/nomedoaluno/ #Informar diretório atual (pwd) pwd #Trocar de diretório (cd) cd /work/CBAB/nomedoaluno/ #Listar todo o conteúdo do diretório (ls) ls /work/CBAB/nomenoaluno/* #Determinar o tipo do arquivo (file) file undeterminedfiletype.unk #Criar um atalho (ln) ln -s /source/file.txt /destiny/linktofile.txt #Descompactar arquivos no formato .gz gunzip file.gz #Descompactar arquivos no formato .tar.gz ou .tgz tar -zxvf file.tar.gz #Descompactar arquivos no formato .tar tar -xvf file.tar #Descompactar arquivos no formato .tar.bz2 ou .tar.bz tar -jxvf file.tar.bz2 #Descompactar arquivos no formato .bz2 ou .bz bunzip2 file.bz2 #Descompactar arquivos no formato .zip unzip file.zip #Atribuir permissão de execução (chmod) chmod a+x script.sh # p/ todos os usuários #Imprimir as n linhas de um arquivo (head) head -10 file1.txt # primeiras 10 linhas cat Concatenar arquivos e redirecionar a saída para o STDOUT (tela - padrão). $ cat file1.txt file2.txt # imprime na tela o conteúdo de file1.txt e file2.txt #Imprimir todas linhas de arquivo(s) (cat) cat file1.txt file2.txt

Repositórios públicos
SRA (NCBI Sequence Read Archive): ENA (EBI European Nucleotide Archive): DRA (DDBJ Sequence Read Archive): International Nucleotide Sequence Database Collaboration [

dataset1 Pool de 2 amostras de culturas de melanócitos de epiderme humana normal (454 GS FLX) SRA GEO SRR sra NCBI SRA Toolkit (sff-dump) sff-dump -A SRR sra SRR sff Aspera Download (command-line) ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.putty -Q -l100m .

dataset2 Amostra de uma linhagem celular de linfoblastos humanos obtidas de paciente com câncer de maama (Illumina GA) ERR sra NCBI SRA Toolkit (fastq-dump) fastq-dump -A ERR sra ERR sra_1.fastq ERR sra_2.fastq Aspera Download (command-line) ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.putty -Q -l100m .

Manipulação arquivos fastq
FASTX-Toolkit Ferramentas executadas via linha de comando para manipulação das sequências no formato FASTQ. Por exemplo, produzem estatísticas de qualidade das leituras, realizam uma poda de qualidade ou de adaptadores, etc. Apropriado para dados de Illumina; Pode ser utilizado para dados de Roche 454 convertidos para o formato FASTQ; Galaxy (Giardine et al., 2005)

Checagem de qualidade fastx_quality_stats -Q i ERR sra_1.fastq -o ERR sra_1.fastq_qual_stat fastx_quality_stats -Q i ERR sra_2.fastq -o ERR sra_2.fastq_qual_stat The output TEXT file will have the following fields (one row per column): column = column number (1 to 36 for a 36-cycles read solexa file) count = number of bases found in this column. min = Lowest quality score value found in this column. max = Highest quality score value found in this column. sum = Sum of quality score values for this column. mean = Mean quality score value for this column. Q1 = 1st quartile quality score. med = Median quality score. Q3 = 3rd quartile quality score. IQR = Inter-Quartile range (Q3-Q1). lW = 'Left-Whisker' value (for boxplotting). rW = 'Right-Whisker' value (for boxplotting). A_Count = Count of 'A' nucleotides found in this column. C_Count = Count of 'C' nucleotides found in this column. G_Count = Count of 'G' nucleotides found in this column. T_Count = Count of 'T' nucleotides found in this column. N_Count = Count of 'N' nucleotides found in this column. max-count= max. number of bases (in all cycles) fastq_quality_boxplot_graph.sh -i ERR sra_1.fastq_qual_stat -o ERR sra_1.fastq_qual_stat.png fastq_quality_boxplot_graph.sh -i ERR sra_2.fastq_qual_stat -o ERR sra_2.fastq_qual_stat.png interquartile range, IQR = Q3 − Q1 não usar para montagem de novo pois a qualidade é ruim durante toda a sequência

FastQC Ferramenta para análise e controle de qualidade
fastqc seqfile1 seqfile2 .. seqfileN fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

Estatísticas assemblystats PRINSEQ FASTQC
Métricas em arquivos fasta Min read length Max read length Mean read length Standard deviation of read length Median read length N50 read length PRINSEQ Métricas em arquivos fasta, qual e fastq Filtros qualidade poly(A) Conteúdo de GC duplicações FASTQC Necessita conversão para fastq sff2fastq

Colapsar sequências # renomear par 2 após goby
Objetivo: Evitar duplicação de leituras ocorridas na etapa de PCR. Adequado para detecção de mutações, mas não em expressão gênica diferencial, o melhor é utilizar um modelo que considere a ocorrência dessas duplicações. FASTX-Toolkit fastx_collapser -Q i ERR sra.merged.fastq -o ERR sra.merged.collapsed.fasta PRINSEQ (requer MUITA memória!) in-house perl scripts (requer preferencialmente “nsort” - caso contrário demora muito tempo!). Entrada é FASTQ. dedup.sh Obs.: Nas três abordagens acima, no caso de leituras paired-end é necessário concatenar os pares, colapsar as sequências e depois separá-las novamente. Goby ( goby 3g fasta-to-compact --paired-end --quality-encoding Sanger -d -x PE_1.txt -o PE.compact-reads goby 3g tally-reads -i PE.compact-reads -o myfilter goby 3g compact-to-fasta -t fastq -f myfilter-keep.filter -i PE.compact-reads -o PE_p1.txt -p PE_pair.txt # renomear par 2 após goby sed 's/#$[0-9]$\/1$/#\1\/2/‘ PE_pair.txt > PE_2.txt rm -f HCC1954_pair Discussão Artigo: montagem com remoção de reads duplicadas - Discussão Goby java -Xmx3g -jar goby.jar -m fasta-to-compact --paired-end -d -x ../VELVET/input/ s_4_1_sequence.txt -o HCC1954.compact-reads java -Xmx3g -jar goby.jar -m tally-reads -i HCC1954.compact-reads -o myfilter java -Xmx3g -jar goby.jar -m compact-to-fasta -t fastq -f myfilter-keep.filter -i HCC1954.compact-reads -o HCC1954_p1 -p HCC1954_pair sed 's/#$[0-9]$\/1$/#\1\/2/' HCC1954_pair > HCC1954_p2 rm –f HCC1954_pair

Podas de qualidade (1) / Cauda poli-A/T
prinseq-lite.pl A filtragem de cauda poli-A/T pode reduzir o número de falsos positivos nos alinhamentos. A eliminação de regiões de baixa qualidade pode reduzir o número de falsos negativos. Principais argumentos: -derep : opção 1 (idêntico) -min_len : tamanho mínimo -out_format : opção 2 (FASTA e QUAL) -trim_tail_right : tamanho mínimo -trim_tail_left : tamanho mínimo -trim_qual_step : passo para o deslize da janela -trim_qual_window : tamanho da janela -out_good : arquivo de saída

Podas de qualidade (2) fastq_quality_trimmer -Q t i ERR sra_2.fastq -o ERR sra_2_trim31.fastq -Q: quality score (33 Phred/64 Illumina) -t : quality threshold -l : minimum length -i : input -o: output Trim.pl (by Nik Joshi) Ideal para leituras paired-ends perl Trim.pl --type qual-threshold length-threshold qual-type pair1 dataset2/input/ERR sra_1.fastq --pair2 dataset2/input/ERR sra_2.fastq --outpair1 dataset2/input/ERR sra_1_trim20.fastq --outpair2 dataset2/input/ERR sra_2_trim20.fastq --single dataset2/input/ERR sra_trim.fastq fastq_quality_trimmer – remove as bases com qualidade abaixo de um threshold a partir do fim até encontrar uma base maior do que o threshold. Elimina reads com tamanho abaixo do mínimo. Trim.pl tipo 0 corta de acordo com um determinado tamanho (length_threshold) tipo 1 corta até a base com valor menor do que determinada qual (qual_threshold) se corte menor que determinado tamanho (length_threshold) elimina a seq do par tipo2 =>avalia média de qualidade em janela 10% read e vai deslizando a janela até encontrar média menor que qual_threshold, ao encontrar avalia em que ponto a qualidade é menor que qual_threshold =>se corte menor que determinado tamanho (length_threshold) elimina a seq do par

Manipulação de arquivos SFF
Arquivos .sff (standard flowgram format) Converter sff para fasta/qual sffinfo -seq INPUTREADS.sff > READS.fasta sffinfo -qual INPUTREADS.sff > READS.qual Pirograma sffinfo -flow INPUTREADS.sff > READS.flow Somente ids sffinfo -a INPUTREADS.sff > ACCS.txt Gerar outro sff (lista) sfffile -i ACCS.txt -o OUTREADS_ACCS.sff INPUTREADS.sff Gerar outro sff (aleatório 10k reads) sfffile –pickr 10k –o OUTREADS_10k.sff INPUTREADS.sff

Homopolímeros T C A G A ?c GG - AAAAA ?a
Nucleotides are flown over the sequencing plate in a determined order (T-A-C-G) and a light signal is generated during nucleotide incorporation. The strength of the light signal is proportional to the number of bases built in (at least up to a certain number, around 7). As the flow order is always the same, for certain sequences no base can be built in, leading to a signal of strength (+/-) 0. T C A G A ?c GG AAAAA ?a key sequence (TCAG) – Calibragem do sinal Detecção entre sinais 1 e 2 = 100%. Detecção entre sinais 5 e 6 = 20%.

Protocolos especiais 454 Paired-Ends Multiplex Scripts úteis
Orientação fwd-fwd Multiplex Adaptadores MID Scripts úteis Biblioteca Padrão x Biblioteca MID

Montagem Transcriptoma com leituras 454
Desafios extras Cauda poly(A) Genes ribossomais Bancos de dados pré-montados (est2assembly) Genoma mitocondrial Elementos repetitivos (e.g. elementos transponíveis) Adaptadores/Primers

seqclean http://sourceforge.net/projects/seqclean/
seqclean <seqfile> [-v <vecdbs>] [-s <screendbs>] [-r <reportfile>] [-o <outfasta>] [-n slicesize] [-c {<num_CPUs>|<PVM_nodefile>}] [-l <minlen>] [-N] [-A] [-L] [-x <min_pid>] [-y <min_vechitlen>] [-m < >] Parameters <seqfile>: sequence file to be analyzed (multi-FASTA) -c use the specified number of CPUs on local machine(default 1) -n number of sequences taken at once in each search slice (default 2000) -v comma delimited list of sequence files to use for end-trimming of <seqfile> sequences (usually vector sequences) -l during cleaning, consider invalid the sequences sorter than <minlen> (default 100) -s comma delimited list of sequence files to use for screening <seqfile> sequences for contamination (mito/ribo or different species contamination) -r write the cleaning report into file <reportfile> (default: <seqfile>.cln) -o output the "cleaned" sequences to file <outfasta> (default: <seqfile>.clean) -x minimum percent identity for an alignemnt with a contaminant (default 96) -y minimum length of a terminal vector hit to be considered(>11, default 11) -N disable trimming of ends rich in Ns (undetermined bases) -M disable trashing of low quality sequences -A disable trimming of polyA/T tails -L disable low-complexity screening (dust) -I do not rebuild the cdb index file -m send notifications to < > - elimina seqs de baixa complexidade também algoritmo mdust Reproduzir a poda no arquivo .qual cln2qual <cln_report> <qual_file>

RepeatMasker Mascarar elementos repetitivos espalhados no genoma
e.g., transposons, retrotransposons, ISs RepeatMasker -qq -no_is -nolow <FASTA FILE> -lib <REPEATLIBFILE> -species <SPECIES> -qq : mais rápido porém menos sensível -no_is : não mascarar inserção de sequências de bactérias (IS) -nolow : não mascarar sequências de baixa complexidade -pa : número de processadores -lib : arquivo com as sequências dos elementos repetitivos no formato FASTA -ns_max_p <integer> Filter sequence with more than ns_max_p percentage of Ns. Filtra reads com mais de 70% de mascaramento. Filtra reads com mais de 70% de mascaramento. prinseq-lite.pl -fasta input.fasta.masked -qual input.fasta.qual \ -ns_max_p out_good input.fasta.masked.cleaned ;

Clipping adapters/primers/barcodes (FASTQ - Illumina)
Lista Sequências contaminates (Illumina) cat ERR sra_2.fastq |\ fastx_clipper -Q 33 -l 31 -v -a ACACTCTTTCCCTACACGACGCTCTTCCGATCT |\ fastx_clipper -Q 33 -l 31 -v -a CGGTCTCGGCATTCCTACTGAACCGCTCTTCCGATCT |\ fastx_clipper -Q 33 -l 31 -v -a ATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATC |\ fastx_clipper -Q 33 -l 31 -v -a CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATC |\ fastx_artifacts_filter -Q 33 -v |\ fastq_quality_filter -Q 33 -q 20 -p 50 -v -o ERR sra_2_cleaned.fastq; fastx_artifacts_filter – remoção de sequências baixa complexidade; fastx_quality_filter – remoção das sequências que não possuem –p % de bases com qualidade maior ou igual a –q ;

Reparar a ordem das leituras
pair-ends.pl [-h/--help] [ -g1 PEExp_1.fastq -g2 PEExp_2.fastq -i1 PEExp_1_cleaned.fastq -i2 PEExp_2_cleaned.fastq -o1 PEExp_1_cleaned_paired.fastq -o2 PEExp_2_cleaned_paired.fastq –os EExp_cleaned_single.fastq -h --help Help -g1 --guidefile1 Guide file 1 (Original fastq p1 file - pre-filtering) -g2 --guidefile2 Guide file 2 (Original fastq p2 file - pre-filtering) -i1 --inputfile1 Input file 1 (Filtered fastq p1 file - post-filtering) -i2 --inputfile2 Input file 2 (Filtered fastq p2 file - post-filtering) -o1 --outputfile1 Output file 1 -o2 --outputfile2 Output file 2 -os --outputfiles Output file s

Preparação da Entrada para o Newbler
Converter o arquivo pré-processado no formato FASTQ para FASTA e QUAL prinseq-lite.pl -fastq input.fastq -out_format 2 \ > -out_good /tmp/input Arquivos gerados: input.fasta input.qual

Preparação da Entrada (paired-ends) para o Velvet
Une os arquivos em pares P1 (forward) e P2 (reverse) shuffleSequences_fasta.pl P1.fasta P2.fasta input.fasta shuffleSequences_fastq.pl P1.fastq P2.fastq input.fastq @ :4:1:2:762#0/1 CCGATTTTCCGGAAAAAGGCTAAAACTACAAAGNNN :4:1:2:762#0/1 ababaààaaaababaaaa_aaba`WàabaYDDD @ :4:1:2:762#0/2 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN :4:1:2:762#0/2 DDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDD @ :4:1:2:1736#0/1 ATGCGCATGGCCACCCCGCTGCTGATGCAGGCGNNN :4:1:2:1736#0/1 `]àâaT`\aààà^`\][KO\RX`[MM\PDDD @ :4:1:2:1736#0/2 :4:1:2:1736#0/2 P1 P2

Referências Schmieder R, Edwards R. Quality control and preprocessing of metagenomic datasets. Bioinformatics Mar 15;27(6): Epub 2011 Jan 28. PubMed PMID: ; PubMed Central PMCID: PMC ; Tarailo-Graovac M, Chen N. Using RepeatMasker to identify repetitive elements in genomic sequences. Curr Protoc Bioinformatics Mar;Chapter 4:Unit PubMed PMID: ;

Daniel Guariz Pinheiro

Tutorial os arquivos ecoli_... rDNA... mito... (têm que ser descomprimidos de est2assembly_dataC.tar) Arquivos já foram baixados !!! Não façam download dos dados aqui no curso... /home/labinfo/DanielGP Os arquivos neste diretório devem ser copiados para as respectivas pastas dentro da estrutura de diretórios organizada (classes/). Alternativa: criar links simbólicos (somente usuários avançados); Diretório de trabalho /cbab/labinfo/ ALMOÇO: 13:00 RETORNO: 14:00 hrs

Pré-processamento de Sequências de Transcritos

Apresentações semelhantes

Apresentação em tema: "Pré-processamento de Sequências de Transcritos"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Pré-processamento de Sequências de Transcritos

Apresentações semelhantes

Apresentação em tema: "Pré-processamento de Sequências de Transcritos"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback