A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Pré-processamento de Sequências de Transcritos Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética.

Apresentações semelhantes


Apresentação em tema: "Pré-processamento de Sequências de Transcritos Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética."— Transcrição da apresentação:

1 Pré-processamento de Sequências de Transcritos Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo

2 Planejamento Preparação da árvore de diretórios Obtenção dos dados – dataset1 (Roche 454 GS FLX) – dataset2 (Illumina Genome Analyzer) Pré-processamento – Mapeamento – Montagem de novo

3 FERRAMENTAS PARA O PRÉ- PROCESSAMENTO DE SEQUÊNCIAS DE TRANSCRITOS Introdução

4 Preparação (aula1) Organização da estrutura de diretórios para a aula 1 classesdataset1rawprocessedalignedbwadataset2rawprocessedalignedbwabowtieref hg19 refGenecontaminantsindexeshg19bwabowtiecontaminantsblastscripts

5 Preparação (aula2) Organização da estrutura de diretórios para a aula 2 classesdataset1raw processed alignedbwaassemblednewbler dataset2rawprocessedalignedbwa bowtieassembledvelvetref hg19 refGenecontaminants indexes hg19bwabowtiecontaminantsblast scripts

6 Comandos úteis #Criar diretório (mkdir) mkdir –p /work/CBAB/nomedoaluno/ #Trocar de diretório (cd) cd /work/CBAB/nomedoaluno/ #Listar todo o conteúdo do diretório (ls) ls /work/CBAB/nomenoaluno/* #Informar diretório atual (pwd) pwd #Descompactar arquivos no formato.gz gunzip file.gz #Descompactar arquivos no formato.tar.gz ou.tgz tar -zxvf file.tar.gz #Descompactar arquivos no formato.tar tar -xvf file.tar #Descompactar arquivos no formato.tar.bz2 ou.tar.bz tar -jxvf file.tar.bz2 #Descompactar arquivos no formato.bz2 ou.bz bunzip2 file.bz2 #Descompactar arquivos no formato.zip unzip file.zip #Determinar o tipo do arquivo (file) file undeterminedfiletype.unk #Criar um atalho (ln) ln -s /source/file.txt /destiny/linktofile.txt #Atribuir permissão de execução (chmod) chmod a+x script.sh # p/ todos os usuários #Imprimir as n linhas de um arquivo (head) head -10 file1.txt # primeiras 10 linhas #Imprimir todas linhas de arquivo(s) (cat) cat file1.txt file2.txt

7 Repositórios públicos SRA (NCBI Sequence Read Archive): ENA (EBI European Nucleotide Archive): DRA (DDBJ Sequence Read Archive): [http://trace.ddbj.nig.ac.jp/dra/documentation_e.shtml]http://trace.ddbj.nig.ac.jp/dra/documentation_e.shtml

8 dataset1 Pool de 2 amostras de culturas de melanócitos de epiderme humana normal (454 GS FLX) – SRA – GEO – SRR sra NCBI SRA Toolkit (sff-dump) – sff-dump -A SRR sra – SRR sff – Aspera Download (command-line) ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.putty -Q -l100m instant/reads//ByRun/sra/SRR/SRR063/SRR063336/SRR sra.

9 dataset2 Amostra de uma linhagem celular de linfoblastos humanos obtidas de paciente com câncer de maama (Illumina GA) – – ERR sra NCBI SRA Toolkit (fastq-dump) – fastq-dump -A ERR sra – ERR sra_1.fastq – ERR sra_2.fastq – Aspera Download (command-line) ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.putty -Q -l100m instant/reads//ByRun/sra/SRR/SRR022/SRR022690/SRR sra.

10 Manipulação arquivos fastq FASTX-Toolkit – – Ferramentas executadas via linha de comando para manipulação das sequências no formato FASTQ. Por exemplo, produzem estatísticas de qualidade das leituras, realizam uma poda de qualidade ou de adaptadores, etc. Apropriado para dados de Illumina; Pode ser utilizado para dados de Roche 454 convertidos para o formato FASTQ; – Galaxy (Giardine et al., 2005)

11 Checagem de qualidade fastx_quality_stats -Q 33 -i ERR sra_1.fastq -o ERR sra_1.fastq_qual_stat fastx_quality_stats -Q 33 -i ERR sra_2.fastq -o ERR sra_2.fastq_qual_stat The output TEXT file will have the following fields (one row per column): column= column number (1 to 36 for a 36-cycles read solexa file) count = number of bases found in this column. min= Lowest quality score value found in this column. max = Highest quality score value found in this column. sum = Sum of quality score values for this column. mean = Mean quality score value for this column. Q1= 1st quartile quality score. med= Median quality score. Q3= 3rd quartile quality score. IQR= Inter-Quartile range (Q3-Q1). lW= 'Left-Whisker' value (for boxplotting). rW= 'Right-Whisker' value (for boxplotting). A_Count= Count of 'A' nucleotides found in this column. C_Count= Count of 'C' nucleotides found in this column. G_Count= Count of 'G' nucleotides found in this column. T_Count= Count of 'T' nucleotides found in this column. N_Count= Count of 'N' nucleotides found in this column. max-count= max. number of bases (in all cycles) fastq_quality_boxplot_graph.sh -i ERR sra_1.fastq_qual_stat -o ERR sra_1.fastq_qual_stat.png fastq_quality_boxplot_graph.sh -i ERR sra_2.fastq_qual_stat -o ERR sra_2.fastq_qual_stat.png

12 FastQC Ferramenta para análise e controle de qualidade fastqc seqfile1 seqfile2.. seqfileN fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1.. seqfileN

13 Estatísticas assemblystats – – Métricas em arquivos fasta Min read length Max read length Mean read length Standard deviation of read length Median read length N50 read length PRINSEQ – – Métricas em arquivos fasta, qual e fastq – Filtros qualidade poly(A) Conteúdo de GC duplicações FASTQC – – Necessita conversão para fastq sff2fastq – https://github.com/indraniel/sff2fastq https://github.com/indraniel/sff2fastq

14 Colapsar sequências Objetivo: Evitar duplicação de leituras ocorridas na etapa de PCR. Adequado para detecção de mutações, mas não em expressão gênica diferencial, o melhor é utilizar um modelo que considere a ocorrência dessas duplicações. FASTX-Toolkit fastx_collapser -Q 33 -i ERR sra.merged.fastq -o ERR sra.merged.collapsed.fasta PRINSEQ (requer MUITA memória!) – in-house perl scripts (requer preferencialmente nsort - caso contrário demora muito tempo!). Entrada é FASTQ.http://www.ordinal.com – – dedup.sh Obs.: Nas três abordagens acima, no caso de leituras paired-end é necessário concatenar os pares, colapsar as sequências e depois separá-las novamente. Goby (http://campagnelab.org/software/goby/)http://campagnelab.org/software/goby/ – goby 3g fasta-to-compact --paired-end --quality-encoding Sanger -d -x PE_1.txt -o PE.compact-reads – goby 3g tally-reads -i PE.compact-reads -o myfilter – goby 3g compact-to-fasta -t fastq -f myfilter-keep.filter -i PE.compact-reads -o PE_p1.txt -p PE_pair.txt

15 Podas de qualidade (1) / Cauda poli-A/T prinseq-lite.pl A filtragem de cauda poli-A/T pode reduzir o número de falsos positivos nos alinhamentos. A eliminação de regiões de baixa qualidade pode reduzir o número de falsos negativos. Principais argumentos: -derep: opção 1 (idêntico) -min_len: tamanho mínimo -out_format: opção 2 (FASTA e QUAL) -trim_tail_right: tamanho mínimo -trim_tail_left: tamanho mínimo -trim_qual_step: passo para o deslize da janela -trim_qual_window: tamanho da janela -out_good: arquivo de saída

16 Podas de qualidade (2) fastq_quality_trimmer -Q 33 -t 31 -i ERR sra_2.fastq - o ERR sra_2_trim31.fastq – -Q: quality score (33 Phred/64 Illumina) – -t : quality threshold – -l : minimum length – -i : input – -o: output Trim.pl (by Nik Joshi) – – Ideal para leituras paired-ends perl Trim.pl --type 2 --qual-threshold 30 --length-threshold qual-type 0 --pair1 dataset2/input/ERR sra_1.fastq --pair2 dataset2/input/ERR sra_2.fastq --outpair1 dataset2/input/ERR sra_1_trim20.fastq --outpair2 dataset2/input/ERR sra_2_trim20.fastq --single dataset2/input/ERR sra_trim.fastq

17 Manipulação de arquivos SFF Arquivos.sff (standard flowgram format) – Converter sff para fasta/qual sffinfo -seq INPUTREADS.sff > READS.fasta sffinfo -qual INPUTREADS.sff > READS.qual – Pirograma sffinfo -flow INPUTREADS.sff > READS.flow – Somente ids sffinfo -a INPUTREADS.sff > ACCS.txt – Gerar outro sff (lista) sfffile -i ACCS.txt -o OUTREADS_ACCS.sff INPUTREADS.sff – Gerar outro sff (aleatório 10k reads) sfffile –pickr 10k –o OUTREADS_10k.sff INPUTREADS.sff

18 Homopolímeros Detecção entre sinais 1 e 2 = 100%. Detecção entre sinais 5 e 6 = 20%. T C A G A ?c GG - AAAAA ?a key sequence (TCAG) – Calibragem do sinal

19 Protocolos especiais 454 Paired-Ends – Orientação fwd-fwd Multiplex – Adaptadores MID Scripts úteis – Biblioteca Padrão x Biblioteca MID

20 Montagem Transcriptoma com leituras 454 Desafios extras – Cauda poly(A) – Genes ribossomais Bancos de dados pré-montados (est2assembly) – Genoma mitocondrial Bancos de dados pré-montados (est2assembly) – Elementos repetitivos (e.g. elementos transponíveis) – Adaptadores/Primers

21 seqclean seqclean [-v ] [-s ] [-r ] [-o ] [-n slicesize] [-c { | }] [-l ] [-N] [-A] [-L] [-x ] [-y ] [-m ] Parameters : sequence file to be analyzed (multi-FASTA) -c use the specified number of CPUs on local machine(default 1) -n number of sequences taken at once in each search slice (default 2000) -v comma delimited list of sequence files to use for end-trimming of sequences (usually vector sequences) -l during cleaning, consider invalid the sequences sorter than (default 100) -s comma delimited list of sequence files to use for screening sequences for contamination (mito/ribo or different species contamination) -r write the cleaning report into file (default:.cln) -o output the "cleaned" sequences to file (default:.clean) -x minimum percent identity for an alignemnt with a contaminant (default 96) -y minimum length of a terminal vector hit to be considered(>11, default 11) -N disable trimming of ends rich in Ns (undetermined bases) -M disable trashing of low quality sequences -A disable trimming of polyA/T tails -L disable low-complexity screening (dust) -I do not rebuild the cdb index file -m send notifications to Reproduzir a poda no arquivo.qual cln2qual

22 RepeatMasker Mascarar elementos repetitivos espalhados no genoma – e.g., transposons, retrotransposons, ISs RepeatMasker -qq -no_is -nolow -lib -species -qq : mais rápido porém menos sensível -no_is: não mascarar inserção de sequências de bactérias (IS) -nolow: não mascarar sequências de baixa complexidade -pa: número de processadores -lib: arquivo com as sequências dos elementos repetitivos no formato FASTA prinseq-lite.pl -fasta input.fasta.masked -qual input.fasta.qual \ -ns_max_p 70 -out_good input.fasta.masked.cleaned ; Filtra reads com mais de 70% de mascaramento.

23 Clipping adapters/primers/barcodes (FASTQ - Illumina) Lista Sequências contaminates (Illumina) – cat ERR sra_2.fastq |\ fastx_clipper -Q 33 -l 31 -v -a ACACTCTTTCCCTACACGACGCTCTTCCGATCT |\ fastx_clipper -Q 33 -l 31 -v -a CGGTCTCGGCATTCCTACTGAACCGCTCTTCCGATCT |\ fastx_clipper -Q 33 -l 31 -v -a ATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATC |\ fastx_clipper -Q 33 -l 31 -v -a CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATC |\ fastx_artifacts_filter -Q 33 -v |\ fastq_quality_filter -Q 33 -q 20 -p 50 -v -o ERR sra_2_cleaned.fastq; fastx_artifacts_filter – remoção de sequências baixa complexidade; fastx_quality_filter – remoção das sequências que não possuem –p % de bases com qualidade maior ou igual a –q ;

24 Reparar a ordem das leituras pair-ends.pl [-h/--help] [ -g1 PEExp_1.fastq -g2 PEExp_2.fastq -i1 PEExp_1_cleaned.fastq -i2 PEExp_2_cleaned.fastq -o1 PEExp_1_cleaned_paired.fastq -o2 PEExp_2_cleaned_paired.fastq –os EExp_cleaned_single.fastq -h --help Help -g1 --guidefile1 Guide file 1 (Original fastq p1 file - pre-filtering) -g2 --guidefile2 Guide file 2 (Original fastq p2 file - pre-filtering) -i1 --inputfile1 Input file 1 (Filtered fastq p1 file - post-filtering) -i2 --inputfile2 Input file 2 (Filtered fastq p2 file - post-filtering) -o1 --outputfile1 Output file 1 -o2 --outputfile2 Output file 2 -os --outputfiles Output file s

25 Preparação da Entrada para o Newbler Converter o arquivo pré-processado no formato FASTQ para FASTA e QUAL prinseq-lite.pl -fastq input.fastq -out_format 2 \ > -out_good /tmp/input Arquivos gerados: input.fasta input.qual

26 Preparação da Entrada (paired-ends) para o Velvet Une os arquivos em pares P1 (forward) e P2 (reverse) shuffleSequences_fasta.pl P1.fasta P2.fasta input.fasta shuffleSequences_fastq.pl P1.fastq P2.fastq CCGATTTTCCGGAAAAAGGCTAAAACTACAAAGNNN :4:1:2:762#0/1 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN :4:1:2:762#0/2 ATGCGCATGGCCACCCCGCTGCTGATGCAGGCGNNN :4:1:2:1736#0/1 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN :4:1:2:1736#0/2 DDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDD P1 P2

27 Referências Schmieder R, Edwards R. Quality control and preprocessing of metagenomic datasets. Bioinformatics Mar 15;27(6): Epub 2011 Jan 28. PubMed PMID: ; PubMed Central PMCID: PMC ; Tarailo-Graovac M, Chen N. Using RepeatMasker to identify repetitive elements in genomic sequences. Curr Protoc Bioinformatics Mar;Chapter 4:Unit PubMed PMID: ;

28 Daniel Guariz Pinheiro

29 Tutorial os arquivos ecoli_... rDNA... mito... (têm que ser descomprimidos de est2assembly_dataC.tar) Arquivos já foram baixados !!! Não façam download dos dados aqui no curso... – /home/labinfo/DanielGP Os arquivos neste diretório devem ser copiados para as respectivas pastas dentro da estrutura de diretórios organizada (classes/). Alternativa: criar links simbólicos (somente usuários avançados); Diretório de trabalho – /cbab/labinfo/ ALMOÇO: 13:00 RETORNO: 14:00 hrs


Carregar ppt "Pré-processamento de Sequências de Transcritos Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética."

Apresentações semelhantes


Anúncios Google