DEPARTAMENTO DE ESTATÍSTICA

DEPARTAMENTO DE ESTATÍSTICA
Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário). Visão Pessoal TKS dr. Francisco Cysneiros

UNIVERSIDADE FEDERAL DE PERNAMBUCO DEPARTAMENTO DE ESTATÍSTICA
Dados estatísticos sobre a vida biológica: a aleatoriedade como marca indelével no genoma das espécies. Prof. H. Magalhães de Oliveira UFPE – AGO 2013

Escala Cronológica da Evolução da Vida
DNA – origem da vida: Uma cronologia (Battail, 2001)

Tendências estão derrubando as barreiras entre o vivo e o não vivo.
O QUE É REALMENTE A VIDA? Tendências estão derrubando as barreiras entre o vivo e o não vivo. 1a mudança: Superação do vitalismo. 2a mudança: desaparecimento dos contornos nítidos na distinção entre vivos e não vivos Seleção natural Darwinismo e Teoria da evolução O DNA / RNA

Propriedades características da vida natural
Capacidade de reprodução Sensibilidade ao ambiente Metabolismo Singularidade química Alto grau de complexidade e organização Programação genética que dirige o desenvolvimento Histórico modelado pela seleção natural

Dificuldades para definir a vida.
SEMENTES, estão vivas, mas não metabolizam VIRUS, não se auto-reproduzem (vide mulas) SALSICHAS não estão vivas, mas contém programa genético, são feitas de proteínas e DNA VIRUS DE COMPUTADOR, com propriedades da vida biológica: reproduzem-se, são sensíveis ao ambiente, metabolizam (consomem processamento, memória), podem ser complexos, sobrevivem usando seleção natural.

Fundamentos da Estrutura do DNA
Os organismos vivos => células Procariontes vs Eucariontes As células dos eucariontes- coordenação de todas as atividades: o núcleo Núcleo: DNA, contém a informação genética. transmissão da informação genética e síntese de proteínas.

DNA – Estrutura e Função
Bases nitrogenadas Purinas Pirimidinas

DNA – Estrutura Ligação Fosfodiéster

DNA – Estrutura Bases Complementares

1953: descoberta da estrutura do DNA
Watson & Crick: estrutura dupla hélice do DNA

DNA – Estrutura e Função
Dupla Hélice

DNA – Duplicação Ocorre na presença da DNA polimerase, que rompe as pontes de hidrogênio entre as bases nitrogenadas e as duas fitas do DNA se afastam: Nucleotídeos livres existentes na célula encaixam-se nas fitas, sempre em suas bases complementares São formadas duas moléculas de DNA idênticas. A duplicação do DNA é chamada semiconservativa porque a molécula nova do DNA tem uma fita nova e uma fita velha, originária da molécula mãe.

Relação do Dogma Central
DNA DNA RNA Síntese Protéica replicação Transcriptase reversa X transcrição In vivo RNA polimerase tradução Retrovírus

Síntese de Proteínas - Tradução
A tradução ocorre nos ribossomas Trinca de bases do mRNA códon Trinca de bases do tRNA  anti-códon

Tradução Nirenberg & Kohana

Síntese de proteínas

Mapping DNA into Proteins
The genetic source is characterized by a four-letter alphabet : N={U, C, A, G} Input alphabet N3={n1,n2,n3 | ni  N, i=1,2,3} Output alphabet A:={Leu, Pro, Arg, Gln, His, Ser, Phe, Trp, Tyr, Asn, Lys, Ile, Met, Thr, Asp, Glu, Gly, Ala, Val, Stop} High redundancy map GC: N3 (|| N3 ||=64)  A (||A||=21)

O Código Genético 2a Letra U C A G 1a Letra 3a Letra FENILALANINA
LEUCINA SERINA TIROSINA PARADA CISTEÍNA TRIPTOFANO PROLINA HISTIDINA GLUTAMINA ARGININA ISOLEUCINA METIONINA (INÍCIO.) TREONINA ASPARAGINA LISINA VALINA ALANINA AC. ASPÁRTICO AC. GLUTÂMICO GLICINA 1a Letra 3a Letra

On the Origin of Species
“A analogia me levaria a um passo adiante, isto é, à crença de que todos os animais e vegetais descendem de um protótipo único [...] Todos os seres vivos têm muito em comum, em sua composição química, em suas vesículas germinativas, em sua estrutura celular e em suas leis de crescimento e reprodução [...] Provavelmente todos os seres orgânicos que tenham em qualquer ocasião vivido nessa Terra, descendem de alguma forma primordial única, na qual a vida primeiro respirou. ... De um começo tão simples, formas infindáveis, as mais belas e as mais maravilhosas, evoluíram e estão evoluindo.” CHARLES DARWIN (1859) On the Origin of Species

DNA: Similaridades Similaridade entre DNA de humanos:
Similaridade humanos - chimpanzés: 98,5% Somente ~2 % do genoma humano codifica proteínas: 3.109 bp -> 120 Mb/(8b/B)=15MB

O homem é mais próximo do gorila ou do orangotango
O homem é mais próximo do gorila ou do orangotango? Comparação do DNA mitocondrial homem ATA ACC ATG CAC ACT ACT ATA ACC ACC CTA ACC CTG ACT TCC CTA ATT CCC CCC ATC CTT ACC CTC GTT ACC ... gorila ATA ACT ATG TAC GAT ACC ATA ACC ACC TTA GCC CTA ACT TCC TTA ATT CCC CCT ATC CTT ACC TTC ATC ACT ... orangotango ACA GCC ATG TTT ACT ACC ATA ACT GCC CTC ACC TTA ACT TCC CTA ATC CCC CCC ATT ACC GCT CTC ATT AAC ...

1953: primeira seqüência de aminoácidos
Sanger: seqüência de aminoácidos da insulina bovina MALWTRLRPLLALLALWPPPPARAFVNQHLCGSHLVEALYLVCGERGFFYTP KARREVEGPQVGALELAGGPGAGGLEGPPQKRGIVEQCCASVCSLYQLENYCN

Representações Alternativas para o Código Genético
Inner-to-outer map 2D-Gray genetic map, genetic world-chart representations DE OLIVEIRA, H.M.,SANTOS-MAGALHÃES, N.S., The Genetic Code revisited: Inner-to-outer map, 2D-Gray map, and World-map Genetic Representations, 11th International Conference on Telecommunications, August 1-7, Fortaleza, Brazil, ICT2004, 2004, submetido. SANTOS-MAGALHÃES, N.S., BOUTON, E.A., DE OLIVEIRA, H.M., How to Represent the Genetic Code?, Reunião Anual da Sociedade Brasileira de Bioquímica, SBBq, 2004, submetido.

The Inner-to-outer Map
First nucleotide: inner circle Second nucleotide: surrounding Third nucleotide: outer region Homofonemas Inner-to-outer map for the genetic code

Modem 64-QAM de Oliveira

U [11]; A  [00]; G  [10]; C  [01]. bacteriophage FX174: Each binary codeword belongs to a constant weigh code. DNA Codeword G...C 01 10 A...T 00 11 T...A 11 00

Representação 2D-Gray de Oliveira, Santos Magalhães 2004

Código Genético: Mapeamento dos aminoácidos
Santos Magalhães, E.Bouton, de Oliveira 2004

Coloured 2D-Gray genetic map
Val Ile Thr Ala Phe Leu Pro Ser Trp Arg Gln Stop Arp Cys His Tyr Gly Asn Asp Lys Glu Met Coloured Genetic code map for amino-acids This representation merges regions mapped into the same amino-acid !

Terra de Nirenberg-Kohana: Continentes
Continents of Niremberg-Kohama's Earth: regions of essential amino acid corresponds to the land and nonessential amino acids constitutes the ocean.

Éxons  Íntrons

Eliminando os íntrons na transcrição

Trecho de DNA da b-hemoglobina humana (reading frames)
...ACA GAC ACC ATG GTC CAC CTT GAC... . .. CAG ACA CCA TGG TGC ACC TGG... ... AGA CAC CAT GGT GCA CCT TGA ... Genes da sub-unidade b da hemoglobina (2 genes) A B 90 bp bp bp bp bp

Porção do DNA do genoma do HIV-1
GGG TTC TTG GGA GCA GCA GGA AGC ACT ATG GGC GCA ... O câncer é causado por agentes (carcinógenos, radiação, vírus) que danificam o DNA, ou interferem nos seus mecanismos de replicação e/ou reparo.

Espectro para localização de Éxons (Gene F56F11.4)
Análise genômica Espectro para localização de Éxons (Gene F56F11.4)

Análise wavelet de seqüências genômicas
Oncogênio c-myb (galinha) 8.200 bp b-cardíaco humano 6.000 bp

Genoma Music - Body Music Susumo Ohno
URL-

Gene n. de aminoácidos quadro
DNA do bacteriófago fX174 5.386 bp genes (A até K) Gene n. de aminoácidos quadro A (1539 bp) 2 B (360 bp) 1 C (258 bp) 1 D (456 bp) 3 E (273 bp) 1 F (1281 bp) 2 G (525 bp) 1 H (984 bp) 3 J (114 bp) 2 K (168 bp) 3 5.958 bp

Genes no DNA do bacteriófago fX174

GAGTTTTATCGCTTCCATGACGCAGAAGTTAACACTTTCGGATATTTCTGATGAGTCGAAAAATTATCTTGATAAAGCAGGAATTACTACTGCTTGTTTACGAATTAAATCGAAGTGGACTGCTGGCGGAAAATGAGAAAATTCGACCTATCCTTGCGCAGCTCGAGAAGCTCTTACTTTGCGACCTTTCGCCATCAACTAACGATTCTGTCAAAAACTGACGCGTTGGATGAGGAGAAGTGGCTTAATATGCTTGGCACGTTCGTCAAGGACTGGTTTAGATATGAGTCACATTTTGTTCATGGTAGAGATTCTCTTGTTGACATTTTAAAAGAGCGTGGATTACTATCTGAGTCCGATGCTGTTCAACCACTAATAGGTAAGAAATCATGAGTCAAGTTACTGAACAATCCGTACGTTTCCAGACCGCTTTGGCCTCTATTAAGCTCATTCAGGCTTCTGCCGTTTTGGATTTAACCGAAGATGATTTCGATTTTCTGACGAGTAACAAAGTTTGGATTGCTACTGACCGCTCTCGTGCTCGTCGCTGCGTTGAGGCTTGCGTTTATGGTACGCTGGACTTTGTGGGATACCCTCGCTTTCCTGCTCCTGTTGAGTTTATTGCTGCCGTCATTGCTTATTATGTTCATCCCGTCAACATTCAAACGGCCTGTCTCATCATGGAAGGCGCTGAATTTACGGAAAACATTATTAATGGCGTCGAGCGTCCGGTTAAAGCCGCTGAATTGTTCGCGTTTACCTTGCGTGTACGCGCAGGAAACACTGACGTTCTTACTGACGCAGAAGAAAACGTGCGTCAAAAATTACGTGCGGAAGGAGTGATGTAATGTCTAAAGGTAAAAAACGTTCTGGCGCTCGCCCTGGTCGTCCGCAGCCGTTGCGAGGTACTAAAGGCAAGCGTAAAGGCGCTCGTCTTTGGTATGTAGGTGGTCAACAATTTTAATTGCAGGGGCTTCGGCCCCTTACTTGAGGATAAATTATGTCTAATATTCAAACTGGCGCCGAGCGTATGCCGCATGACCTTTCCCATCTTGGCTTCCTTGCTGGTCAGATTGGTCGTCTTATTACCATTTCAACTACTCCGGTTATCGCTGGCGACTCCTTCGAGATGGACGCCGTTGGCGCTCTCCGTCTTTCTCCATTGCGTCGTGGCCTTGCTATTGACTCTACTGTAGACATTTTTACTTTTTATGTCCCTCATCGTCACGTTTATGGTGAACAGTGGATTAAGTTCATGAAGGATGGTGTTAATGCCACTCCTCTCCCGACTGTTAACACTACTGGTTATATTGACCATGCCGCTTTTCTTGGCACGATTAACCCTGATACCAATAAAATCCCTAAGCATTTGTTTCAGGGTTATTTGAATATCTATAACAACTATTTTAAAGCGCCGTGGATGCCTGACCGTACCGAGGCTAACCCTAATGAGCTTAATCAAGATGATGCTCGTTATGGTTTCCGTTGCTGCCATCTCAAAAACATTTGGACTGCTCCGCTTCCTCCTGAGACTGAGCTTTCTCGCCAAATGACGACTTCTACCACATCTATTGACATTATGGGTCTGCAAGCTGCTTATGCTAATTTGCATACTGACCAAGAACGTGATTACTTCATGCAGCGTTACCATGATGTTATTTCTTCATTTGGAGGTAAAACCTCTTATGACGCTGACAACCGTCCTTTACTTGTCATGCGCTCTAATCTCTGGGCATCTGGCTATGATGTTGATGGAACTGACCAAACGTCGTTAGGCCAGTTTTCTGGTCGTGTTCAACAGACCTATAAACATTCTGTGCCGCGTTTCTTTGTTCCTGAGCATGGCACTATGTTTACTCTTGCGCTTGTTCGTTTTCCGCCTACTGCGACTAAAGAGATTCAGTACCTTAACGCTAAAGGTGCTTTGACTTATACCGATATTGCTGGCGACCCTGTTTTGTATGGCAACTTGCCGCCGCGTGAAATTTCTATGAAGGATGTTTTCCGTTCTGGTGATTCGTCTAAGAAGTTTAAGATTGCTGAGGGTCAGTGGTATCGTTATGCGCCTTCGTATGTTTCTCCTGCTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTGCAAGAACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTGTTGCAGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACTCGCGATTCAATCATGACTTCGTGATAAAAGATTGAGTGTGAGGTTATAACGCCGAAGCGGTAAAAATTTTAATTTTTGCCGCTGAGGGGTTGACCAAGCGAAGCGCGGTAGGTTTTCTGCTTAGGAGTTTAATCATGTTTCAGACTTTTATTTCTCGCCATAATTCAAACTTTTTTTCTGATAAGCTGGTTCTCACTTCTGTTACTCCAGCTTCTTCGGCACCTGTTTTACAGACACCTAAAGCTACATCGTCAACGTTATATTTTGATAGTTTGACGGTTAATGCTGGTAATGGTGGTTTTCTTCATTGCATTCAGATGGATACATCTGTCAACGCCGCTAATCAGGTTGTTTCTGTTGGTGCTGATATTGCTTTTGATGCCGACCCTAAATTTTTTGCCTGTTTGGTTCGCTTTGAGTCTTCTTCGGTTCCGACTACCCTCCCGACTGCCTATGATGTTTATCCTTTGAATGGTCGCCATGATGGTGGTTATTATACCGTCAAGGACTGTGTGACTATTGACGTCCTTCCCCGTACGCCGGGCAATAACGTTTATGTTGGTTTCATGGTTTGGTCTAACTTTACCGCTACTAAATGCCGCGGATTGGTTTCGCTGAATCAGGTTATTAAAGAGATTATTTGTCTCCAGCCACTTAAGTGAGGTGATTTATGTTTGGTGCTATTGCTGGCGGTATTGCTTCTGCTCTTGCTGGTGGCGCCATGTCTAAATTGTTTGGAGGCGGTCAAAAAGCCGCCTCCGGTGGCATTCAAGGTGATGTGCTTGCTACCGATAACAATACTGTAGGCATGGGTGATGCTGGTATTAAATCTGCCATTCAAGGCTCTAATGTTCCTAACCCTGATGAGGCCGCCCCTAGTTTTGTTTCTGGTGCTATGGCTAAAGCTGGTAAAGGACTTCTTGAAGGTACGTTGCAGGCTGGCACTTCTGCCGTTTCTGATAAGTTGCTTGATTTGGTTGGACTTGGTGGCAAGTCTGCCGCTGATAAAGGAAAGGATACTCGTGATTATCTTGCTGCTGCATTTCCTGAGCTTAATGCTTGGGAGCGTGCTGGTGCTGATGCTTCCTCTGCTGGTATGGTTGACGCCGGATTTGAGAATCAAAAAGAGCTTACTAAAATGCAACTGGACAATCAGAAAGAGATTGCCGAGATGCAAAATGAGACTCAAAAAGAGATTGCTGGCATTCAGTCGGCGACTTCACGCCAGAATACGAAAGACCAGGTATATGCACAAAATGAGATGCTTGCTTATCAACAGAAGGAGTCTACTGCTCGCGTTGCGTCTATTATGGAAAACACCAATCTTTCCAAGCAACAGCAGGTTTCCGAGATTATGCGCCAAATGCTTACTCAAGCTCAAACGGCTGGTCAGTATTTTACCAATGACCAAATCAAAGAAATGACTCGCAAGGTTAGTGCTGAGGTTGACTTAGTTCATCAGCAAACGCAGAATCAGCGGTATGGCTCTTCTCATATTGGCGCTACTGCAAAGGATATTTCTAATGTCGTCACTGATGCTGCTTCTGGTGTGGTTGATATTTTTCATGGTATTGATAAAGCTGTTGCCGATACTTGGAACAATTTCTGGAAAGACGGTAAAGCTGATGGTATTGGCTCTAATTTGTCTAGGAAATAACCGTCAGGATTGACACCCTCCCAATTGTATGTTTTCATGCCTCCAAATCTTGGAGGCTTTTTTATGGTTCGTTCTTATTACCCTTCTGAATGTCACGCTGATTATTTTGACTTTGAGCGTATCGAGGCTCTTAAACCTGCTATTGAGGCTTGTGGCATTTCTACTCTTTCTCAATCCCCAATGCTTGGCTTCCATAAGCAGATGGATAACCGCATCAAGCTCTTGGAAGAGATTCTGTCTTTTCGTATGCAGGGCGTTGAGTTCGATAATGGTGATATGTATGTTGACGGCCATAAGGCTGCTTCTGACGTTCGTGATGAGTTTGTATCTGTTACTGAGAAGTTAATGGATGAATTGGCACAATGCTACAATGTGCTCCCCCAACTTGATATTAATAACACTATAGACCACCGCCCCGAAGGGGACGAAAAATGGTTTTTAGAGAACGAGAAGACGGTTACGCAGTTTTGCCGCAAGCTGGCTGCTGAACGCCCTCTTAAGGATATTCGCGATGAGTATAATTACCCCAAAAAGAAAGGTATTAAGGATGAGTGTTCAAGATTGCTGGAGGCCTCCACTATGAAATCGCGTAGAGGCTTTGCTATTCAGCGTTTGATGAATGCAATGCGACAGGCTCATGCTGATGGTTGGTTTATCGTTTTTGACACTCTCACGTTGGCTGACGACCGATTAGAGGCGTTTTATGATAATCCCAATGCTTTGCGTGACTATTTTCGTGATATTGGTCGTATGGTTCTTGCTGCCGAGGGTCGCAAGGCTAATGATTCACACGCCGACTGCTATCAGTATTTTTGTGTGCCTGAGTATGGTACAGCTAATGGCCGTCTTCATTTCCATGCGGTGCACTTTATGCGGACACTTCCTACAGGTAGCGTTGACCCTAATTTTGGTCGTCGGGTACGCAATCGCCGCCAGTTAAATAGCTTGCAAAATACGTGGCCTTATGGTTACAGTATGCCCATCGCAGTTCGCTACACGCAGGACGCTTTTTCACGTTCTGGTTGGTTGTGGCCTGTTGATGCTAAAGGTGAGCCGCTTAAAGCTACCAGTTATATGGCTGTTGGTTTCTATGTGGCTAAATACGTTAACAAAAAGTCAGATATGGACCTTGCTGCTAAAGGTCTAGGAGCTAAAGAATGGAACAACTCACTAAAAACCAAGCTGTCGCTACTTCCCAAGAAGCTGTTCAGAATCAGAATGAGCCGCAACTTCGGGATGAAAATGCTCACAATGACAAATCTGTCCACGGAGTGCTTAATCCAACTTACCAAGCTGGGTTACGACGCGACGCCGTTCAACCAGATATTGAAGCAGAACGCAAAAAGAGAGATGAGATTGAGGCTGGGAAAAGTTACTGTAGCCGACGTTTTGGCGGCGCAACCTGTGACGACAAATCTGCTCAAATTTATGCGCGCTTCGATAAAAATGATTGGCGTATCCAACCTGCA

Tamanho de Genomas Menor número de genes
Mycoplasma genitalium 470 genes Genoma humano Homem ~ genes (pensava-se erroneamente!)

bacteriófago fX174

ORDEM DE MAGNITUDE DE GENOMAS (pares de bases = bp)
Vírus kbp (SV40 5k, T k...) bactérias 4 Mbp (E. coli 4.7 Mb) Levedura 9 Mbp nematóide Mbp insetos Gbp mosca da fruta 180 Gbp mamíferos Gbp (man 3.2 Gbp) Peixe pulmonado 140 Gbp mostarda de erva daninha 200 Mbp Pinheiro 68 Gbp amoebia dubia 670 Gbp

PARADOXO DO ‘valor C’ Valor C =
Quantidade de DNA no Seu genoma haploide Muitos organismos menos complexos possuem valores C surpreendentemente elevados. O DNA “extra” tem função? Senão, por que é preservado de geração para geração?

Gene doença comprimento
b-globina humana anemia falciforme bp Fator VIII humano hemofilia bp Proteína kinase distrofia muscular bp

(para um genoma típico de 109 nucleotídeos)
A identidade das coisas vivas fornecida pelo substrato genético, parece válida a hipótese “species are sparse” (Battail). N. de espécies vivas na Terra ~ 107 Admita que estas sejam uma fração de 1/100 das que existiram (extinção) Tem-se ~109 espécies (aparentemente grande...) Isso é ridiculamente pequeno com respeito ao n. total de possíveis genomas na ausência de redundância GENOMAS ~ 4^109 ~ (para um genoma típico de 109 nucleotídeos)

Pequena Cronologia de Genomas
1977 Seqüenciamento completo genoma do fago fX174 (5.386 bp) 1995 Primeiro organismo vivo Genoma do Haemophilus influenzae (1,8 Mbp) 1996 Saccharomyces cerevisiae (12,1 Mbp) 1997 Escherichia coli (4.6 Mbp) 1998 Primeiro animal –nematóide Genoma do caenorhabditis elegans (97,1 Mbp) 1999 Primeiro cromossomo humano Cromossomo 22 (33,4 Mbp) 2000 Drosophila melanogaster (120 Mbp) 2000 Cromossomos 5, 16, 19, 21 Human Genome Project June 2000 – milestone draft sequence

"Tudo está nos genes"... Ou não!
Durante muito tempo, a genética resumiu-se a esse paradigma. De fato, depois da descoberta da estrutura do DNA, um esquema passou a prevalecer: A estrutura do DNA é similar a um programa de computador no qual o gene, ao codificar proteínas, determina a aparência dos organismos vivos e governa a maioria dos seus comportamentos.

Reducionaismo: Alerta Andras Paldi (CNRS).
O temendo reducionismo dos pesquisadores genéticos acaba considerando o ser vivo como uma adição estrita de elementos justapostos. Ao estabelecer um catálogo das proteínas corremos o risco de agravar o problema. É como se tentássemos entender o funcionamento de um foguete lendo o catálogo das suas peças!

Of Protein Size and Genomes
NEREIDE S. SANTOS-MAGALHÃES, HÉLIO M. DE OLIVEIRA Of Protein Size and Genomes NEREIDE S. SANTOS-MAGALHÃES, HÉLIO M. DE OLIVEIRA WSEAS TRANS. ON BIOLOGY AND BIOMEDICINE Issue 2, Vol.3, February ISSN: ~250 academia downloads number of genes? (in living organisms) 1) bacterial genomes; number of genes ~= genome size kbp. bacterial proteins reveals 350 amino acid residues as typical. 2) C. elegans genome of 99 Mbp and genomic rate 25%. Its protein size distribution has an average polypeptide length of 469 amino acids.

human proteins; A DNA code is specified by the triplet DNA(C,R,d),
serum albumin has 609 amino acid residues, collagen about 1,000, apolipoprotein B 4,536, human Titin 26,926. A DNA code is specified by the triplet DNA(C,R,d), where C is genome size (bp), R is genomic rate d is coding density (genes/bp). number of protein-coding base pairs R= total number C of base pairs of the genome.

Further DNA parameters:
g is the number of genes of the genome, e is the average number of ‘exons’ per gene.

average bacterial protein ~300 amino acids long,
coding density: estimated in terms of the expected protein size bp/gene average bacterial protein ~300 amino acids long, genomic bacterial rate ~ 0.8 to 0.9. Bacteria usually have a coding density d 1,000 bp/gene number of genes for bacteria: gC/1,000 (this is striking confirmed at

FX174 and the  phage l viruses
protein size histograms (straightforward organisms), FX174 and the  phage l viruses

C. elegans

S. cerevisiae Chr1 2,093 Chr9 1,864 Chr2 1,918 Chr10 1,906 Chr3 1,855
The coding density of different chromosomes of lower eukaryotic species is roughly the same, i.e. slight fluctuations from one chromosome to another in the same organism. The C=12,057,849 bp, g=6,268 genes) has an average coding deS. cerevisiae (nsity 1,947 bp/gene chromosomes. S. cerevisiae Chr1 2,093 Chr9 1,864 Chr2 1,918 Chr10 1,906 Chr3 1,855 Chr11 1,960 Chr4 1,870 Chr12 1,989 Chr5 2,090 Chr13 1,841 Chr6 2,144 Chr14 1,854 Chr7 1,891 Chr15 1,908 Chr8 2,017 average 1,947 bp/gene (from The coefficient of variation (CV %) of the coding density is 5.06 %

The six chromosomes of the C. elegans
(C=98,971,533 bp, g=17,585 genes) present an average coding density of 5,731 bp/gene. C. elegans ChrI 5,072 ChrII 5,592 ChrIII 5,771 ChrIV 6,312 ChrV 4,899 Chr X 6,740 average 5,731 bp/gene (from The coding density barely varies from one chromosome to another The coefficient of variation (CV %) of the coding density is 1.72 %

DNA parameters for some well-known genomes,
virus X174 microbial M. genitalium H. pylori H. influenzae S. Aureus B. subtilis M. tuberculosis E. coli X. fastidiosa

average protein length
Organism genome size C (Mbp) coding density d (bp/gene) number of genes g genomic rate R average protein length genomic information (Mbits) redundancy 1-R (%) FX174 0.0054 538 10 1.00 180 0.01 ~0 l bacteriophage 0.0485 683 71 0.95 216 0.09 5 M. genitalium 0.58 1,208 480 0.90 363 1.04 H. pylori 1.67 1,066 1,566 0.89 316 2.97 11 H. influenzae 1.83 1,071 1,709 0.86 307 3.15 14 S. aureus 2.80 1,069 2,619 0.84 299 4.70 16 B. subtilis 4.21 1,025 4,106 0.87 297 7.32 13 M. tuberculosis 4.41 1,126 3,918 0.97 364 8.56 3 E. coli 4.64 1,082 4,289 314 8.08 X. fastidiosa 2.52 1,238 2,034 0.78 322 3.93 22 S. cerevisiae 12.06 1,924 6,268 0.70 450 17.3 30 C. elegans 99 5,628 17,585 0.25 469 49.5 75 D.melanogaster 180 Mbp ~60* 120 d ~ 13,235 d' ~ 8,823 13,600 0.13 573 46.8 87 Human (old) ~3,000 Mbp 1,000* 2,000 d ~ 30,000 d' ~20,000 100,000? ~0.03 ~300? ~180.0? ~97? Human (update) ~2,900 Mbp 967* 1,933 d~112,500 d ~75,000 ~25,800 ~0.016 ~600 ~92.9 ~98.4

3) A potential measure that correlated with the complexity
1) unsuccessful attempt to explain the complexity of living beings: the genome length. The so-called C-value paradox proved that this is incorrect. 2) The number of genes was supposed to be related to complexity. people to expect more genes than human actually have. about 100,000 widespread in 80’s and late 90’s 3) A potential measure that correlated with the complexity average protein size.

storing all genes of a single human require less than 10 MB
(albeit the entire the human DNA sequence requires about 1 GB) Let C’ and d’ denote, the genome size and the coding density with the exception of highly repetitive sequences. About one third of high eukaryotic DNA corresponds to these sequences, which are not transcribed, but may have structural properties. Therefore, C’=2C/3 and d’=2d/3. The superscript “prime” refers to the expurgated genome, i.e. highly repeated sequences apart.

expected gene distribution in the 23 human chromosomes
length (bp) predicted genes (unveiled genes) Chr1 226,828,929 2,016 Chr2 205,000,000 1,822 (1,346) Chr3 195,073,306 1,734 Chr4 115,000,000 1,022 (796) Chr5 117,696,509 1,046 (923) Chr6 169,212,327 1,504 (1,557) Chr7 310,210,944 1,367a (1,150) Chr8 143,297,300 1,274 Chr9 117,790,386 1,047 (1,149) Chr10 132,016,990 1,173 (816) Chr11 130,908,954 1,163 Chr12 129,826,379 1,154 Chr13 90,000,000 800 (633) Chr14 87,191,216 775 (1,050) Chr15 81,992,482 729 Chr16 79,932,432 711 (880) Chr17 79,376,966 705 Chr18 74,658,403 663 Chr19 55,878,340 497b (1,461) Chr20 59,424,990 528 (727) Chr21 33,924,367 301c (225) Chr22 34,352,072 305 (545) Chr X 152,118,949 1,352 (1,098)

gene distribution in human chromosomes:
Genome size C=2,881 Gbp; Number of genes g=22,525. The genes mean size (bp) in each chromosome is: Human karyogram

Cromossomas humanos: Comprimentos médios
Chrom. number C (bp) genes& pseudo (only genes) e (kbp) Chr2 [27] 237,000,000 2,585 (1,346) -- 5.30 33.8 Chr4 186,000,000 1,574 (796) 6.60 34.3 Chr6 [28] 166,800,000 2,190 (1,557) 318 7,208 5.28 32.5 Chr9 [29] 109,044,351 1,575 (1,149) 342 6,799 5.77a 34.4 Chr10 [30] 131,666,441 1,357 (816) 322 7,817 5.84 39.7 Chr13 [31] 95,500,000 929 (633) 320 9,164 5.20 40.2 Chr14 [32] 87,410,661 1,443 (1,050) 295 8,194 6.35a 45.7 Chr20 [33] 59,187,298 895 (727) 292 5,170 6.00 27.2 Chr22 [34] 34,491,000 679 (545) 266 4,037 5.40 19.2 Cromossomas humanos: Comprimentos médios

average number of amino acid residues ( L) genomic rate (R)
the average number of amino acid residues ( ) and the genomic rate (R) are shown. average number of amino acid residues ( L) genomic rate (R) Chrom. number Chr6 Chr9 Chr10 Chr13 Chr14 Chr20 Chr22 (aa) 560 658 627 555 624 584 479 R (%) 1.56 1.79 1.17 1.10 2.36 2.15 1.82

CONCLUSIONS ************ average length of ‘exon’ about 300 bp,
average length of ‘intron’ about 6,900 bp, mean of about 6 exons/gene (from single-exon genes to 175 exon for the Titin gene!) average number of residues for coded-proteins ~ 600 aa. ************ average protein size as a worthy criterion for assessing life complexity.

DNA-Error Control Code May Be Unstructured
H. M. DE OLIVEIRA, N.S. SANTOS-MAGALHÃES The astonishing reliability by which deoxyribonucleic acid (DNA) has been preserved through ages implies that cell’s replication machinery have to ensure against copying mistakes. The replication machine is self-correcting and operates with a mean of 1 error per 107 nucleotides copied. Around 99% of such errors are corrected by the DNA mismatch repair mechanism, resulting 1 error per 109 nucleotides copied.

Introns & exons INTRONS: size ranging from 20 bp, to 250,000 bp;
most eukaryotic genes have their coding sequences interrupted by noncoding regions (the so-called introns, for intervening nontranscribed sequences). ‘Introns’ are usually longer than the ‘exons’. INTRONS: size ranging from 20 bp, to 250,000 bp; EXONS: size ranging from 50 to 600 bp (average 300 bp). attempts in understanding the biological role of ‘introns’: no recognized functions were found.

Highly repetitive sequences:
SINES (short interspersed elements) 13% of the genome, LINES (long interspersed elements.) 21% of the genome. Repetitive DNA has commonly been regarded as “junk-DNA”, noncoding DNA: ‘introns’, 26% of the human genome. Viruses and bacteria have a high fecundity and few gene families; have little or almost no need for protection. Plants and animals have high permanency. => Must be robust to mutations (survivors of natural selection)

Standard error correcting codes
designed by imposing constraints on the sequences. Why using structured codes? Answer : (mislead) belief that the decoding of random code is unfeasible. Due to the lack of structure => an exhaustive search. We think that Darwinian mechanisms for protecting DNA may be quite different. No parity rules should be looked for! (HMdO)

we believe : ‘introns’ were the spontaneous mechanism of introducing uncertainty.
In a battle, a crucial payload is to be sent to the front. If the only way is sending it through the battlefield, it should not be directly dispatched. Many fake-cargos could be added, and the relevant one will be hidden among them. If the enemy (noise, mutation) hardly tries to intercept this crucial delivery, he can now probably not succeed due to the amount of uncertainty added to the process. Many ineffective cargos (junk-cargos or ‘introns’) will be hit, but the main one will probably be missed. same strategy used in the safeguard of authorities such as Presidents of some nations (to include uncertain routes and second self.)

DNA coding has trivial decoding scheme
(asynchronous start-stop protocol). DNA code meet Battail’s close-to-random criterion Biological evolutionary codes match Shannon's paradigm: they are long truly random codes. We quote Battail: “Nature appears as an outstanding engineer…”

Este seminário é essencialmente uma provocação!
ARREMATE: Este seminário é essencialmente uma provocação! Se a Estatística lida com grandes massas de dados (dados já disponíveis), com comportamento inerentemente aleatório, as bases de dados de Genomas, disponíveis publicamente, são fonte de desafio para excelentes trabalhos e descobertas Obrigado... o

Ácidos Ribonucléicos - Tipos

DEPARTAMENTO DE ESTATÍSTICA

Apresentações semelhantes

Apresentação em tema: "DEPARTAMENTO DE ESTATÍSTICA"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

DEPARTAMENTO DE ESTATÍSTICA

Apresentações semelhantes

Apresentação em tema: "DEPARTAMENTO DE ESTATÍSTICA"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback