Cap 1.bete - Bioinformatica.2019.05.26
Cap 1.bete - Bioinformatica.2019.05.26
Cap 1.bete - Bioinformatica.2019.05.26
Fig 1: Dogma central da Biologia: O fluxo de informação genética do DNA para o RNA (transcrição) e do RNA
para a proteina (tradução) ocorre em todas as células vivas. Copyright © 2002, Bruce Alberts, Alex-
ander Johnson, Julian Lewis, Martin Raff, Keith Roberts, and Peter Walter; Copyright © 1983, 1989,
1994, Bruce Alberts, Dennis Bray, Julian Lewis, Martin Raff, Keith Roberts, and James D. Watson
(Fonte: https://www.ncbi.nlm.nih.gov/books/NBK21050/figure/A974/ )
Reutilização deste material: Salvo indicação em contrário, os conteúdos podem ser reutili-
zados não comercialmente sem o pedido de permissão, lembrando sempre de fazer a devida
citação.
2019.05.17
Introdução à Bioinformática - do DNA à proteína
CAPÍTULO 1: INTRODUÇÃO
1. Regras gramaticais para representação de uma sequência de DNA
A seguir você aprenderá como escrever sequências de DNA e se familiarizará com as convenções
usadas para sua representação.
O DNA (ácido desoxirribonucleico) e o RNA (ácido ribonucleico) são os dois tipos de moléculas
conhecidas por registrar e transmitir informações genéticas hereditárias de uma geração para a se-
guinte (Fig 1).
O uso de RNA para esse propósito é limitado a uma família de vírus chamada RNA vírus - o restante
dos organismos biológicos conhecidos usa o DNA para armazenar e transmitir informações genéti-
cas.
Com poucas exceções (que incluem gametas, certas células imunes e células tumorais), o conteúdo
de DNA de todas as células de um organismo é idêntico.
A informação codificada no DNA forma o mapa genético para a produção de proteínas e outros
componentes importantes da maquinaria celular. Estruturalmente, forma uma grande seqüência de
nucleotídeos ligados covalentemente uns aos outros, formando uma espinha dorsal de anéis de de-
soxirribose (açúcar) e grupos fosfato aos quais as bases estão ligadas, como mostrado no diagrama
abaixo. Existem três bases que são encontradas no DNA e no RNA: adenina, citosina e guanina. A
timina é encontrada exclusivamente no DNA e é substituída pelo uracila exclusivamente no RNA.
O DNA genômico (com exceção de alguns vírus) é de cadeia dupla. Isto significa que para
cada cadeia de DNA com uma determinada sequência, há uma cadeia oposta que contém a
Page 2 of 11
Introdução à Bioinformática - do DNA à proteína
A fita de DNA em sentido direto (“forward strand”) é escrita na orientação 5’-3’, e a fita em
sentido reverso (“reverse strand”), ou fita complementar, é escrita na orientação 3'-5'. Isso
representa a maneira como essas duas moléculas seriam vistas em um fragmento de DNA.
Esses números não são arbitrários, eles representam os carbonos na estrutura química do
anel de açúcar dos nucleotídeos que estão envolvidos nas reações químicas que formam o
esqueleto do DNA fosfato-açúcar. In vivo, a síntese de DNA ocorre pela adição de nucleotí-
deos livres através de sua extremidade 5‘ ao extremo 3' de uma molécula de DNA nascente.
Isso produz direcionalidade (enzimas só podem sintetizar DNA na direção 5‘ para 3’). Assim,
os pesquisadores adotaram esta convenção para a escrita de seqüências de ácidos nucléi-
cos. Isto significa que, salvo indicação em contrário, todas as sequências de ácidos nucléicos
são escritas na direção de 5‘ para 3'.
Apesar de ser uma dupla hélice de sequências de DNA complementares, o DNA é quase
sempre representado como uma única sequência.
5’-ATGCGATCGGACAGTCGAGTCCAGTAGACGATC-3’
A anotação 5 '-> 3' é uma convenção que todos os pesquisadores em genética seguem, por-
tanto, não é mais preciso especificá-la. Assim, a sequencia de DNA acima pode ser simples-
mente escrita como:
ATGCGATCGGACAGTCGAGTCCAGTAGACGATC
Page 3 of 11
Introdução à Bioinformática - do DNA à proteína
…………………………………………………………………………………………………
…
Vamos agora testar e fixar o que aprendemos!
Questão 1:
Representação da fita reversa do DNA (“reverse strand”).
Com base no que aprendemos até agora sobre convenções, qual é a maneira correta de
representar a cadeia reversa da sequência: ATGCATGC ?
Lembre-se que as seqüências de nucleotídeos são sempre escritas na orientação 5 '-> 3’.
Para chegar à resposta, você pode seguir estas etapas:
1. Anote a sequência em um pedaço de papel/ou na tela,
2. Escreva as bases complementares (um T para cada A, um G para cada C, e vice-versa) sob cada letra,
3. Pegue a segunda linha e inverta a ordem.
Questão 2:
Imagine que você tenha que escrever, em uma linha, uma seqüência de DNA. Qual das afir-
mações seguintes é a correta?
1. Eu escrevo a sequência de DNA de 5 '-> 3' se for a “forward strand”
2. Eu escrevo a sequência de DNA de 3 '-> 5' se for a “reverse strand”
3. Eu escrevo ambas as sequencias dos filamentos de DNA, a “forward strand” como 5 '-> 3'
e a “reverse strand” diretamente abaixo como 3 '-> 5'
Resposta: Você deve sempre escrever a sequência de DNA de 5 '-> 3' se for a “forward
strand” ou a se for a “reverse strand” . Assim, a melhor resposta é a 1 acima.
Questão 3:
Qual é a seqüência reversa complementar dessas 4 letras da cadeia de DNA? ACTG
1. GTCA
2. TGAC
3. CAGT
…………………………………………………………………………………………………………..
Page 4 of 11
Introdução à Bioinformática - do DNA à proteína
2. Do DNA a proteína: Como uma sequência de proteína é gerada a partir de uma sequência
de DNA.
Nos sistemas biológicos, o processo de transcrição “transcreve”, ou seja copia, o DNA em
RNA. É essa molécula de RNA que servirá de modelo para a produção de proteínas. O pro-
cesso de produzir proteínas a partir de um modelo de RNA é chamado de "tradução" e é
realizado pelo ribossomo. A molécula de RNA que leva a mensagem do DNA para o ribos-
somo é chamada de RNA mensageiro ou mRNA.
Cada aminoácido é codificado por um grupo de três nucleotídeos no mRNA. Cada palavra de
três letras é chamada de códon porque corresponde ao código (“encodes for”) de um amino-
ácido. Esse código, ou correspondência entre códons e aminoácidos, é conhecido como có-
digo genético.
Um aminoácido pode ser codificado por mais de um códon e, por isto, o código genético é
degenerado. Tabelas de códons podem ser usadas para decifrar o código; e, essas tabelas
podem representar os códons de DNA ou RNA, com a única diferença sendo que na tabela
de códon de RNA “T” é substituído por “U”.
Espécies diferentes podem ter códigos genéticos diferentes, mas todas seguem a mesma
regra: cada códon corresponde sempre ao mesmo aminoácido.
Embora essa tabela descreva os códons de DNA, lembre-se de que o DNA é transcrito em
mRNA, e que este é traduzido em aminoácidos que formam proteínas. A previsão de uma
sequência de aminoácidos baseada na sua sequência nucleotídica é conhecida como tra-
dução conceitual. Uma tradução conceitual é uma previsão da sequência de aminoácidos
baseada na sequência de nucleotídeos e no código genético conhecido.
Para exemplificar, abaixo está representada uma pequena sequência de DNA e a sequência
de aminoácidos codificada (os números dos códons são apenas uma referência relativa):
Codon number 1 2 3 4 5 6 7 8 9 10 11
Nucleotide sequence ATG CGA TCG GAC AGT CGA GTC CAG TAG ACG ATC
Amino-acid sequence M R S D S R V Q - T I
Observe que: o 1o códon (ATG) codifica metionina (M); o 9º códon (TAG) codifica um sinal
STOP; e que o 3o e o 5o códons são diferentes, mas ambos codificam para serina (S).
Quadros de Leitura:
Page 5 of 11
Introdução à Bioinformática - do DNA à proteína
No exemplo, o quadro de primeira leitura começa com uma metionina (M) codificada pelo
códon ATG, mas se considerarmos o segundo quadro de leitura e, portanto, começarmos a
“ler” o código a partir da segunda base da seqüência de nucleotídeos, o primeiro aminoácido
a ser lido seria (C) codificado pelo códon TGC.
Uma ferramenta útil para se fazer a previsão da tradução conceitual de uma seqüência de
nucleotídeos é a “ferramenta de tradução do ExPASy” (“ExPASy translate tool” ). Este ser-
vidor fornece uma maneira rápida e fácil de encontrar a seqüência de aminoácidos corres-
pondente à uma seqüência de nucleotídeos em todos os seis possíveis quadros de leitura.
…………………………………………………………………………………………………………..
Vamos agora testar e fixar o que aprendemos!
Questão 1:
Por que não experimentar e verificar se as três seqüências de aminoácidos ofere-
cidas como primeiro, segundo e terceiro quadros de leitura na figura acima estão
corretas?
Questão 2:
Você consegue descobrir quais são as sequências de aminoácidos que podem ser
codificadas a cadeia reversa?
…………………………………………………………………………………………………………..
Page 6 of 11
Introdução à Bioinformática - do DNA à proteína
Sim. A mensagem contida no DNA (códons) é traduzida para aminoácidos distintos em dife-
rentes replicons. Vamos ver como é isto.
Inicialmente:
Os códigos genéticos são tradicionalmente representados em uma Tabela de códons de
DNA que serão transcritos em mRNA, sempre seguindo o sentido 5'-3'.
IMPORTANTE
Entre no site acima do NCBI, para:
- Confirmar se o gene objeto de seu estudo esta Tabela de códigos genéticos padrão;
Page 7 of 11
Introdução à Bioinformática - do DNA à proteína
- VEJA, também, as demais Tabela de códigos genéticos seguidas por outros replicons,
mesmo que o seu objeto de estudo seja a bactéria E. coli (para enriquecer o seu conheci-
mento).
Page 8 of 11
Introdução à Bioinformática - do DNA à proteína
There are 64 different codons (61 codons encoding for amino acids plus 3 stop codons) but only
20 different translated amino acids. The overabundance in the number of codons allows many
amino acids to be encoded by more than one codon. Because of such redundancy it is said that
the genetic code is degenerate. The genetic codes of different organisms are often biased to-
wards using one of the several codons that encode the same amino acid over the others—that
is, a greater frequency of one will be found than expected by chance. How such biases arise is a
much debated area of molecular evolution. Codon usage tables detailing genomic codon usage
bias for most organisms in GenBank and RefSeq can be found in the HIVE-Codon Usage Table
database.[1]
Existem 64 códons diferentes (61 códons codificam aminoácidos e mais 3 stop códons) mas
existem apenas 20 aminoácidos traduzidos diferentes. A superabundância no número de có-
dons permite que muitos aminoácidos sejam codificados por mais de um códon. Por causa
de tal redundância, diz-se que o código genético é degenerado.
Devido à degeneração do código genético, a maioria dos aminoácidos pode ser codificada
por múltiplos códons sinônimos. Códons sinônimos ocorrem naturalmente com diferentes fre-
quências em diferentes organismos. A escolha dos códons pode afetar a expressão, estrutura
e função da proteína. As Tecnologias de DNAs recombinantes geralmente aproveitam a pri-
meira vantagem deste conhecimento implementando uma técnica denominada otimização
de códons, na qual os códons são substituídos por sinônimos, de modo a aumentar a ex-
pressão da proteína recombinante desejada. Esta técnica baseia-se no conhecimento preciso
das frequências de uso de códons (Athey et al 2017 – citado abaixo).
Quantificar com precisão o viés de uso de códons nos diferentes organismos é útil não so-
mente para otimização de códons, mas também para estudos evolutivos e de tradução:
relações filogenéticas de organismos e relações de coevolução patógeno-hospedeiro
podem ser exploradas empregando o estudo de semelhanças de uso de códons. Além disso,
o uso de códons tem mostrado afetar a estrutura e a função das proteínas através da interfe-
rência na cinética de secreção e do dobramento das proteínas excretadas pela célula (“co-
translational proteins, translocation of proteins”, Nyathi et al 2013 ).
Athey, John; Alexaki, Aikaterini; Osipova, Ekaterina; Rostovtsev, Alexandre; Santana-Quintero, Luis V.;
Katneni, Upendra; Simonyan, Vahan; Kimchi-Sarfaty, Chava (2017-09-02). "A new and updated re-
source for codon usage tables". BMC Bioinformatics. 18 (391): 391. doi:10.1186/s12859-017-1793-
7. PMC 5581930. PMID 28865429.
Page 9 of 11
Introdução à Bioinformática - do DNA à proteína
O nome FASTA deriva de um pacote de software escrito em meados dos anos 80 que pes-
quisava rapidamente grandes coleções de dados de sequência - o software é chamado de
FASTA, mas era também chamado de FAST-N (nucleotídeo) e FAST-P (proteína).
O formato FASTA deve, no mínimo, ter um cabeçalho (sempre precedido por um “>”) na pri-
meira linha do arquivo, e a sequência começando na segunda linha. O cabeçalho inclui algu-
mas informações mínimas sobre a sequência. Por exemplo, o gene hpcC de Escherichia
coli, com o número de acesso X81322.1, pode ser representado da seguinte forma:
Você pode acessar a entrada na base de dados do NCBI usando este link .
Arquivos contendo sequências FASTA são comumente denominados com a extensão “.fa”
ou “.fasta”. Por exemplo, se eu fosse salvar a sequência acima em um arquivo, eu poderia
chamá-lo de "E.coli_hpcC.fasta". Não é obrigatório chamar um arquivo de sequência de
DNA xxx.fasta ou xxx.fa (onde xxx representa qualquer combinação de letras ou números
usados para nomear um arquivo), e eu poderia chamá-lo “E.coli_hpcC.mickeymouse” se
eu quisesse, mas significaria absolutamente nada para outras pessoas.
Page 10 of 11
Introdução à Bioinformática - do DNA à proteína
O Mundo da bioinformática é cheio de convenções que são regras realmente não escritas.
Escolhemos segui-los para facilitar a comunicação e compartilhar dados com outros cientis-
tas.
Ao determinar o tamanho de uma sequência de DNA, falamos em termos de “bases” ou “pa-
res de bases”; a diferença entre eles implica que o último contém ambas as fitas da molécula
de DNA. Mas esta nomenclatura não tem consequências em termos de tamanho: uma molé-
cula de 100 bases tem o mesmo comprimento que uma molécula de 100 pares de bases.
É importante notar que as sequências FASTA não estão restritas a sequências de DNA, elas
também podem ser usadas para representar sequências de proteínas, nas quais cada letra
representa um único aminoácido. Abaixo está apresentado um exemplo de um arquivo
FASTA de uma sequência de proteína.
Page 11 of 11