Código genético

Código genético é a relação entre a sequência de bases no DNA e a sequência correspondente de aminoácidos, na proteína. Ele é equivalente a uma língua e é constituído basicamente por um dicionário de palavras, a tabela do código genético, e por uma gramática, correspondente às propriedades do código, que estabelece como a mensagem codificada no material genético é traduzida em uma sequência de aminoácidos na cadeia polipeptídica.

O código genético forma os modelos hereditários dos seres vivos. É nele que está toda a informação que rege a sequência dos aminoácidos codificada pelo encadeamento de nucleotídeos. Estes são compostos de desoxirribose, fosfato e uma base orgânica, do tipo citosina, adenina, guanina ou timina.

Tripletos e códons

Na cadeia polinucleotídica de DNA, um conjunto de 3 nucleotídeos corresponde a um aminoácido: são os tripletos. Mas por que 3 nucleótidos? Sabemos de antemão que existem 20 aminoácidos diferentes sendo, por isso, de se esperar que existam pelo menos 20 arranjos de nucleotídeos diferentes para que cada arranjo codifique um aminoácido diferente. Se supusermos que cada nucleótido codifica um aminoácido, facilmente compreendemos que tal seria impossível porque apenas existem 4 nucleótidos. Se escolhermos um arranjo de 2 nucleótidos obteríamos um conjunto de 16 arranjos diferentes (levando em conta a repetição de nucleótidos), ainda insuficiente para os 20 aminoácidos que a célula produz. Contudo, se supusermos que são necessários arranjos com repetição de 3 nucleótidos de ADN para codificar um aminoácido, obtemos um universo de 64 arranjos com repetição possíveis; mais do que o suficiente para os 20 aminoácidos existentes.

Esta hipótese foi confirmada pelos trabalhos de Marshall Nirenberg e Har Gobind Khorana, pelos quais receberam ambos, em conjunto com Robert W. Holley, o Nobel de Fisiologia ou Medicina de 1968.

Através do processo de transcrição os tripletos de ADN são convertidos em códons de ARN. Estes codões são, à semelhança dos tripletos, conjuntos de 3 nucleótidos da cadeia de ARN mensageiro. Este migra para o citoplasma da célula, onde se liga a um ribossoma e a uma molécula de ARN transportador. Através do processo de tradução e utilizando a informação genética do ADN do indivíduo com a molécula de ARN, o ribossoma produz então os aminoácidos para formarem proteínas.

Códons de finalização e de iniciação

No código genético existem códons de finalização (UAA,UGA e UAG) que indicam à célula que a sequência de aminoácidos destinada àquela proteína acaba ali. Existe ainda um códon de iniciação (AUG) que indica que a sequência de aminoácidos da proteína começa a ser codificada ali. Este códon (AUG) codifica o aminoácido Metionina (Met) de forma que todas as proteínas começam com o aminoácido Met.

Códons de finalização

Veja na tabela embaixo que alguns códons não especificam nenhum aminoácido. Estes códons são códons finalizadores ou término. Eles podem ser vistos como sendo similares a uma pontuação na mensagem codificada pelo DNA.

Uma das primeiras indicações da existência de códons finalizadores surgiu em 1965 do trabalho de Brenner com o fago T4. Brenner estudou algumas mutações (m₁-m₆) em um único gene que controla a proteína de cada mutante era uma cadeia polipeptídica mais curta do que a do tipo selvagem.

Brenner examinou as pontas das proteínas encurtadas e as comparou com a do tipo selvagem. Os aminoácidos para as seis mutações eram glutamina, lisina, ácido glutâmico, tirosina, triptofano, e serina (Ver também: Aminoácido). Não há um padrão imediatamente óbvio destes resultados, mas Brenner brilhantemente deduziu que alguns códons para cada um destes aminoácidos eram similares. Especificamente, cada um destes códons pode mudar para o códon UAG por uma mudança em um par de nucleotídeos de DNA. Ele então postulou que UAG é um códon de fim, um sinal para o mecanismo de tradução de que a proteína agora está completa.

UAG foi primeiro códon finalizador a ser decifrado. Ele é chamado de códon âmbar. Os mutantes que são defectivos de mutantes âmbar. Os mutantes que são defectivos porque contêm códons opala e ocre, respectivamente. Os códons de fim em geral são chamados de sem sentidos porque não indicam nenhum aminoácido.

Os fagos mutantes de Brenner têm uma segunda característica interessante em comum além de uma proteína mais curta: a presença de uma mutação supressora (su-) no cromossomo hospedeiro faria com que o fago desenvolvesse a despeito da presença da mutação m. Consideramos os códons finalizadores e seus supressores depois de tratar do processo de síntese de proteínas.

Decifrando o código

Decifrar o código genético, determinando o aminoácido especifico por cada trinca, foi uma das maiores conquistas dos últimos 50 anos. Quando as técnicas experimentais necessárias tornaram-se disponíveis, o código genético foi rapidamente decifrado.

Uma conquista foi a descoberta de como fazer RNA sintético. Se os nucleotídeos do RNA são misturados com uma enzima especial (polinucleotídeo fosforilase) , um RNA unifilamentar é formado na reação. Ao contrário da transcrição, nenhum molde de DNA é necessário para esta síntese, e assim os nucleotídeos são incorporados aleatoriamente. A habilidade em produzir mRNA criou uma perspectiva entusiasmante de produzir sequências específicas de mRNA e então ver que aminoácidos elas poderiam especificar. O primeiro mensageiro sintético obtido foi feito apenas com nucleotídeos uracil reagindo com a enzima de síntese de RNA, produzindo -UUUU-[pol(U)]. Em 1961, Marshall Nirenberg e Heinrich Matthaei misturaram poli(U) com a maquinaria de síntese de síntese de proteínas de E. coli in vitro e observaram a formação de uma proteína. O principal entusiasmo estava centrado na questão da sequência de aminoácido desta proteína. Ficou provado que era uma polifenilalanina, uma sequencia de moléculas de fenilalanina, ligada para formar um polipepitídeo. Assim, a trinca UUU deve codificar fenilalanina:

UUU	UUU	UUU	UUU	UUU	UUU
Fen	Fen	Fen	Fen	Fen	Fen

Em seguida,foram produzidos os mRNA contendo dois tipos de nucleotídeos em grupos repetidos. Por exemplo, o mRNA sintético tendo a sequências (AGA)_n, que é uma longa sequências de AGAAGAAGAAGAAGA, foi usada para estimular a síntese de polipetídeos in vitro (em um tubo de ensaio que também continha um extrato celular com todos os componentes para a tradução). A partir da sequência dos polipeptídeos resultantes e as possíveis trincas que podiam residir em outros RNA sintéticos, podiam ser verificadas muitas palavras código.

Tabela de código genético

Assim, facilmente percebemos a ligação entre os tripletos de ADN e os aminoácidos. Esta linguagem que os une é o que chamamos código genético. No final da década de 60 o código genético foi decifrado, e agora é geralmente representado em uma tabela que estabelece a conexão entre as bases azotas dos códons dos aminoácidos formados.


		U	C	A	G
		2^a base
1^a base	U	UUU (Phe/F) Fenilalanina UUC (Phe/F) Fenilalanina UUA (Leu/L) Leucina UUG (Leu/L) Leucina	UCU (Ser/S) Serina UCC (Ser/S) Serina UCA (Ser/S) Serina UCG (Ser/S) Serina	UAU (Tyr/Y) Tirosina UAC (Tyr/Y) Tirosina UAA "Ocre" (Códon de parada) UAG "Âmbar" (Códon de parada)	UGU (Cys/C) Cisteína UGC (Cys/C) Cisteína UGA "Opala" (Códon de parada) UGG (Trp/W) Triptofano
	C	CUU (Leu/L) Leucina CUC (Leu/L) Leucina CUA (Leu/L) Leucina CUG (Leu/L) Leucina	CCU (Pro/P) Prolina CCC (Pro/P) Prolina CCA (Pro/P) Prolina CCG (Pro/P) Prolina	CAU (His/H) Histidina CAC (His/H) Histidina CAA (Gln/Q) Glutamina CAG (Gln/Q) Glutamina	CGU (Arg/R) Arginina CGC (Arg/R) Arginina CGA (Arg/R) Arginina CGG (Arg/R) Arginina
	A	AUU (Ile/I) Isoleucina AUC (Ile/I) Isoleucina AUA (Ile/I) Isoleucina AUG (Met/M) Metionina, Códon de iniciação	ACU (Thr/T)Treonina ACC (Thr/T)Treonina ACA (Thr/T)Treonina ACG (Thr/T)Treonina	AAU (Asn/N) Asparagina AAC (Asn/N) Asparagina AAA (Lys/K) Lisina AAG (Lys/K) Lisina	AGU (Ser/S) Serina AGC (Ser/S) Serina AGA (Arg/R) Arginina AGG (Arg/R) Arginina
	G	GUU (Val/V) Valina GUC (Val/V) Valina GUA (Val/V) Valina GUG (Val/V) Valina	GCU (Ala/A) Alanina GCC (Ala/A) Alanina GCA (Ala/A) Alanina GCG (Ala/A) Alanina	GAU (Asp/D) Ácido aspártico GAC (Asp/D) Ácido aspártico GAA (Glu/E) Ácido glutâmico GAG (Glu/E) Ácido glutâmico	GGU (Gly/G) Glicina GGC (Gly/G) Glicina GGA (Gly/G) Glicina GGG (Gly/G) Glicina

Tabela Inversa
Ala/A	GCU, GCC, GCA, GCG	Leu/L	UUA, UUG, CUU, CUC, CUA, CUG
Arg/R	CGU, CGC, CGA, CGG, AGA, AGG	Lys/K	AAA, AAG
Asn/N	AAU, AAC	Met/M	AUG
Asp/D	GAU, GAC	Phe/F	UUU, UUC
Cys/C	UGU, UGC	Pro/P	CCU, CCC, CCA, CCG
Gln/Q	CAA, CAG	Ser/S	UCU, UCC, UCA, UCG, AGU, AGC
Glu/E	GAA, GAG	Thr/T	ACU, ACC, ACA, ACG
Gly/G	GGU, GGC, GGA, GGG	Trp/W	UGG
His/H	CAU, CAC	Tyr/Y	UAU, UAC
Ile/I	AUU, AUC, AUA	Val/V	GUU, GUC, GUA, GUG
INICIAÇÃO	AUG	PARADA	UAG, UGA, UAA

Redundância e ambiguidade

Diz-se que o código genético é degenerado ou redundante por existirem vários codões que codificam o mesmo aminoácido. Por exemplo, os codões U CU, UCC,UCA e UCG codificam todos o aminoácido Serina (Ser). Este fenómeno é também apelidado de degenerescência. Já o contrário não é possível e não existe nenhum codão que possa codificar mais do que um único aminoácido e, logo, nunca é ambíguo. Com apenas 20 palavras necessárias para os 20 aminoácidos comuns, para que são usadas as outras palavras, se o forem? O trabalho de Crick sugeriu que o código genético é redundante, significando que cada uma das trincas deve ter um significado no código. Para que seja verdadeiro, alguns aminoácidos devem ser especificados, por pelo menos duas ou mais trincas diferentes.

O raciocínio é o seguinte. Se apenas 20 trincas fossem usadas, então as outras 44 não teriam significado, pois não codificariam nenhum aminoácido. Neste caso, seria esperado que a maioria das mutações de mudança de matriz de leitura produzisse palavras (códons) sem sentido, o que supostamente pararia o processo de construção de proteína. Se este fosse o caso, então as mutações de deleção ou de mudança de matriz raramente, ou nunca, produziriam proteínas viáveis ou funcionais. Entretanto, se todas as trincas especificam algum aminoácido, então as palavras mutadas simplesmente resultariam na inserção de aminoácidos incorretos na proteína. Então, Crick raciocinou que muitos ou todos os aminoácidos deveriam ter mais de um "nome" (códon) possível no código de pares de bases. Esta hipótese depois foi confirmada bioquimicamente.

Universalidade

Afirma-se que o Código Genético é universal porque os códons têm o mesmo significado em quase todos os organismos. Assim, o códon AAU codifica o aminoácido Asparagina (Asn) tanto em um ser humano como em um Streptococcus.

Simetria e Quebra de Simetria no código genético

De forma intuitiva, o uso de simetrias é um fenômeno cultural muito antigo: observam-se princípios de simetria subjacentes à construção das pirâmides do Egito e independentemente da civilização Maia, na arquitetura dos templos gregos, na ornamentação árabe, etc.. Aparentemente, a presença de simetrias está ligada ao nosso senso estético.

Observa-se também que muitas vezes, as simetrias observadas na natureza não são exatas, mas são quebradas. Geralmente, uma simetria quebrada manifesta-se de forma aproximada, isto é, ocorre um desvio da simetria exata que no entanto é suficientemente pequeno para que ela ainda possa ser claramente percebida. Um exemplo típico é a simetria quiral que tem um papel igualmente importante em física, química e biologia e que aparece sempre quando os objetos considerados admitem duas formas distintas de configuração espacial – a levógena e a destrógena. Em termos matemáticos esta simetria corresponde à troca de orientação no espaço e sua quebra indica a possibilidade de que as formas levóenas e destrógenas se comportam de maneiras distintas

A formalização da noção de simetria em linguagem matemática moderna foi iniciada com a definição do conceito de grupo devido a Evariste Galois (grupos discretos) e Sophus Lie (grupos contínuos). Do ponto de vista abstrato, o estudo da teoria dos grupos consiste em obter suas propriedades a partir dos axiomas que os definem, enquanto que do ponto de vista concreto grupos são realizados através de transformações em algum conjunto ou espaço (em muitos casos se consideram várias realizações ao mesmo tempo). O verdadeiro poder da teoria de grupos surge quando se combinam estes dois pontos de vista. E esta combinação que usaremos para formular os conceitos intuitivos de simetria e quebra de simetria em termos matemáticos precisos.

Uma simetria exata é descrita abstratamente por um grupo G e, no contexto da teoria das representações lineares, é realizada concretamente por um conjunto de matrizes que formam uma representação de G em um espaço vetorial de dimensão finita V , escolhido de acordo com a aplicação que se tem em mente. O espaço vetorial V representa o objeto que possui a simetria descrita pelo grupos G. A situação mais simples ocorre quando esta representação é irredutível: isto significa, na terminologia usada em outras áreas da ciência diferentes da matemática (tais como física ou química), que o espaço vetorial V é um multipleto sob G. Mais geralmente, assumiremos que toda representação considerada é completamente redutível, o que significa que ela pode ser decomposta na soma direta de sub-representações irredutíveis que formam um conjunto de multipletos sob G.

O invariante mais importante de um multipleto é a sua dimensão (como espaço vetorial) e por isso, usa-se frequentemente a seguinte terminologia para enfatizar a dimensão dos multipletos: um multipleto de dimensão um é chamado singleto, um multipleto de dimensão dois é chamado dubleto, um multipleto de dimensão três é chamado tripleto, um multipleto de dimensão quatro é chamado quadrupleto, etc..

Uma simetria quebrada é descrita fixando, além do mais, um subgrupo H de G que representa a simetria residual, i.e., aquela parte da simetria que permanece intacta durante a quebra. Então uma representação irredutível de G, quando restrita a H, se quebra em várias representações irredutíveis de H, isto é, um único multipleto sob G se quebra em vários multipletos sob H – um fenômeno comumente chamado de ramificação. Mais geralmente, a ideia de que a quebra de simetria frequentemente ocorre em vários estágios, e não de uma única vez, pode ser implementada supondo que G vem junto com uma sequência de subgrupos G1, . . . , Gk que formam uma cadeia descendente G ⊃ G1 ⊃ . . . ⊃ Gk , levando a uma sequência de ramificações sucessivas onde, em cada passo, uma representação irredutível do grupo anterior se quebra em várias representações irredutíveis do próximo grupo da cadeia.

Finalmente, pode-se perguntar sobre o problema inverso, que é o seguinte. Dado apenas um conjunto de multipletos, encontrar um grupo G e uma cadeia descendente de subgrupos G1, . . . , Gk tal que o conjunto dado de multipletos pode ser arranjado em uma representação irredutível de G e reproduzido por ramificação através da cadeia de subgrupos G1, . . . , Gk. Tal “abordagem espectroscópica” ´e a maneira como se identificam simetrias na teoria quântica. No caso do código genético, é exatamente esta situação que encontramos, pois o código genético fornece uma distribuição de multipletos da seguinte forma.

Definimos o espaço dos códons como sendo o espaço vetorial complexo V que tem como base o conjunto dos códons. O agrupamento dos códons em códons sinônimos induz naturalmente uma decomposição de V em soma direta de subespaços: dois códons pertencem ao mesmo subespaço se e somente se representam o mesmo aminoácido. Agora queremos encontrar um grupo juntamente com uma cadeia descendente de subgrupos que forneça essa distribuição de multipletos através do processo de ramificação que explicamos acima. Este processo representaria então um histórico parcial da evolução do código genético, através de quebras de simetrias.

Para resolver este problema precisamos antes de mais nada escolher uma metodologia que torne o problema tratável. O primeiro passo é restringir a classe de grupos dentro da qual procuraremos um candidato para o grupo que representará a simetria primordial. O problema foi tratado pela primeira vez com sucesso por Hornos & Hornos no contexto dos grupos de Lie compactos conexos. Esta classe de grupos foi escolhida por vários motivos, sendo o principal que as representações de dimensão finita dos grupos de Lie compactos conexos são todas completamente redutíveis. Como os grupos finitos tem a mesma propriedade, é natural estudar o problema nesta categoria. A estratégia geral para a analise das degenerescências no código genético é a seguinte:

(i) Encontrar, dentre todos os grupos finitos, aqueles que possuem representações irredutíveis de dimensão 64, chamadas representações de códons.

(ii) Para cada possibilidade obtida, analisar todos os subgrupos e tentar encontrar pelo menos um subgrupo que reproduz a distribuição de multipletos do código genético, isto e, que decompõe uma representação de códons em:

• 3 sextupletos,

• 5 quadrupletos,

• 2 tripletos,

• 9 dubletos,

• 2 singletos.

O grupo inicial G, em conjunto com sua representação de códons, representa a “simetria exata primordial” do modelo escolhido. Nesta fase, o código genético ´e completamente degenerado, isto ´e, todos os códons têm o mesmo significado e portanto ainda não codificam nenhum aminoácido. Com a primeira quebra de simetria surge o primeiro código genético, também chamado de “código genético primitivo”, que já codifica alguns aminoácidos, mas que ainda não atingiu a forma final e portanto está sujeito a sofrer uma nova quebra de simetria e incorporar outros aminoácidos ao seu repertório. A hipótese de que a representação de códons seja irredutível reflete o caráter “primitivo” da simetria primordial, pois uma representação redutível é um objeto composto: podendo ser expressa como uma soma direta de representações irredutíveis, ela corresponde a um estágio posterior do processo e não ao estágio inicial. Um argumento semelhante pode ser aplicado ao próprio grupo inicial: suporemos que ele também seja “primitivo”, no sentido de que não pode ser construído a partir de outros grupos. Isto nos leva `a categoria dos grupos finitos simples – os “blocos fundamentais” da teoria dos grupos finitos. Ressaltamos que essa condição é imposta apenas sobre o grupo inicial; os subgrupos utilizados na quebra de simetria podem ser arbitrários.

Bibliografia

Introdução à genética; Griffths, Wessler, Lewontin, Gelbart, Suzuki, Miller; oitava edição; Guanabara Koogan; 2005.
JUNIOR, Fernando Martins Antoneli. Grupos finitos e quebra de simetria no código genético. 2003. Tese de Doutorado - Universidade de São Paulo (USP). Instituto de Matemática e Estatística (IME/SBI) São Paulo.