Cuántos Genes Tenemos Los Humanos - 2020
Cuántos Genes Tenemos Los Humanos - 2020
Cuántos Genes Tenemos Los Humanos - 2020
Cuando en febrero de 2001 se publicó finalmente el primer borrador del genoma humano uno de los datos que más desconcertaron y
descolocaron a los científicos fue el exíguo número de genes que parecíamos tener. Las primeras estimaciones hablaban de 30.000-
40.000 genes codificantes (esto es, que portan información genética codificada que se puede transformar en proteínas). Las apuestas
entre los genetistas suponían que nuestro genoma tendría unos 100.000 genes. Pero cuál fue nuestra sorpresa cuando comprobamos, a
medida que se fue corrigiendo y puliendo la secuencia de ADN del genoma humano, que teníamos apenas una quinta parte de ese número
de genes, un valor muy similar al número de genes que posee el genoma de un gusano, del nemátodo (Caenorhabitis elegans) que mide
~1 mm y que tiene alrededor de 1.000 células (exactamente 959), frente a los aproximadamente 30 billones de células que tiene un ser
humano. ¿Pero cómo podemos tener los mismos genes que un gusano que apenas vemos a simple vista? Vayamos por partes.
Tras definir el tamaño del genoma humano esta nueva entrada del blog la dedicaré a delimitar el número de genes que tenemos en el
genoma humano. Naturalmente para cuantificar algo lo primero que tenemos que hacer es definir lo que queremos contabilizar. En otras
palabras: ¿qué entendemos por gen? Pues bien, aquí ya empezamos con las variaciones que coexisten en biología. Históricamente los
genes se definían como «fragmentos de ADN que portan información genética codificada para producir una proteína«. Pero pronto
descubrimos que los genes no eran contiguos, que existían intrones que separaban los exones, y que tenían elementos reguladores,
cercanos y/o muy alejados, que eran imprescindibles para su correcta expresión. Entonces, una definición de gen actualizada podría ser:
«un intervalo de ADN en el cromosoma que se transcribe en forma de ARN y luego se traduce en forma de una proteína funcional«. Pero
esta definición deja fuera a muchos genes que sabemos que no completan este camino, y solamente se transcriben a moléculas ARN,
que son funcionales por sí solas y actúan de diferentes maneras, activando o reprimiendo otros genes (como los ARNs de pequeño
[miRNA] y de gran tamaño [lncRNA] no codificantes) o los que son esenciales para la síntesis de proteínas (como los ARN ribosomales
[rRNA] o los ARN de transferencia [tRNA]). Por ello, una definición universal más inclusiva sería hablar de «un intervalo de ADN que se
transcribe y da lugar a moléculas de ARN funcional«, lo cual incluiría los genes que codifican proteínas y los que no.
A los efectos de la cuantificación de genes en genomas el acuerdo actual, de nuevo arbitrario, es contar separadamente los genes
codificantes (los que portan información que acaba traduciéndose en forma de proteínas) y los genes no codificantes (los que se
transcriben a ARN y actúan como ARN, sin traducirse a proteínas). Adicionalmente, cuando nos referimos al número de genes de un
organismo solemos referirnos a la primera de estas categorías, solamente teniendo en cuenta los genes codificantes.
Porcentaje de ADN en el genoma humano de referencia que corresponde al genoma codificante (2%) y no codificante (98%).
Gráfico: Lluís Montoliu
Si juntamos todos los segmentos de ADN que corresponden a genes codificantes, que se transcriben a ARN y se traducen a proteína, el
resultado será, aproximadamente un 2% del tamaño total de nuestro genoma (de referencia). O sea, de los 3.272.116.950 pares de
bases que tiene el genoma de referencia solamente un 2% correspondería a genoma codificante, es decir: 65.442.339 pares de bases. ¿Y
que hay en el 98% restante que corresponde al genoma no-codificante? Pues muchos elementos reguladores, que determinan
cuando y dónde se deberá expresar un gen, también están aquí todos los genes no codificantes (miRNA, lncRNA, rRNA y tRNA), diferentes
familias de elementos móviles, transposones y retrotransposones, y múltiples familias también de ADN repetitivo (satélite). También
encontramos los pseudogenes, generalmente correspondientes a secuencias parciales o totales de genes que han quedado inactivos a
lo largo de la evolución al acumular numerosas mutaciones. Hay diferentes tipos de pseudogenes. Suelen originarse a partir de genes,
de otros fragmentos de ADN o mediante retrotranscripción de ARN mensajeros, mediante la accción de una transcriptasa inversa, y acaban
insertados en diferentes partes del genoma. Generalmente los pseudogenes no son funcionales. Por el contrario, el proyecto
internacional ENCODE determinó que más del 80% de nuestro genoma sería funcional desde el punto de vista bioquímico, lo cual supera
ampliamente el 2% que solamente contempla la parte codificante y concede al genoma no codificante una relevancia insoslayable.
Pero volvamos al genoma codificante, y determinemos el número de genes que tiene nuestro genoma. Por supuesto me refiero
al genoma de referencia, el que contiene una copia de cada uno de los 22 cromosomas autosómicos, un cromosoma X, un cromosoma
Y, el genoma mitocondrial y las secuencias de ADN no ensambladas. Primero mediante procedimientos bioinformáticos y luego, en la
mayor parte de los genes, mediante evidencias experimentales, se ha logrado encontrar cuántos genes tenemos en cada cromosoma.
Veamos la siguiente tabla.
Número de genes (codificantes), genes no codificantes y pseudogenes existentes en cada cromosoma humano. Se apunta un
parámetro de densidad referido al número de genes que tiene cada cromosoma por cada 1.000.000 de pares de bases.
Fuente: ENSEMBL
Como se puede apreciar en la tabla adjunta, generalmente cada uno de nuestros cromosomas tiene unos 2.000 genes o menos. El que
más tiene es el cromosoma 1 (2.059 genes), que además es el cromosoma de mayor tamaño. Y el que menos tiene es el cromosoma Y
(64 genes), uno de los de menor tamaño, teniendo en cuenta que el ADN mitocondrial contiene 13 genes y en las secuencias no
ensambladas encontramos unos 29 genes. No todos los cromosomas son igual de «densos» en número de genes. El cromosoma Y y el
cromosoma 13 son los que contienen, en proporción a su tamaño, una menor densidad de genes, mientras que el cromosoma que contiene
más genes por unidad de tamaño (por 1.000.000 de pares de bases) es el cromosoma 19. Si consultáis la tabla veréis que el cromosoma
19 tiene 25 veces más número de genes por millón de pares de bases que el cromosoma Y.
En total nuestro genoma de referencia contiene, actualmente, 20.440 genes. Un número muy alejado de las primeras estimaciones
de 100.000 genes que se esperaban. Por eso, habitualmente la cifra aproximada que se usa para referirse al número de genes del genoma
humano es de ~20.000 genes. Calculemos ahora el número de genes que tiene una persona de sexo masculino (46XY) o los genes que
tiene una persona de sexo femenino (46XX).
Para calcular el número de genes de una persona de sexo masculino (46XY) sumaremos los genes de cada uno de los 22 cromosomas
autosómicos, los que tiene un cromosoma X, los que tiene un cromosoma Y, los mitocondriales y los no ensamblados, y, en este caso,
nos saldrá el mismo número de genes que el genoma de referencia: 20.440 genes.
Para calcular el número de genes de una persona de sexo femenino (46XX) sumaremos los genes de cada uno de los 22 cromosomas
autosómicos, los que tiene un cromosoma X, los mitoconcriales y los no ensamblados, y, en este caso, nos saldrá, lógicamente (al no
contabilizar el cromosoma Y) un número de genes inferior, exactamente: 20.376 genes.
Por lo tanto, los individuos 46XX a pesar de tener un genoma de mayor tamaño que los individuos 46XY tienen un número algo inferior de
genes, exactamente 64 genes menos, los que corresponden al cromosoma Y. Es decir, a pesar que las personas de sexo femenino
pueden disponer de un genoma más grande este es por contra menos diverso genéticamente, al faltarles los 64 genes adicionales
que solamente encontramos en las personas de sexo masculino.
Adicionalmente, nuestro genoma de referencia contiene 23.995 genes no codificantes y 15.222 pseudogenes.
Los genes del genoma humano en relación a otras especies
Ahora veamos: ¿esto de tener unos 20.000 genes es mucho o es poco? ¿Hay especies de animales o plantas que tienen más o menos
genes que nosotros? ¿Somos la especie que más genes tiene? Vamos a revisar la siguiente tabla, en la que he incorporado el número de
genes conocidos y el tamaño del genoma de referencia (en pares de bases, a partir de los valores disponibles, dado que en algunos casos
el genoma no está completo y, por ejemplo, las regiones repetitivas no están totalmente incorporadas) de cien (100) especies
de animales, plantas, hongos y bacterias, a partir de los datos de ENSEMBL (datos obtenidos de la web de ENSEMBL el 29 de noviembre
de 2020). La densidad vuelve a ser el mismo parámetro usado en la tabla anterior y da idea de la cantidad de genes de la especie en
relación a su genoma (número de genes / millón de pares de bases). Valores altos indican genomas muy compactos. Valores más bajos
sugieren genomas con mayor proporción de regiones no codificantes, más espaciados.
La tabla está ordenada atendiendo al número de genes de cada especie, de mayor a menor.
Posición organismo especie genes genoma densidad
Anas platyrhynchos
78 pato 16.618 1.136.415.614 15
platyrhynchos
Mycobacterium
93 Mycobacterium tuberculosis 4.040 4.327.834 933
tuberculosis
Listeria
96 Listeria monocytogenes 3.131 2.776.517 1.128
monocytogenes
Legionella
97 Legionella pneumophila 3.105 3.470.989 895
pneumophila
Staphylococcus 897
98 Staphylococcus aureus 2.500 2.787.689
aureus
Streptococcus
99 Streptococcus thermophilus 2.037 1.861.792 1.094
thermophilus
Streptococcus
100 Streptococcus pyogenes A20 1.828 1.837.281 995
pyogenes
De esta tabla se puede destacar lo siguiente, entre otras muchas conclusiones que pueden derivarse:
La especie humana es más bien normalita. De estas 100 especies de animales, plantas y bacterias ocupa la zona media, la posición 55.
Hay muchas especies animales (p.e. el ratón) que tienen muchos más genes que nosotros y bastantes también que tienen menos, pero
para nada somos singulares en este aspecto. Tenemos prácticamente los mismos genes que el gusano C. elegans, a pesar de ser muy
diferentes en todo: tamaño, ciclo de vida, número de células… Una buena cura de humildad si esperábais que nuestra especie destacara
en tamaño de genoma o en número de genes. No es el caso. Tenemos aproximadamente el mismo número de genes que una oveja.
Las bacterias son los organismos que tienen menos genes y también son los que tienen los genomas más pequeños y compactos. Las
bacterias de la tabla oscilan entre apenas 1.828 genes, que son los que necesita Streptococcus pyogenes (causante de otitis y laringitis)
para vivir intracelularmente y los casi 6.000 que tiene Pseudomonas putida, una bacteria típica del medio ambiente. Con los genomas tan
reducidos también son las bacterias los organismos que tienen mayor densidad génica, alrededor de 1.000 genes por millón de pares de
bases.
La levadura del pan, cerveza y vino (Saccharomyces cerevisiae), que es un organismo eucariota, un hongo, relativamente simple, apenas
tiene 739 genes más que un organismo procariota como Pseudomonas putida.
Las aves tienen habitualmente menos de 17.000 genes, menos que muchos otros animales y un número bastante parecido al de los
reptiles (cobra), con quienes están evolutivamente emparentadas.
La mayor parte de animales terrestres y mamíferos acuáticos presentan alrededor de 20.000 genes (como los humanos). El mayor
número de genes de la tabla le corresponde al chimpancé, con 23.534 genes, y el menos número corresponde a la musaraña, con 13.187
genes.
Los peces suelen presentar un número mayor de genes, de 20.095 genes que tiene el bacalao a los 54.774 que tiene la carpa dorada
(los peces rojos de todos los estanques y de los acuarios).
Las plantas son los organismos que contienen habitualmente un número mayor de genes, desde los 22.541 genes de la sandía hasta
los 107.891 del trigo. Sin embargo en las plantas se dan fenómenos de hibridación y duplicación de genomas que explican, en parte, estos
números tan elevados. El trigo es hexaploide, producto de la hibridación de tres genomas, con alrededor de 33.000 genes aportados por cada
una de las tres especies ancestrales. La colza, con sus 101.040 genes es producto de la hibridación de dos especies ancestrales seguido de
una duplicación de todos los cromosomas, un proceso conocido por alopoliploidía, lo que sugeriría que cada una de las dos especies
ancestrales aportó alrededor de 25.000 genes.
El genoma más compacto de todas las plantas es el de la especie modelo Arabidopsis thaliana, con una densidad de 204 genes por
millón de pares de bases.
El genoma más compacto de todos los animales es el del pez fugu, con una densidad de 56 genes por millón de pares de bases. Esta
especie fue propuesta por ello como especie modelo al contar con la menor proporción de genoma no codificante, además de ser una
verdadera delicatessen en Japón, cuyo consumo seguro exige cocineros especializados que sepan prepararlo eliminando el hígado y
glándulas anexas que son extremadamente tóxicas, mortales, para quienes lo consumen.
El animal con un menor número de genes es la lamprea, con apenas 10.415 genes. La lamprea no es un pez, es un fósil viviente, de la
superclase ciclostomata. Estos animales se sitúan en el origen de los vertebrados. Se alimentan parasitando otros animales, otros peces y
mamíferos marinos, habitualmente.
La planta con un menor número de genes es la sandía, que tiene 22.541 genes y que además tiene un genoma razonablemente compacto
también.
Los seres vivos se han diversificado, evolucionado y aprendido a sobrevivir con una amplia variación en el número de genes, que
oscilan entre los 1.828 de la bacteria patógena Streptococcus pyogenes, y los 55.897 de la soja, lo cual representa una variación de más de
30 veces. Esta bacteria, y otras todavía más austeras en el número de genes, nos indican el mínimo conjunto de genes que necesita una
célula procariota/eucariota para sobrevivir. La bacteria Carsonella rudii simbiótica con insectos que se alimentan de la savia de las plantas es
la que necesita menos genes para sobrevivir, exactamente 182 genes solamente.
¿El número de genes que tiene una especie nos da idea de la complejidad de la misma?
La verdad es que no. Aunque podría parecer que cuantos más genes tiene una especie más funciones puede realizar, y, por ello debería
poder desarrollar un ser vivo más complejo, lo cierto es que en muchos casos la redundancia en estas especies con un gran número de
genes es muy elevada, lo cual es una estrategia evolutiva también para asegurar la supervivencia. Existen muchas estrategias adicionales,
que han ido apareciendo a lo largo de la evolución, que aumentan muchísimo la complejidad estructural y funcional de un genoma, con
independencia del número original de genes con el que contaran. No podemos asumir que con 20.000 genes codificantes fabricaremos
20.000 proteínas. En realidad somos capaces de fabricar muchísimas más.
Al proceso mediante el cual la información genética del ADN se convierte en ARN se llama transcripción. Al proceso mediante el cual la
información genética del ARN se utiliza para fabricar la proteína que está codificada se llama traducción.
A continuación menciono tres de estas estrategias (procesamiento diferencial de los ARNs [en inglés, splicing], expresión
diferencial debida a la existencia de múltiples elementos reguladores y procesamiento postraduccional de las proteínas) que resultan
en un mayor número de proteínas distintas, o proteínas funcionando en células distintas en diferentes momentos de la vida del organismo.
Todo ello multiplica enormemente el número inicial de proteínas que pensaríamos podrían estar codificadas por los genes de un genoma,
cuyo número original carece ya de todo sentido. Además, para mayor complejidad, estas tres estrategias coexisten, lo cual da lugar a un
número enorme de posibles proteínas capaces de realizar funciones ligeramente o substancialmente diferentes.
Estrategias que permiten aumentar la complejidad del genoma y de las proteínas codificadas en genes. De izquierda a derecha:
procesamiento diferencial postranscripcional; expresión diferencial de un mismo gen en diferentes tejidos; procesamiento
postraduccional que da lugar a proteínas ligeramente modificadas y con propiedades diversas. Dibujos: Lluís Montoliu
Procesamiento diferencial: Un mismo gen puede transcribirse de diferentes maneras, mediante procesamiento diferencial, eliminado todos
los intrones en orden o saltándose algún exón lo cual permite aumentar la combinatoria de las unidades (exones) que van a formar ARN
distintos que, al traducirse, darán lugar a proteínas también distintas.
Expresión diferencial: Un mismo gen puede funcionar (expresarse) en diferentes órganos del animal, o en diferentes momentos del
desarrollo o del ciclo vital del animal, lo cual multiplica las funciones de una misma proteína según aparezca en un tipo celular o en otro, o
según el momento en el que se exprese el gen, gracias a la presencia de múltiples elementos reguladores.
Procesamiento postraduccional: Un mismo gen (ADN) puede transcribirse a un ARN y este dar lugar a una proteína. Ahora bien, esta
misma proteína puede sufrir diversos procesamientos postraduccionales, tales como fosforilación, acetilación, metilación, hidroxilación, y
muchos otros, que van a alterar la función de la proteína dando lugar a proteínas ligeramente distintas que, a pesar de estar codificadas por
un mismo gen han acabado actuando en múltiples tareas.