Taller2BioInfo Rios

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 7

Bioinformática 27 Septiembre 2022

Laboratorio Computacional 2: ENSEMBL


Johan Sebastián Ríos Zambrano.

Pontificia Universidad Javeriana Cali, Programa de Biología

Dirigido a: Diana Carolina Clavijo B.


_________________________________________________________________________________

MÓDULO 1: Explorando genomas de vertebrados con Ensembl

Se trabajará con el gen BRCA1 (ENSG00000012048) en homo sapiens, ubicado en la posición


17q21 (43.044.295 – 43.170.245 reverse strand) con una longitud total de 125.950 nucleótidos en
el cromosoma 17.

1. ¿Qué es una splice variant?

El gen BRCA1 contiene 41 transcritos (splice variants) o variantes de empalme, que son el
resultado del splicing alternativo de los exones en el pre ARNm durante la transcripción, que
pueden resultar en la expresión de isoformas de ARNm maduros de un solo gen individual.
2. ¿Cuántos genes ortólogos tiene el gen BRCA1 en el clado marsupiales?,
¿en qué especies?
Figura 1: Información de Gene tree sobre homología del gen BRCA1. Tomado de Ensembl 107.

BRCA1 presenta 194 genes ortólogos, de los cuales 7 son genes ortólogos de la infraclase
Marsupialia. Y según la figura 1, el nodo de los genes ortólogos de marsupiales surgen de
eventos de especiación.
Bioinformática 27 Septiembre 2022

3. Defina:
a. Estructuras homólogas

Figura 2: Estructuras homólogas en diferentes clados con un esquema de formación común. Tomado de
Futuyma, D & Kirkpatrick, M. (2005).

Las estructuras que comparten organismos con formas similares y cumplen un esquema de
construcción similar, son estructuras homólogas. En la figura 2, se denotan las extremidades en
diferentes clados, donde todos comparten por lo menos un ancestro común, con la posibilidad de
tener una función en común (desplazarse).
Bioinformática 27 Septiembre 2022

b. Estructuras análogas

Figura 3: Los ojos de los cefalópodos y de los vertebrados son ejemplos de evolución convergente que
derivan en estructuras análogas. Tomado de Futuyma, D & Kirkpatrick, M. (2005).

Características morfológicas en diferentes clados que son similares en función, pero no


necesariamente en estructura y ancestría común, con su propio surgimiento a partir de presiones
selectivas que adaptaron esas estructuras. Son estructuras que, en algunos casos por condiciones
similares, generan estructuras similares (figura 3).

c. Genes homólogos

Dos o más secuencias son homólogas si comparten un ancestro evolutivo en común. Cuando
dos secuencias son homólogas, sus secuencias nucleotídicas o de aminoácidos comparten un cierto
grado de identidad (no deben ser de igual tamaño) que describen su grado de similaridad en cuanto
a función o producto génico. Generalmente una secuencia es homóloga debido a eventos de
duplicación o especiación y su identidad se puede inferir a partir de alineamientos secuencia –
secuencia.

d. Genes ortólogos

Los ortólogos son secuencias homólogas en diferentes especies y que provienen de por lo
menos un ancestro común durante eventos de especiación. Los genes ortólogos suponen
funciones similares
Bioinformática 27 Septiembre 2022

e. Genes parálogos

Los genes homólogos que han surgido por un mecanismo de duplicación (en el mismo genoma)
y cuyo último ancestro común es distinto. Los genes parálogos poseen un alto grado de identidad
generando productos de alta especificidad funcional. Ejemplo, la globina 1 alfa (NP_000549.1) es
paráloga a la globina 2 alfa (NP_000508.1) cuyo valor de identidad de aminoácidos (142 aa) es
del 100% y su función es transportar oxígeno. A veces la existencia de parálogos sirven como
marcadores de mutaciones en un organismo.

4. ¿En qué organismos existen genes parálogos de BRCA1?, ¿es este


escenario frecuente?, ¿funcionalmente, qué implicaciones tiene que un
gen sea de copia única?

Con el gen BRCA1 no se reportan existencias de parálogos en ningún organismo, ni en


humanos. Este escenario no es frecuente y su implicancia radica en que de existir copias del gen,
habría posibilidad de mutaciones vitalmente importantes (no silentes) en el desarrollo de
patologías oncológicas.

5. ¿Cuál es el exón más largo y cuál es el intrón más corto, ¿por cuántos
aminoácidos está compuesta la proteína?

Se escogió la isoforma (splice variant) ENST00000471181.7 del gen BRCA1 (BRCA1-210),


cuya longitud es de 7270 bp (codifica proteína).

Figura 4: Estructura exón/intrón de la isoforma más larga del gen BRCA1. Tomado de Ensembl 107

El exón número 10 de los 24 presentes (figura 4), corresponde al identificador


ENSE00003522602 en la región comprendida entre 43.094.860 – 43.091.435 con 3426 bp de
Bioinformática 27 Septiembre 2022

longitud. El intrón más corto es el que está entre los exones 10 y 11. Este intrón tiene una longitud
de 402 bp. La proteína está codificada por 1884 residuos (P38398-7).

6. Variantes del gen BRCA1

Se reportan 41.166 variantes para el gen BRCA1, se clasifican los principales SNP de acuerdo
a varios criterios de Ensembl, entre ellos los valores SIFT (Sorting Intolerant From Tolerant) y
PolyPhen (Polymorphism Phenotyping). Los valores SIFT predicen ya sea sustituciones de
aminoácidos y cómo alteran la función proteica, así como clasificar las mutaciones no sinónimas
y mutaciones inducidas en laboratorio. SIFT usa valores de referencia:

• Rangos de 0.0 – 0.05: variantes deletéreas


• Rangos de 0.05 – 1.0 variantes toleradas (benignas)

Los valores de PolyPhen es una herramienta de predicción de los posibles impactos de las
sustituciones de aminoácidos en la estructura y función de una proteína humana. Cabe aclarar que
PolyPhen y SIFT usan el mismo rango de puntuación (0.0 – 1.0), pero en direcciones contrarias.
PolyPhen usa valores de referencia:

• Rangos de 0.0 – 0.15: variantes benignas


• Rangos de 0.15 – 0.85: variantes con posibilidad de ser perjudiciales
• Rangos de 0.85 – 1.0: variantes malignas

ID Clase Evidencia Consecuencia SIFT PolyPhen Significancia


Citado, Fenotipo o
rs80357258 SNP Mutación missense 0.0 0.999 Patogénica
enfermedad
Frecuencia,
Casi patogénico,
rs1800751 SNP Citado,Fenotipo o Mutación missense 0.12 1.0
patogénico
enfermedad, gnomAD
Citado, Fenotipo o Significancia
rs80356914 SNP Mutación missense 0.0 1.0
enfermedad desconocida, patogénico
Citado, Fenotipo o Mutación missense, Significancia
rs80357112 SNP 0.01 0.961
enfermedad splice region variant desconocida, patógenico
Mutación missense,
Citado, Fenotipo o splice region variant,
rs876658362 SNP 0.0 1.0 Patógenico
enfermedad NMD transcript
variant

Se escogieron estas variantes de tipo SNP del gen BRCA1, debido a sus parámetros de
Ensembl que indican una fuerte correlación con mutaciones que alteran secuencias específicas del
gen. Por ejemplo el SNP rs876658362 indica una significancia clínica de alta prioridad en caso de
detectarse como marcador en una persona sana.
Bioinformática 27 Septiembre 2022

MÓDULO 2: Minería de datos con BioMart

Se trabajó minería de datos con BioMart sobre los genes humanos que codifican proteína,
presentes en los cromosomas 7, 8 y 9 asociados al proceso de reparación de ADN (GO:0006281).
Tras una búsqueda filtrada con la base de datos Ensembl genes 107, se encontró que existen 662
genes asociados los procesos de reparación de ADN, repartidos entre los cromosomas 7,8 y 9 que
codifican para proteína.

1. ¿Por qué motivo piensa usted que un mismo gen puede producir distintas
proteínas?

Un mismo gen puede producir distintas proteínas debido a que una célula puede empalmar
(splice) un transcrito de ARN y generar cadenas polipeptídicas diferentes que se codifican del
mismo gen, este proceso de splicing alternativo ocurre porque existen intrones ambiguos en una
secuencia que hacen difícil distinguir entre sitios de empalme 5’ y 3’.

Figura 5: Control negativo y positivo del splicing alternativo. Tomado de Alberts B, et al (2008).

Otro motivo puede ser la presencia de represores (figura 5) transcripcionales que se acoplan
a secuencias específicas en el pre-ARNm y bloquean la maquinaria de splicing alternativo, por
ende ocurre un control negativo y sólo se produce una proteína funcional. En otros casos, la
maquinaria de empalme suele activarse por enhancers que promueven la remoción de intrones y
generan productos génicos alternativos. En el caso de los genes asociados a la reparación de ADN,
puede ser que gran parte de estos se reduzcan a un tercio debido a la redundancia de proteínas.
Bioinformática 27 Septiembre 2022

Referencias

Alberts, B., Johnson, A., Walter, P., Lewis, J., Raff, M., & Roberts, K. (2008). Molecular cell biology. New York:
Garland Science.

Adzhubei, I., Jordan, D. M., & Sunyaev, S. R. (2013). Predicting functional effect of human missense mutations
using PolyPhen‐2. Current protocols in human genetics, 76(1), 7-20.

Chen, M., & Manley, J. L. (2009). Mechanisms of alternative splicing regulation: insights from molecular and
genomics approaches. Nature reviews Molecular cell biology, 10(11), 741-754.

Clark, M. A., Choi, J., & Douglas, M. (2018). Biology 2e. Rice University.

Futuyma, D. J., & Kirkpatrick, M. (2005). Evolution. Sinauer. hardcover), Sunderland.

Pevsner, J. (2015). Bioinformatics and functional genomics. John Wiley & Sons.

También podría gustarte