P.6 Bioinformatica

BIOLOGÍA MOLECULAR
PRÁCTICA 4
BIOINFORMÁTICA - NCBI
La bioinformática es la informática aplicada a ordenar la ingente cantidad de datos

generados por estudios genómicos o bien a extraer información (cualitativa y
cuantitativa)
A lo largo de los últimos se ha ido acumulando una gran cantidad de información de

naturaleza molecular (secuencias de genes, genomas, proteínas, etc) procedente de
los distintos proyectos genoma de diferentes especies tales como Homo sapiens o
Drosophila melanogaster entre otros
Toda esta información se ha ido depositando en grandes “almacenes” de información

de secuencias, organizadas en bases de datos, con la intención de que científicos y
público en general, pudiera acceder a ella a través de internet. Como complemento a
esa información de tipo molecular, estos “almacenes” han incorporado toda una
colección de publicaciones y textos científicos de tipo biomédico.
Existen multitud de bases de datos de secuencias, siendo uno de los principales el

NCBI “National Center for Biotechnology Information”. Esta plataforma puede
considerarse como la de referencia en lo que a obtención de secuencias moleculares
y publicaciones biomédicas se refiere. Estas prácticas tienen por objetivo aprender a
manejar la información contenida en el NCBI de una forma más o menos sencilla o
elemental.
La URL (Uniform Resource Locator) del NCBI es http://www.ncbi.nlm.nih.gov , y su

página inicial es a día de hoy la siguiente:
1
BIOLOGÍA MOLECULAR
1. RECURSOS POPULARES DE NCBI
o Pubmed: PubMed comprende más de 33 millones de citas de la literatura

biomédica, revistas de ciencias biológicas, y los libros en línea. Las citas
pueden incluir vínculos al texto completo de artículos de PubMed Central y
sitios web de editoriales, o solamente al resumen de dichos artículos.
o PubMed Central (PMC): archivo de texto completo gratuito de literatura de
revistas biomédicas y de ciencias de la vida en la Biblioteca Nacional de
Medicina en los Institutos Nacionales de Salud de EEUU (NIH/NLM). El uso
del material está sujeto a los derechos de autor y/o términos PMC.
o PubMed Health: Proporciona información a médicos y público en general
sobre la prevención y tratamiento de enfermedades y afecciones.
A continuación, aprenderemos cómo buscar referencias biomédicas a través de

PubMed. El punto de partida de la búsqueda puede realizarse desde distintos
apartados; sin embargo, para sistematizar este procedimiento, vamos a realizar la
búsqueda desde la página inicial de PubMed. Para ello pinchamos en el enlace
PubMed, lo que nos lleva a la siguiente página:
2
BIOLOGÍA MOLECULAR
En la ventana de búsqueda podemos incluir los términos de búsqueda

(generalmente, en inglés). Si buscamos por ejemplo “helicase” podemos observar
34,111 resultados en los que aparece nuestra palabra de interés. Posteriormente
los podemos reordenar siguiendo diferentes criterios como tipo de artículo
(revisión, ensayo clínico, etc), periodo de publicación o incluso por la disponibilidad
del texto.
Además, podemos realizar una búsqueda avanzada (indicado debajo de la barra del
buscador) en la que podemos incluir términos específicos para campos concretos de
la base de datos de PubMed consiguiendo así una búsqueda más específica y
precisa: autor, fecha de publicación, idioma de la publicación, etc.
La búsqueda de información en las restantes bases de datos (PubMed Central o

Bookshelf) es similar a lo mostrado anteriormente.
2. BÚSQUEDA Y OBTENCIÓN DE SECUENCIAS NUCLEOTÍDICAS
El procedimiento es muy similar al indicado para buscar

información en PubMed, sólo que ahora trabajaremos en una
base de datos del NCBI diferente; en este caso será la base datos
de “Nucleotide”. En la página principal de NCBI pinchamos en el
enlace correspondiente a Nucleotide (“Popular resources”,
columna de la derecha), y entramos en la página inicial de
nucleotide.
3
BIOLOGÍA MOLECULAR
Al igual que veíamos en PubMed, podemos introducir nuestros términos de interés,

bien en la ventana de búsqueda o a través del procedimiento de búsqueda avanzada lo
que nos permitiría una búsqueda más específica.
Imaginemos que queremos buscar la secuencia del mensajero del gen PTP-1B usando
el procedimiento de búsqueda avanzada. Introduciremos sucesivamente los términos
“Mus musculus” y “protein tyrosine phosphatase 1B” en los campos de “organism” y
“protein name” respectivamente.
A continuación, nos aparece el resultado de nuestra búsqueda. Si pinchamos en el

enlace FASTA se mostrará la secuencia en un formato utilizable en distintos programas
bioinformáticos
4
BIOLOGÍA MOLECULAR
El formato FASTA es una de los más utilizados para mostrar una secuencia. Cada
secuencia comienza con una línea de descripción. Esta línea se distingue porque
siempre comienza con el signo > (“mayor que”) seguida de un identificador único. Tras
un espacio, puede incluir un texto descriptivo. A continuación, sigue la secuencia
(nucleótidos o aminoácidos) propiamente dicha en texto sin formato, y el ancho de
cada línea de la secuencia es la misma (con la posible excepción de la última línea).
5
BIOLOGÍA MOLECULAR
3. DISEÑO DE CEBADORES O PRIMERS
La PCR es una de las herramientas mas utilizadas en biología molecular tratándose de

una técnica in vitro de amplificación de ADN que nos permite obtener millones de
copias iguales de fragmentos concretos.
Uno de los pasos fundamentales antes de llevar a cabo una PCR es el diseño de primers
o cebadores. Estos se tratan de oligonucleótidos monocatenarios cuya secuencia es
complementaria a las regiones que flanquean el fragmento a amplificar. Un buen
diseño nos permite llevar a cabo un procedimiento con la mejor calidad y cantidad del
producto de amplificación posible.
Un mal diseño de los primers puede provocar la amplificación de otros fragmentos de

ADN distintos a los buscados dando lugar a una amplificación inespecífica. Algunas
reglas básicas en el diseño de primers son las siguientes:
o El tamaño de los primers debe ser entre 18 y 25 nucleótidos.

o Se debe mantener un contenido de Guanina-Citosina de entre 40 y 60 %.
o Tanto el forward como el revers deben tener una temperatura de fusión (Tm)
muy próxima, siendo inferior a 5 °C. Además, la Tm debería rondar entre 55-
65ºC.
o Evitar repeticiones inversas y secuencias complementarias que den lugar a la
formación de horquillas o a la dimerización de ambos cebadores.
6
BIOLOGÍA MOLECULAR
Gracias a los distintos recursos básicos que aporta la bioinformática, podemos diseñar
y analizar primers específicos para amplificar una región determinada.
En la página del National Center for Biotechnology Information disponemos de una

aplicación bioinformática que nos ayuda al diseño de primers. Para ello, entramos en la
página principal del NCBI http://www.ncbi.nlm.nih.gov y seleccionamos la pestaña
Nucleotide. Para conseguir la secuencia donde diseñaremos los primers vamos a
introducir el número de acceso NM_057220.3, correspondiente al ARN mensajero que
codifica para el gen Gurken en Drosophila melanogaster, a continuación, le damos a
search de manera que obtendremos la siguiente página:
Como se observa en la imagen, pulsamos la opción “Pick Primers” de la columna de la

derecha para acceder a la aplicación:
7
BIOLOGÍA MOLECULAR
En esta página podemos cambiar diferentes parámetros para el diseño específico de

los primers. Una vez hallamos modificado los parámetros para adecuarlos a nuestro
experimento en particular, pulsamos al botón “get primers” y tras esperar unos
segundos la página nos mostrará varias parejas de primers con toda la información
importante de éstos.
CUESTIONARIO
Diseña una pareja de primers para la secuencia de PTP-1B con la aplicación NCBI.
Indica las secuencias de dichos primers, su tamaño, Tm y porcentaje de GC. Por último,
indica el tamaño de amplicón que obtendríamos con este par de primers.
8
BIOLOGÍA MOLECULAR
4. BÚSQUEDA DE ORF’s (MARCOS ABIERTOS DE LECTURA)
El término ORF se refiere a una parte de una secuencia nucleotídica con la capacidad
de codificar un péptido o una proteína y que contiene, por tanto, un codón o triplete
de iniciación y un codón de terminación.
La búsqueda de ORF’s en una secuencia de nucleótidos tiene muchas utilidades en

genética molecular pudiendo ayudar a la predicción de genes o a la determinación del
origen de pseudogenes entre otras utilidades.
A continuación, vamos a buscar posibles funciones de una secuencia anónima de

nucleótidos y buscar si presenta alguna relación con otras secuencias depositadas en la
base datos de genes.
Supongamos que se ha rescatado una secuencia de cDNA y queremos saber si

presenta alguna relación con secuencias de genes ya conocidos, y si es así, tratar de
deducir su posible función fisiológica, metabólica o celular. Imaginemos que la
secuencia de cDNA problema es la siguiente:
1 TTGCGCGAGG GCCGCCCCAG CCGCCCGATC AGCGTCGGCC C
51 CTGAGGGGGA ATCACCCCCC GCTGCCAAAC GCAGGCACGG C
A
101 TGCGGCGCGC TGGCGGGCAG GTCAGACCGA GCCCTCCAGT C
G
151 ACAAATACAA CGCCAGGGAT CAGCGACGGC AGCGCTACAA A
G
201 CGTGTTGGAG GGACCCAGCT CTATGCCGAG TTCAGTCGCC A
251 CTGCCGTGAC TGGGAAGGCG GACCCCAGTA GCGCCTGTGA G
C
301 GGTCAGCGTC TGCCGGTAGC CGGACCGCCC AGGCAGGCTG G
A
351 GCCTGTGGCA GTTGGCCCAA CAAACGAGCA CGTCCCCCGA C
A
401 TGAGCGACAG TCTAGGCCGT GCTAGTGAAC GCACGTGAGC C
451 TGCAAGTCAG CCGGACTCCT CGTCGGGTCG CCCGCTAGCC A
C
501 TGTCACCCCA GACCTTAAGC GCTGGCTCAT TAGGGTAGGC T
551 GGCGACGGCT CTGGCCCCAC AGACTGGGTA ACCTTGCCAA C
601 ATGAAGTGGG TGTGGGCCCT GGCCCTGCTG GCCGCCTGGG C
651 GCGCGACTGC CGCGTGAGCA GCTTCCGCGT GAAGGAGAAC C
T
701 CCCGCTTCAG CGGCACCTGG TTCGCCTTGG CCAAGAAGGA T
C
751 CTGTTCCTGC AGGACAACTT CGTGGCCGAG TTCAGCGTGG C
A
801 CCAGATGAGC GCCACCGCCA AGGGCCGCGT GTGCCTGCTG C
A
851 ACGTGTGCGC CGACAAGGTG GGCACCTTCA CCGACACCGA A
G
901 AAGTTCAAGA TGAAGTACTG GGGCGTGGCC AGCTTCCTGC G
A
951 CGACGACCAC TGGATCGTGG ACACCGACTA CGACACCTAC G
1001 ACAGCTGCCG CCTGCTGAAC CTGGACGGCA CCTGCGCCGA C
1051 TTCGTGTTCA GCCGCGACCC CAACGGCCTG CCCCCCGAGG G
C
1101 CGTGCGCCAG CGCCAGGAGG AGCTGTGCCT GGCCCGCCAG C
T
1151 TCGGCCACAA CGGCTACTGC GACGGCCGCA GCGAGCGCAA A
C
C
9
BIOLOGÍA MOLECULAR
1201 GGTGCGGCGC GTCTACTCTC CCCCATCCCG CTAGGGCCTG C

1251 GGACCAGGGT CACACCAACC ATCTCACGTG CGGCCCTGTC G
1301 CCATCCACTG ACGGCGCGGC AGACCCGGGA GGCCGGCCGA T
C
1351 CGCGCGCGCC AAGGGAGCTG GCGACGACTC CCGCCACCGG A
C
1401 ATGGCAAGTC TAGGCGCCAG CGTCGCCGTA GAAGGGGTCG T
1451 GACATGGCCG GACACAGTGG CCAGTGGCCG ATCGTCAAGG T
C
1501 GTAAATGGCT TCGTTAGTTT GGCGCCCAGG CGCTCGGCCA C
G
1551 AGAGCAACAC AGAGTTCGCC GCACCGCCCG CCCGAACGCA C
G
1601 GAGCGAGTTT GGCCTATAGG AGCCGCCGCT CACGGCAACC A
G
1651 GGGTAAGCCC TCGGCCCAAC CCCGGAGTGC TTAACCCGGC C
T
1701 CCGAAGTCCG GAGAGGACAG CATGGGTCGT GCGTCAGGGC T
C
1751 TCGCAAAAAC GCACAAGCTA CCGGAGGATC ACAATGCCCA T
G
A
Vamos a estudiar si contiene algún marco abierto de lectura; es decir, si contiene un

conjunto de codones que son capaces de traducirse a proteína. Para ello vamos a
utilizar la utilidad Open Reading Frame Finder (ORF Finder) que se encuentra en el
NCBI (http://www.ncbi.nlm.nih.gov). Hacemos click en el vínculo correspondiente a
esa utilidad, la cual se encuentra en la solapa “Tools” de la entrada “Sequence
analysis” y entramos en la página correspondiente a la búsqueda de ORF’s.
Se abre una pestaña que nos permite introducir nuestra secuencia, en formato FASTA,
para llevar a cabo su estudio. Para ello escribimos en la primera línea del cuadro en
blanco una línea de identificación de nuestra secuencia problema, la cual empieza
siempre con el símbolo “mayor que” (>) y a continuación un texto descriptivo. En las
siguientes líneas irá la secuencia de nucleótidos propiamente dicha. No importa que
vayan números al principio de las líneas, ni que haya espacios en blanco. Una vez que
se haya pegado la secuencia hacemos click en submit para ejecutar el programa.
El resultado del programa nos muestra 7 posibles marcos de lectura abiertos: 5 para la
hebra positiva y 2 para la hebra negativa. Nos centramos en ORF2 ya que presenta
10
BIOLOGÍA MOLECULAR
mayor longitud (600nt – 199aa). Si pinchamos en ella, aparecerá una nueva pantalla
con la ORF seleccionada aislada y con su traducción a proteína.
Seleccionamos la secuencia que obtendríamos si se codificara a partir de este ORF y la

copiamos en su formato FASTA. Esta secuencia la utilizaremos posteriormente para estudiar la
herramienta BLAST.
>ORF +1 601-1200
M K W V W A L A L L A A W A A
A E R D C R V S S F R V K E N
F D K A R F S G T W F A L A K
K D P E G L F L Q D N F V A E
F S V D E T G Q M S A T A K G
R V C L L N N W D V C A D K V
G T F T D T E D P A K F K M K
Y W G V A S F L Q K G N D D H
W I V D T D Y D T Y A V Q Y S
C R L L N L D G T C A D D Y S
F V F S R D P N G L P P E A Q
K I V R Q R Q E E L C L A R Q
Y R L I G H N G Y C D G R S E
R N L L
5. BLAST - BÚSQUEDA DE HOMOLOGÍAS
Hasta ahora tenemos una secuencia de proteína, pero no sabemos cual es su función,
su familia o la homología que guarda con otras proteínas de la misma o distintas
especies. Las bases de datos nos permiten conocer este tipo de información.
Uno de los programas más utilizados para buscar parecidos u homologías es BLAST
(Basic Local Alignment Search Tool). Este programa compara una secuencia de
proteína o de nucleótidos con una base de datos (de proteínas o de nucleótidos). La
aplicación BLAST permite:
11
BIOLOGÍA MOLECULAR
o Comparar secuencias de ADN genómico

o Comparar secuencias de aminoácidos
o Buscar proteínas a partir de una secuencia traducida y viceversa
o Localizar secuencias que se traducen a partir de una secuencia de aminoácidos
Nosotros vamos a utilizar la variante BLASTP que compara una proteína con una base
de datos de proteínas. Este BLAST lo podemos hacer directamente en la página web en
la que hemos realizado la búsqueda de ORF’s seleccionando “Blastp” como programa y
como base de datos seleccionamos “Swissprot”.
En nuestro caso vamos a utilizar directamente la herramienta BLAST desde su página

de inicio. Si entramos en la pagina de inicio de NCBI podemos seleccionar en recursos
populares la opción de BLAST obteniendo una pantalla como la siguiente:
Dado que se trata de una proteína, utilizamos la opción “Protein blast”. Copiamos la
secuencia problema en la ventana en blanco y seleccionamos una base de datos de
proteínas con la que la podamos comparar. En este caso elegimos la base de datos
Refseq de proteínas, aunque podríamos haber utilizado otra distinta. Refseq tiene la
ventaja de que se trata de una colección exhaustiva de secuencias de proteínas no
redundantes y bien anotadas.
Una vez incluida la secuencia de trabajo pincharemos en el botón BLAST que aparecerá
más abajo en la misma página. De esta forma, se iniciará el proceso de búsqueda de
secuencias similares a la nuestra.
El proceso de búsqueda puede tardar varios minutos. Después, nos aparece una
pantalla que nos indica de qué tipo de proteína se trata nuestra proteína problema.
12
BIOLOGÍA MOLECULAR
Podemos observar detectado un dominio de Lipocalinas. Si pinchamos en el esquema

que muestra el dominio de lipocalina podremos obtener información sobre esas
proteínas. Las lipocalinas son pequeñas proteínas con forma de cesta que portan en su
interior pequeñas moléculas hidrófobas y presenta funciones muy variadas.
Si bajamos la página podremos ver un listado de las secuencias encontradas. Las

primeras que se han encontrado son todas "Retinol Binding Proteins"; es decir,
lipocalinas que transportan retinol.
Cada proteína homóloga aparece marcada en azul, si pinchamos en los enlaces que
aparecen bajo la columna “Accession” podremos ver la información sobre esa
proteína, la secuencia, quién la secuenció y otras bases de datos que tengan
información sobre esa proteína.
Por lo tanto, podemos concluir de este análisis, que nuestra secuencia se trata de una
lipocalina que pertenece al grupo de las Proteínas que unen retinol (Retinol Binding
Proteins). De esta forma, es muy probable que nuestra secuencia corresponda a una
proteína que también transporte retinol.
13
BIOLOGÍA MOLECULAR
6. VISUALIZACIÓN TRIDIMENSIONAL
Una vez que obtenemos todas las proteínas con las que tiene homología nuestro ORF
podemos visualizarlas en 3 dimensiones, para ello, debemos pulsar en su “accession” y así no
llevará a la parte dedicada a las proteínas del portal NCBI:
Después tenemos que pinchar en la parte de la derecha “Protein 3D Structure” y accederemos

a todos los archivos de visualización de esas estructuras tridimensionales para esa proteína.
Pulsamos en el primer enlace, esperamos a que cargue y a continuación en la ventana de

visualización tridimensional de la proteína, volvemos a pulsar en “full-featured 3D viewer”
para llevarnos al visualizador.
14
BIOLOGÍA MOLECULAR
7. ACTIVIDADES
Imagina que estás trabajando en un laboratorio y has clonado y secuenciado un

fragmento de DNA de 420 pb. Primero, quieres averiguar si este fragmento ya ha sido
secuenciado anteriormente, ya que en este caso puede que la secuencia ya haya sido
caracterizada por otros investigadores y puedas encontrar información sobre ella en
las bases de datos correspondientes. Para hacer esto, es necesario utilizar un
programa llamado BLASTn que permite buscar secuencias similares a la nuestra de
interés.
cttcctgtccaatcgctgcctcaagctggcttaagtcctgctgagattcagcagttatggaaagaagtga
ctggagttcacagtatggaagacaatggcattaaacatggagggctagacctcactactaacaattcctc
ctcgactacctcctccaacacttccaaagcatcaccaccaataactcatcattccatagtgaatggacag
tcttcagttctaagtgcaagacgagacagctcgtcacatgaggagactggggcctctcacactctctatg
gccatggagtttgcaaatggccaggctgtgaaagcatttgtgaagattttggacagtttttaaagcacct
taacaatgaacacgcattggatgaccgaagcactgctcagtgtcgagtgcaaatgcaggtggtgcaacag
Contesta a las siguientes preguntas:
1. ¿A qué especie pertenece la secuencia?
2. ¿Esta secuencia corresponde a un gen o a una región no codificante del

genoma? ¿Si es un gen, de cuál se trata?
3. ¿Hay secuencias homólogas en otras especies cercanas? Si la respuesta es sí,

indica cinco de esas especies.
15

P.6 Bioinformatica

Cargado por

Copyright:

Formatos disponibles

P.6 Bioinformatica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

P.6 Bioinformatica

Cargado por

Copyright:

Formatos disponibles

BIOLOGÍA MOLECULAR

La bioinformática es la informática aplicada a ordenar la ingente cantidad de datos

A lo largo de los últimos se ha ido acumulando una gran cantidad de información de

Toda esta información se ha ido depositando en grandes “almacenes” de información

Existen multitud de bases de datos de secuencias, siendo uno de los principales el

La URL (Uniform Resource Locator) del NCBI es http://www.ncbi.nlm.nih.gov , y su

1. RECURSOS POPULARES DE NCBI

o Pubmed: PubMed comprende más de 33 millones de citas de la literatura

A continuación, aprenderemos cómo buscar referencias biomédicas a través de

En la ventana de búsqueda podemos incluir los términos de búsqueda

La búsqueda de información en las restantes bases de datos (PubMed Central o

2. BÚSQUEDA Y OBTENCIÓN DE SECUENCIAS NUCLEOTÍDICAS

El procedimiento es muy similar al indicado para buscar

Al igual que veíamos en PubMed, podemos introducir nuestros términos de interés,

A continuación, nos aparece el resultado de nuestra búsqueda. Si pinchamos en el

3. DISEÑO DE CEBADORES O PRIMERS

La PCR es una de las herramientas mas utilizadas en biología molecular tratándose de

Un mal diseño de los primers puede provocar la amplificación de otros fragmentos de

o El tamaño de los primers debe ser entre 18 y 25 nucleótidos.

En la página del National Center for Biotechnology Information disponemos de una

Como se observa en la imagen, pulsamos la opción “Pick Primers” de la columna de la

En esta página podemos cambiar diferentes parámetros para el diseño específico de

4. BÚSQUEDA DE ORF’s (MARCOS ABIERTOS DE LECTURA)

La búsqueda de ORF’s en una secuencia de nucleótidos tiene muchas utilidades en

A continuación, vamos a buscar posibles funciones de una secuencia anónima de

Supongamos que se ha rescatado una secuencia de cDNA y queremos saber si

1201 GGTGCGGCGC GTCTACTCTC CCCCATCCCG CTAGGGCCTG C

Vamos a estudiar si contiene algún marco abierto de lectura; es decir, si contiene un

Seleccionamos la secuencia que obtendríamos si se codificara a partir de este ORF y la

5. BLAST - BÚSQUEDA DE HOMOLOGÍAS

o Comparar secuencias de ADN genómico

En nuestro caso vamos a utilizar directamente la herramienta BLAST desde su página

Podemos observar detectado un dominio de Lipocalinas. Si pinchamos en el esquema

Si bajamos la página podremos ver un listado de las secuencias encontradas. Las

Después tenemos que pinchar en la parte de la derecha “Protein 3D Structure” y accederemos

Pulsamos en el primer enlace, esperamos a que cargue y a continuación en la ventana de

Imagina que estás trabajando en un laboratorio y has clonado y secuenciado un

Contesta a las siguientes preguntas:

1. ¿A qué especie pertenece la secuencia?

2. ¿Esta secuencia corresponde a un gen o a una región no codificante del

3. ¿Hay secuencias homólogas en otras especies cercanas? Si la respuesta es sí,

También podría gustarte