Práctica 3

Escuela Nacional de Ciencias Biológicas
UDA Bioinformática, Ingeniería Bioquímica

Profesora responsable: Violeta Larios Serrato
Alineamientos por pares
I. Objetivos
1. Descargar secuencias para comparar mediante alineamientos
2. Conocer los distintos parámetros de BLAST
Práctica 3. Alineamiento por pares
Axel Jair García Sanchez

4.1 Datos de entrada
1. Descargar del NCBI las secuencias fasta de CAA80675.1 y NP_005334.1

2. Llenar la siguiente tabla y reportarla:
Propiedades CAA80675.1 (virus) NP_005334.1 (proteina

humana)
Longitud 188 aa 189 aa
Definición proto-oncogene protein GTPase HRas isoform 1

[Kirstenmurine sarcoma [Homosapiens].
virus].
Organismo Kirsten murine sarcoma Homo sapiens

virus
Fecha de registro 14-NOV-2006 02-OCT-2023
Dos sitios order(12..18,28..30,32, 2

35,60,116..117,119..120
,145..146) /site_type="acetylation
"
/site_type="other"
/note="N-acetylthreonin
/note="GTP/Mg2+ binding e, in GTPase HRas,
site [chemical N-terminally
binding]"
processed.
/db_xref="CDD:133338" /evidence=ECO:0000269|R
ef.12; propagated from
order(25,37..41) UniProtKB/Swiss-Prot
(P01112.1)"
/site_type="active"
/note="effector
interaction site order(12..18,28..30,32,
[active]" 35,60,116..117,119..120
,145..146)
/db_xref="CDD:133338
/site_type="other"
/note="GTP/Mg2+ binding
site [chemical
binding]"
/db_xref="CDD:133338"
4.2 Caracterizando secuencias con EMBOSS

3. Utilice seqstats de EMBOSS, https://www.ebi.ac.uk/Tools/seqstats/
4. Explore Pepinfo, reporte y compare un par de graficas, ¿Qué observa?

Estas gráficas nos indican los aminoácidos polares, no polares, aromáticos, grandes,
pequeños, muy pequeños y en qué posición se encuentran, una es más visual y de colores,
la otra es más de texto e informativa.
5. Explore Dotmatcher y Dotpath, reporte y compare las gráficas, ¿Qué

observa?.
dotmatcher nos muestra una gráfica con una línea recta en una relación entre las 2
secuencias y observamos que es directamente proporcional.
Tanto en dotpath como en dotmatcher se muestra también la relación entre las secuencias
pero mostrando los gaps o donde no haya coincidencia en las secuencias, es por eso que la
línea no se observa continua y con espacios en blanco.
4.3 Alineamiento global y local con EMBOSS
6. Alinie las secuencias mediante EMBOSS https://www.ebi.ac.uk/Tools/emboss/

Mencione qué otros programas de alineamiento están disponibles.
esta disponible multiple sequence alignment como clustal omega, muscle, cons, etc.
para pairwise sequence alignment esta needle, water, matcher, stretcher, etc.
7. Explore EMBOSS needle y EMBOSS water, probar los formatos pair, fasta,
score, MSF, mark10, clustalX, nexus.
Reporte los distintos formatos para needle.
formato pair:
# Commandline: needle
# -auto
# -stdout
# -asequence
emboss_needle-I20240605-200007-0448-35745863-p1m.asequence
# -bsequence
emboss_needle-I20240605-200007-0448-35745863-p1m.bsequence
# -datafile EBLOSUM62
# -gapopen 10.0
# -gapextend 0.5
# -endopen 10.0
# -endextend 0.5
# -aformat3 pair
# -sprotein1
# -sprotein2
# Align_format: pair
# Report_file: stdout
########################################
#=======================================
#
# Aligned_sequences: 2
# 1: CAA80675.1
# 2: NP_005334.1
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 189
# Identity: 157/189 (83.1%)
# Similarity: 171/189 (90.5%)
# Gaps: 1/189 ( 0.5%)
# Score: 804.0
#
#
#=======================================
CAA80675.1 1 MTEYKLVVVGACGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGET
50
|||||||||||.||||||||||||||||||||||||||||||||||||||
NP_005334.1 1 MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGET
50
CAA80675.1 51 CLLDILDTAGQEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHHYREQI
100
||||||||||||||||||||||||||||||||||||||||||||.|||||
NP_005334.1 51 CLLDILDTAGQEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHQYREQI
100
CAA80675.1 101 KRVKDSEDVPMVLVGNKCDLPSRTVDTKQAQELARSYGIPFIETSAKTRQ

150
||||||:|||||||||||||.:|||:::|||:||||||||:|||||||||
NP_005334.1 101 KRVKDSDDVPMVLVGNKCDLAARTVESRQAQDLARSYGIPYIETSAKTRQ
150
CAA80675.1 151 GVDDAFYTLVREIRKHK-EKMSKDGKKKKKKSRTRCTVM 188

||:|||||||||||:|| .|::...:........:|.:.
NP_005334.1 151 GVEDAFYTLVREIRQHKLRKLNPPDESGPGCMSCKCVLS 189
#---------------------------------------
#---------------------------------------
formato fasta:
>CAA80675.1 proto-oncogene protein [Kirsten murine sarcoma virus]

MTEYKLVVVGACGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAG
QEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHHYREQIKRVKDSEDVPMVLVGNKCDL
PSRTVDTKQAQELARSYGIPFIETSAKTRQGVDDAFYTLVREIRKHK-EKMSKDGKKKKK
KSRTRCTVM
>NP_005334.1 GTPase HRas isoform 1 [Homo sapiens]
MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAG
QEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHQYREQIKRVKDSDDVPMVLVGNKCDL
AARTVESRQAQDLARSYGIPYIETSAKTRQGVEDAFYTLVREIRQHKLRKLNPPDESGPG
CMSCKCVLS
formato score:
CAA80675.1 NP_005334.1 189 (804.0)
#---------------------------------------
#---------------------------------------
formato MSF
Name: CAA80675.1 Len: 189 Check: 9762 Weight: 1.00

Name: NP_005334.1 Len: 189 Check: 2608 Weight: 1.00
//
1 50
CAA80675.1 MTEYKLVVVGACGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGET
NP_005334.1 MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGET
51 100
CAA80675.1 CLLDILDTAGQEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHHYREQI
NP_005334.1 CLLDILDTAGQEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHQYREQI
101 150
CAA80675.1 KRVKDSEDVPMVLVGNKCDLPSRTVDTKQAQELARSYGIPFIETSAKTRQ
NP_005334.1 KRVKDSDDVPMVLVGNKCDLAARTVESRQAQDLARSYGIPYIETSAKTRQ
151 189
CAA80675.1 GVDDAFYTLVREIRKHK.EKMSKDGKKKKKKSRTRCTVM
NP_005334.1 GVEDAFYTLVREIRQHKLRKLNPPDESGPGCMSCKCVLS
formato mark10:
# Commandline: needle
# -auto
# -stdout
# -asequence
emboss_needle-I20240605-200851-0398-11896253-p1m.asequence
# -bsequence
emboss_needle-I20240605-200851-0398-11896253-p1m.bsequence
# -datafile EBLOSUM62
# -gapopen 10.0
# -gapextend 0.5
# -endopen 10.0
# -endextend 0.5
# -aformat3 markx10
# -sprotein1
# -sprotein2
# Align_format: markx10
# Report_file: stdout
########################################
#=======================================
#
# Aligned_sequences: 2
# 1: CAA80675.1
# 2: NP_005334.1
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 189
# Identity: 157/189 (83.1%)
# Similarity: 171/189 (90.5%)
# Gaps: 1/189 ( 0.5%)
# Score: 804.0
#
#
#=======================================
>>>CAA80675.1, 188 aa vs NP_005334.1, 189 aa

; mp_name: EMBOSS
; mp_ver: 6.6.0.0
; pg_name: needle
; pg_ver: 6.6.0.0
; pg_matrix: EBLOSUM62
; pg_gap-pen: -10.0 -0.5
>>#1
; sw_score: 804.0
; sw_ident: 0.831
; sw_overlap: 189
>CAA80675.1 ..
; sq_len: 188
; sq_type: p
; al_start: 1
; al_stop: 188
; al_display_start: 1
MTEYKLVVVGACGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGET
CLLDILDTAGQEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHHYREQI
KRVKDSEDVPMVLVGNKCDLPSRTVDTKQAQELARSYGIPFIETSAKTRQ
GVDDAFYTLVREIRKHK-EKMSKDGKKKKKKSRTRCTVM
>NP_005334.1 ..
; sq_len: 189
; sq_type: p
; al_start: 1
; al_stop: 189
; al_display_start: 1
MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGET
CLLDILDTAGQEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHQYREQI
KRVKDSDDVPMVLVGNKCDLAARTVESRQAQDLARSYGIPYIETSAKTRQ
GVEDAFYTLVREIRQHKLRKLNPPDESGPGCMSCKCVLS
#---------------------------------------
#---------------------------------------
formato clustalX:
CLUSTAL W (1.83) multiple sequence alignment
CAA80675.1
MTEYKLVVVGACGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAG
NP_005334.1
MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAG
CAA80675.1
QEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHHYREQIKRVKDSEDVPMVLVGNKCDL
NP_005334.1
QEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHQYREQIKRVKDSDDVPMVLVGNKCDL
CAA80675.1
PSRTVDTKQAQELARSYGIPFIETSAKTRQGVDDAFYTLVREIRKHK-EKMSKDGKKKKK
NP_005334.1
AARTVESRQAQDLARSYGIPYIETSAKTRQGVEDAFYTLVREIRQHKLRKLNPPDESGPG
CAA80675.1 KSRTRCTVM
NP_005334.1 CMSCKCVLS
formato nexus:
begin data;
dimensions ntax=2 nchar=189;
format interleave datatype=DNA missing=N gap=-;
matrix
CAA80675.1 MTEYKLVVVGACGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGET
NP_005334.1 MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGET
CAA80675.1 CLLDILDTAGQEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHHYREQI
NP_005334.1 CLLDILDTAGQEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHQYREQI
CAA80675.1 KRVKDSEDVPMVLVGNKCDLPSRTVDTKQAQELARSYGIPFIETSAKTRQ
NP_005334.1 KRVKDSDDVPMVLVGNKCDLAARTVESRQAQDLARSYGIPYIETSAKTRQ
CAA80675.1 GVDDAFYTLVREIRKHK-EKMSKDGKKKKKKSRTRCTVM
NP_005334.1 GVEDAFYTLVREIRQHKLRKLNPPDESGPGCMSCKCVLS
;
end;
begin assumptions;
options deftype=unord;
end;
4.4 Alineamiento con BLAST
8. Ingresa a BLAST del NCBI y utiliza las secuencia CAA80675.1
9. En él primer apartado “Enter Query Sequence” colocar la secuencia de la

proteína en formato FASTA en él cuadro inmediato ò según sea él caso, subir
él archivo correspondiente.
13.Seleccionar él resultado de interés, en esté caso. Reporte los mejores

2 resultados de Descriptions,
Graphic Summary muestra:

• Los dominios supuestamente conservados
• El puntaje del alineamiento (alignment score) representado con diferentes colores
según la puntuación.
De acuerdo con el puntaje del alineamiento, ambas proteínas CAA80675.1 y

NP_005334.1, ambas presentan un Score alignment >=200, presentando el Query
en color rojo. En cuanto a los dominios conservados ambas proteínas poseen los
mismos sitios dentro de sus secuencias,
variando database y organism:

ahora usando tblastn:
4.5 Alineamiento con PSI-BLAST
16.Descarga la secuencia fasta de NP_001235928.1
>NP_001235928.1 leghemoglobin A [Glycine max]

MVAFTEKQDALVSSSFEAFKANIPQYSVVFYTSILEKAPAAKDLFSFLANGVDPTNPKLTGHAEKLFALV
RDSAGQLKASGTVVADAALGSVHAQKAVTDPQFVVVKEALLKTIKAAVGDKWSDELSRAWEVAYDELAAA
IKKA
17.Utiliza la opción de psi-blast y reporte hasta la 1ra y 3ra iteración ¿Qué

organismos observa?, mencione 5 de cada iteración.
a) 1ra iteración
• Glycine soja – soja silvestre
• Sphenostylis stenocarpa - ñame africano
• Vigna umbellata – frijol arroz
• Ononis spinosa – hierba toro
• Glycyrrhiza uralensis – planta angiosperma
b) 2da iteración
• Psophocarpus tetranogonolobus – Frijol alado
• Cajanus cajan – frijol chícharo
• Abrus precatorius – Coralillo asiático o regaliz americano
• Phaseolus vulgaris – frijol silvestre
• Galega orientalis - galega o ruda cabruna,
c) 3ra iteración
• Medicago sativa – alfalfa
• Onobrychis viciifolia – esparceta
• pisum sativum – chicharo
• Vicia villosa – vezo piloso
• Trifolium repens – trébol blanco
5. Preguntas Extra
1. Defina oncogene.
Un oncogén es un gen que, cuando está mutado o expresado en niveles elevados, tiene el
potencial de causar cáncer. Estos genes normalmente juegan un papel en la regulación del
crecimiento y la división celular. En su forma normal, se conocen como proto-oncogenes y
están involucrados en funciones esenciales para el desarrollo y mantenimiento celular. Sin
embargo, cuando se alteran (por mutación o sobreexpresión), pueden promover la
transformación de una célula normal en una célula cancerosa.
2. Funciones de las proteínas KRAS en humanos.

as proteínas KRAS (Kirsten Rat Sarcoma Viral Oncogene Homolog) son miembros de la
familia de proteínas RAS, que actúan como interruptores moleculares que regulan varias
vías de señalización intracelular relacionadas con el crecimiento celular, la diferenciación y
la supervivencia.
Transducción de señales: KRAS se une a GTP en su estado activo y a GDP en su estado
inactivo, actuando como un interruptor que controla diversas rutas de señalización, como la
vía MAPK/ERK y PI3K/AKT.
Proliferación celular: Regula la división celular promoviendo el ciclo celular.
Supervivencia celular: Participa en la regulación de la apoptosis y la supervivencia celular.
Migración y adhesión celular: Influye en la organización del citoesqueleto y en la motilidad
celular.
3. Importancia clínica de sarcoma virus.
El virus del sarcoma de Rous (RSV) es un retrovirus que fue el primer virus identificado que
causa cáncer en animales. Su descubrimiento ha sido fundamental para el entendimiento de
la oncogénesis viral y la biología del cáncer. La importancia clínica del RSV incluye:
● Modelo de estudio: Ha servido como un modelo para investigar los mecanismos

moleculares de la transformación celular y la oncogénesis.
● Descubrimiento de oncogenes: El RSV contiene el oncogén v-src, que fue uno de
los primeros oncogenes virales descubiertos, proporcionando un entendimiento
clave sobre los oncogenes.
● Terapias antirretrovirales: Los estudios sobre RSV han contribuido al desarrollo de
terapias antirretrovirales y a una mejor comprensión de cómo los virus pueden
causar cáncer.
4. ¿Qué es EMBOSS?.
EMBOSS (European Molecular Biology Open Software Suite) es un paquete de software

libre y de código abierto para análisis bioinformáticos. Proporciona herramientas para una
amplia gama de tareas en biología molecular, incluyendo alineamiento de secuencias,
búsqueda de patrones, análisis de secuencias, manipulación de datos y visualización.
EMBOSS está diseñado para integrarse fácilmente en flujos de trabajo bioinformáticos y se
utiliza ampliamente en investigación y educación.
5. Diferencias entre alineamientos globales y locales.
Los alineamientos globales y locales son métodos para comparar secuencias de ADN, ARN
o proteínas:
● Alineamiento global:
○ Compara dos secuencias en su totalidad, desde el inicio hasta el final.
○ Es útil cuando las secuencias son de longitud similar y se espera que sean
similares en toda su extensión.
○ Algoritmo típico: Needleman-Wunsch.
● Alineamiento local:
○ Busca regiones de similitud dentro de las secuencias, sin considerar la
longitud completa.
○ Es útil para encontrar dominios o motivos conservados dentro de secuencias
más largas y diversas.
○ Algoritmo típico: Smith-Waterman.
6. ¿Que es el valor de expectación en blast?.
El valor de expectación (E-value) en BLAST (Basic Local Alignment Search Tool) es una
medida que describe el número de alineamientos esperados por casualidad en una base de
datos dada. Un E-value bajo indica que la similitud entre las secuencias es significativa y no
se debe al azar. En otras palabras, el E-value permite evaluar la significancia estadística de
un alineamiento.
6. Referencias
Altschul, S. F., Gish, W., Miller, W., Myers, E. W., & Lipman, D. J. (1990). Basic local
alignment search tool. Journal of Molecular Biology, 215(3), 403-410.
Needleman, S. B., & Wunsch, C. D. (1970). A general method applicable to the search for
similarities in the amino acid sequence of two proteins. Journal of Molecular Biology, 48(3),
443-453.
EMBOSS. (n.d.). Retrieved from http://emboss.sourceforge.net/
Malumbres, M., & Barbacid, M. (2003). RAS oncogenes: the first 30 years. Nature Reviews
Cancer, 3(6), 459-465.
National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov

Práctica 3

Cargado por

Copyright:

Formatos disponibles

Práctica 3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Práctica 3

Cargado por

Copyright:

Formatos disponibles

Escuela Nacional de Ciencias Biológicas

UDA Bioinformática, Ingeniería Bioquímica

Práctica 3. Alineamiento por pares

Axel Jair García Sanchez

1. Descargar del NCBI las secuencias fasta de CAA80675.1 y NP_005334.1

Propiedades CAA80675.1 (virus) NP_005334.1 (proteina

Longitud 188 aa 189 aa

Definición proto-oncogene protein GTPase HRas isoform 1

Organismo Kirsten murine sarcoma Homo sapiens

Fecha de registro 14-NOV-2006 02-OCT-2023

Dos sitios order(12..18,28..30,32, 2

4.2 Caracterizando secuencias con EMBOSS

4. Explore Pepinfo, reporte y compare un par de graficas, ¿Qué observa?

5. Explore Dotmatcher y Dotpath, reporte y compare las gráficas, ¿Qué

6. Alinie las secuencias mediante EMBOSS https://www.ebi.ac.uk/Tools/emboss/

Reporte los distintos formatos para needle.

CAA80675.1 101 KRVKDSEDVPMVLVGNKCDLPSRTVDTKQAQELARSYGIPFIETSAKTRQ

CAA80675.1 151 GVDDAFYTLVREIRKHK-EKMSKDGKKKKKKSRTRCTVM 188

>CAA80675.1 proto-oncogene protein [Kirsten murine sarcoma virus]

Name: CAA80675.1 Len: 189 Check: 9762 Weight: 1.00

>>>CAA80675.1, 188 aa vs NP_005334.1, 189 aa

9. En él primer apartado “Enter Query Sequence” colocar la secuencia de la

13.Seleccionar él resultado de interés, en esté caso. Reporte los mejores

Graphic Summary muestra:

De acuerdo con el puntaje del alineamiento, ambas proteínas CAA80675.1 y

variando database y organism:

>NP_001235928.1 leghemoglobin A [Glycine max]

17.Utiliza la opción de psi-blast y reporte hasta la 1ra y 3ra iteración ¿Qué

2. Funciones de las proteínas KRAS en humanos.

3. Importancia clínica de sarcoma virus.

● Modelo de estudio: Ha servido como un modelo para investigar los mecanismos

EMBOSS (European Molecular Biology Open Software Suite) es un paquete de software

5. Diferencias entre alineamientos globales y locales.

6. ¿Que es el valor de expectación en blast?.

EMBOSS. (n.d.). Retrieved from http://emboss.sourceforge.net/

National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov

También podría gustarte