Formato GenBank
Formato GenBank
Formato GenBank
¿Qué es GenBank?
Búsquedas en GenBank.
GenBank proporciona tres bases de datos sobre las que realizar consultas:
Nucleotide, Genome Survey Sequence (GSS) y Expressed Sequence Tag (EST). Si bien
todas ellas contienen secuencias de ácidos nucleicos, GSS contiene secuencias cortas sin
caracterizar y EST secuencias de ADNc (ADN complementario). Una búsqueda en
cualquiera de las tres bases de datos proporciona enlaces a los resultados en las otras
dos. Salvo que se sepa de antemano que se buscan secuencias típicas de GSS o EST, los
mejores resultados se obtendrán en Nucleotide, a partir de consultas de texto y el uso de
los filtros.
Para las búsquedas de texto, se pueden emplear los nombres y símbolos de genes y
proteínas directamente. Además, se puede buscar el nombre de autor o persona que
envió las muestras o los identificadores propios de la base de datos, como los números
gi (gi numbers) o de accesión (accession). Si se desean consultas más complejas están
disponibles operadores típicos en buscadores de texto, como son las comillas dobles
para buscar una frase exacta, o los operadores AND, OR y NOT.
Cabe destacar que cualquiera de los tres métodos de búsqueda que empleemos
(cadena de búsqueda, constructor avanzado de consultas o filtrado de resultados)
quedará finalmente reducido a una cadena de búsqueda. Para el usuario avanzado, con
un conocimiento profundo de los operadores y los dominios de búsqueda, es posible que
la forma más eficaz de realizar consultas sea directamente mediante dichas cadenas.
Para un usuario menos experimentado, sin duda los mejores resultados se obtendrán a
partir del filtrado y refinamiento sucesivo. En cualquiera de los casos, la cadena de
búsqueda obtenida al final será especialmente útil a la hora de referenciar o compartir
una búsqueda específica.
Una vez obtenidos los resultados de búsqueda, podemos filtrarlos conforme a varios
criterios para afinar mejor nuestra consulta. Los listaremos a continuación, para ilustrar
su uso mediante un sencillo ejemplo más adelante:
Por especie (species): GenBank nos muestra por defecto los reinos
biológicos (animales, plantas, hongos, protistas, arqueas, bacterias y virus)
sobre los que existen resultados para nuestra consulta. Además de esta
selección rápida, podemos personalizar estos enlaces para mostrar cualquier
otra familia, género o especie que nos interese. De manera adicional, en la
parte derecha de la pantalla tenemos un listado de los principales organismos
con resultados para la búsqueda actual (Top Organisms), que podemos
emplear también como filtro.
Por tipo de molécula (molecule type): nos permite seleccionar entre
ADN/ARN genómico y otras variantes de RNA no genómico (mensajero,
complementario, no codificante, ribosómico, de transferencia o transcrito).
Por tipo de enzima (enzyme type): cuando proceda, podremos seleccionar
entre hidrolasas, isomerasas, ligasas…
Por base de datos de origen (source databases): podemos elegir entre
varios orígenes de datos, como el propio GenBank, el DDBJ de Japón, etc.
Por compartimento genético (genetic compartments): muy útil cuando
estemos buscando secuencias de origen extracromosómico (halladas en
cloroplastos, mitocondrias, plásmidos o plastos).
Por rango de longitud (sequence length) de las secuencias resultado,
expresado en pares de bases (bp).
Por fecha de lanzamiento (release date) o de revisión (revision date).
Por campos de búsqueda (search fields): podemos elegir sobre qué campos
queremos que se efectúe la búsqueda textual que hemos introducido.
Acceso a GenBank.
Ejemplo de búsqueda.
Supongamos que queremos encontrar información sobre el gen CD4 (responsable de
la expresión del antígeno CD4, fundamental para el funcionamiento del sistema
inmunitario) obtenido en muestras de perros (canis lupus familiaris). Podemos
comenzar con una búsqueda del texto ‘CD4’ en la base de datos por defecto
(Nucleotide), lo que nos devuelve un listado con más de 75000 resultados; observar
figura 4:
Como hemos comentado antes, todos los métodos de búsqueda acaban reducidos a
una cadena y diversos operadores. Como puede verse en la caja de texto de la columna
derecha, el mismo resultado podría haberse obtenido buscando directamente la siguiente
cadena:
Además de consultar por pantalla los detalles de cada resultado de búsqueda (lo que
no tiene mucho sentido para secuencias del orden de millones de pares de bases), desde
el listado de resultados podemos seleccionar aquellos que nos interesen y enviarlos a un
destino de datos:
Confidencialidad.
A algunos autores les preocupa que la aparición de sus datos en GenBank antes de su
publicación comprometa su trabajo. GenBank, previa solicitud, retendrá la publicación
de nuevos envíos durante un período de tiempo específico. Sin embargo, si el número de
acceso o los datos de secuencia aparecen impresos o en línea antes de la fecha
especificada, se publicará su secuencia. Para evitar el retraso en la aparición de los datos
de secuencias publicados, instamos a los autores a que nos informen de la aparición de
los datos publicados. Tan pronto como esté disponible, envíe los datos completos de la
publicación (todos los autores, título, revista, volumen, páginas y fecha) a la siguiente
dirección: [email protected]