Sequenciamento
Sequenciamento
Sequenciamento
FASTQ 04
BAM/SAM 06
VCF 09
BED 12
CONCLUSÃO 14
Com o desenvolvimento do
sequenciada, como variações
informação gerada.
transcritos, etc).
alinhamento ficam em
arquivos BAM/SAM.
de
referência e a amostra
O que é FASTQ?
Estrutura do FastQ
@BLABLA:123:BLEBLE:456:789:101112 (1)
ACTGACTGACTGACTGACTGACTGACTGACTGACTG (2)
+ (3)
JJJJIIIJJJJHIHICEEEFF?DACCCCHIIFFFEE (4)
(3) A linha exclusiva iniciada por “+” indica o fim da sequência de bases e
o início das
informações de qualidade na próxima linha, atuando como
um delimitador de informações.
@Nome_do_readA /1
@Nome_do_readA /2
GATCACCGACAAGTACCGCGCCG
GTCCAGGATCGGCTCGATGATCG
+
+
CDA@EEGGIGIIEHIKKBKKKKKKH DAAEEGEGI=IIGKBHCKKJKIKKKC
@Nome_do_readB 1 : N : 0 : 1
@Nome_do_readB 2 : N : 0 : 1
GATCACCGACAAGTACCGCGCCG
GTCCAGGATCGGCTCGATGATCG
+
+
CDA@EEGGIGIIEHIKKBKKKKKKH
DAAEEGEGI=IIGKBHCKKJKIKKKC
O que é um aquivo
SAM/BAM?
Enquanto o arquivo SAM é um formato em texto, o
arquivo
BAM é sua representação binária.
@HD - Primeira linha do header. Pode conter a versão do arquivo SAM utilizado
(SN), como o
alinhamento está ordenado (SO), etc.
O primeiro número indica o sam FLAG (clique e confira), enquanto o segundo indica o CIGAR,
22S12M2D52M65S que indica que o dado read possui 22 bases que foram ignoradas no
bases identicas e 65 bases ignoradas no alinhamento. A soma dos valores do CIGAR é igual
ao tamanho do read.
alinhadas na referência.
Bibliografia:
https://samtools.github.io/hts-specs/SAMv1.pdf
O que é um
arquivo VCF?
3
1.
Esse cabeçalho inicia-se com dupla marcação hash (##). Sua primeira
2.
O cabeçalho das colunas inicia-se por apenas um hash (#). As primeiras
aparecer, seguido por uma coluna que indica os seus valores para cada
ID: Caso a variante tenha sido anotada no dbSNP (em caso de humano),
foram alteradas.
programa.
baixa qualidade), frequência do alelo, contagem dos alelos, entre outros [2].
3.
na(s) amostra(s). Cada linha indica uma variante distinta, na maioria dos
chr20:14370G>A.
O que é um arquivo
com formato BED?
O formato BED (Browser Extensible Data) é uma forma
flexível e simples de representar regiões genômicas.
2º coluna
Posição inicial da região de interesse que inicia em base zero. Isso o faz
diferente de
alguns outros arquivos de uso comum, como VCF e GFF,
que possuem a base 1 como início.
A base zero significa que a primeira
base do fragmento genômico é numerada como zero.
3º coluna
Posição final final da região de interesse na base 1. A base 1 na posição
final, significa que a base final representada pelo valor não será
capturado
pelos programas, entretanto ele estará representado na tabela.
Exemplo
Queremos as primeiras 30 bases do cromossomo 21.
Chr21 0 30
Ou seja, os programas usariam a base 0 até 29 do
cromossomo 21, e não de 0 até 30 (o que
seriam 31
bases).
Clique e acesse
Referências:
https://bedtools.readthedocs.io/en/latest/content/general-usage.html
https://doi.org/10.1093/bioinformatics/btq033
https://samtools.github.io/hts-specs/VCFv4.2.pdf
https://samtools.github.io/hts-specs/SAMv1.pdf
conclusão
A área de sequenciamento genômico possui
várias nuances e peculiaridades. Entretanto,
com a exposição desses diferentes tipos de
arquivos, pode-se perceber a finalidade de
cada um dos arquivos e entender um pouco
mais o conteúdo e organização desses.