01 Curso Transcriptoma PDF
01 Curso Transcriptoma PDF
01 Curso Transcriptoma PDF
Sumrio
1 Introduo.....................................................................................................................................................2
2 Preparando as bibliotecas de cDNA para a anlise.......................................................................................5
a) Analisando a qualidade das bibliotecas de cDNA..........................................................................................5
b) Limpando as bibliotecas de cDNA.................................................................................................................5
3 Preparando as sequncias a serem buscadas.................................................................................................7
a) Criando arquivos fasta individuais.................................................................................................................7
b) Analisando a integridade de cada sequncia a ser buscada............................................................................8
c) Caracterizando melhor cada sequncia a ser buscada....................................................................................9
4 Fazendo o alinhamento das sequncias......................................................................................................10
a) Alinhando sequncias pelo Blast..................................................................................................................10
b) Alinhando sequncias com o Bowtie2..........................................................................................................14
c) Convertendo arquivos SAM para BAM.......................................................................................................15
d) Visualizando o alinhamento da sequncia alvo............................................................................................16
5 Usando programao Shell.........................................................................................................................17
6 Normalizao dos reads quando no se tem repeties para as diferentes bibliotecas...............................18
7 Anlise da expresso diferencial quando se tem repeties para as diferentes bibliotecas........................20
8 Normalizao dos reads quando se tem repeties para as diferentes bibliotecas.....................................21
9 Produzindo um heatmap para os nossos resultados....................................................................................26
2 de 28
1 Introduo
O que seriam os RNAs-seq?
RNAs-seq o nome dado a as novas
tecnologias de sequenciamento (Next-generation
sequencing) aplicadas aos transcriptomas, ou
seja, s regies do DNA transcritas em molculas
de RNAs.
Os mtodos de sequenciamento Illumina e
Torrent usam uma metodologia de
sequenciamento via sntese. Neste processo, as
molculas de RNAs sintetizadas por um
determinado organismo ou de um determinado
tecido so fragmentadas para ento serem
transformadas em pequenas molculas de DNA
(cDNA), gerando ento uma biblioteca de cDNA.
Com essa tcnica possvel:
Assim, muitas dessas anlises podem ser feitas online. Porm, neste caso, podem haver
limitaes para a transferncia de arquivos, devido ao tamanho destes e a velocidade da conexo de
internet. Alm disso, tambm pode-se encontrar problemas com o espao disponibilizado por essas
plataformas para as anlises. Por outro lado, muitos desses programas de anlise podem ser baixados
para computadores ou servidores do prprio usurio.
Um arquivo FASTQ representa uma biblioteca das sequncias de cDNAs produzidas a partir de
uma populao de molculas de RNAs. Lembrando que, pelo mtodo de sequenciamento Illumina, esse
arquivo conter milhes de trechos pequenos, tambm chamadas de reads, que devem apresentar
homologia com as sequncias do DNA transcritas em RNAs:
Para cada trecho sequenciado, tambm so colocadas outras informaes, inclusive, sobre a
qualidade do sequenciamento. Para cada base sequenciada, esta qualidade dada por um smbolo em
ASCII especfico, onde ! e ~ indicam menor e maior qualidade, respectivamente:
Os escores de qualidade indicam a probabilidade de que uma determinada base tenha sido
corretamente identificada durante o sequenciamento:
Phred Quality Score Probability of incorrect base call Base call accuracy
10 1 in 10 90%
20 1 in 100 99%
30 1 in 1000 99,9%
40 1 in 10,000 99,99%
50 1 in 100.000 99,999%
60 1 in 1.000.000 99,9999%
Fonte: https://en.wikipedia.org/wiki/Phred_quality_score
Os arquivos FASTA so usados para se tentar descobrir se, na nossa biblioteca de cDNAs, ou seja,
nos arquivos FASTQ, determinadas sequncias de interesse esto sendo expressas e, caso positivo, com
que intensidade.
Embora possa ser utilizado por uma srie de programas, arquivos neste formato costumam ser
maiores, ocupando grande espao no computador. Alm disso, alguns programas trabalham com
arquivos contendo sequncias alinhadas em outros formatos. Por exemplo, arquivos no formato BAM
(Binary Alignment/Map), pelo fato de serem estocadas em formato binrio, alm de serem mais
compactos, podem ser mais facilmente usado por diferentes programas de anlise de sequncias. Os
arquivos no formato BAM (Binary Alignment/Map) contm as mesmas informaes dos arquivos SAM
(Sequence Alignment/Map). Entretanto, eles so comprimidos em formato BGZF (um formato de
compresso padro do gzip), no podendo ser visualizados por editores de texto. Algumas informaes
mais aprofundadas sobre programas, metodologias etc podem ser conseguidas no seguinte endereo:
http://www.labome.com/method/RNA-seq-Using-Next-Generation-Sequencing.html
5 de 28
Observaes
O programa FastQC serve apenas de verificao da qualidade das bibliotecas, no permitindo a
sua manipulao e, portanto, a sua limpeza;
Este programa pode ser instalado diretamente em um terminal:
~$ sudo apt-get install fastqc
Ou ento, pode ser baixado do seguinte endereo:
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
http://prinseq.sourceforge.net/
Observaes
O comando chmod permite mudar os privilgios que o indivduo, o grupo e outros usurios tm
para manipular arquivos e programas:
As permisses rwx (read, write e execute) para cada um dessas categorias so: (0) permisso
negada para qualquer atividade; (1) permisso de execuo (para caso do arquivo ser um
programa); (2) permisso de gravao do arquivo; (3) permisso de gravao e execuo do
arquivo (para programas); (4) permisso de leitura do arquivo; (5) permisso de leitura e
execuo do arquivo (para programas); (6) permisso de leitura e gravao do arquivo e (7)
permisso de leitura, gravao e execuo do arquivo (para programas). Por exemplo, para
permitir que o usurio, o grupo e usurios externos possam utilizar o prinseq, basta digitar no
terminal o seguinte comando:
~$ chmod 777 prinseq-lite.pl
Para permitir que apenas o usurio e o grupo leiam, escrevam e executem esse arquivo, deve-se
digitar:
~$ chmod 770 prinseq-lite.pl
Onde:
gzip programa de compactao;
-d informa ao gzip que este deve descomprimir o arquivo;
-c informa ao gzip que este mantenha o arquivo original sem modificaes (ou seja,
compactado), produzindo um arquivo de sada descompactado;
| (pipe) permite que um segundo processo se inicie automaticamente aps a finalizao do
primeiro processo.
Quando temos uma grande quantidade de sequncias a serem a serem buscadas, podemos usar
8 de 28
uma ferramenta presentes no Emboss, para criarmos esses arquivos individuais. O Emboss, que
funciona em GNU/Linux, fornece uma srie de ferramentas que permitem manipular esses e outros
tipos de arquivos.
No nosso caso, podemos usar o seqretsplit para gerar os arquivos FASTA individuais. Este
permite dividir o arquivo fasta total em arquivos individuais, preservando os nomes de cada sequncia.
Para tanto, basta digitar no terminal o seguinte comando:
~$ seqretsplit nome_do_arquivo.fasta
Observao
Aparecer a mensagem Reads and writes (returns) sequences in individual files output
sequence(s), mas basta dar enter para conseguir os arquivos individuais.
sequncia 5-TG-3 e o final uma sequncia 5-CA-3 em cada um dos 2 LTRs). Tambm possvel
analisar a integridade da parte interna do LTR-RT, sendo que as linhas paralelas indicaro a integridade
dos genes, a presena de mutaes (como snp) etc. Quanto mais intacta a ORF (Open Read Frame),
maior o indcio de atividade do LTR-RT.
Observao
Deve-se repetir o nome do arquivo duas vezes quando se quiser comparar as suas sequncias
internas. No caso dos retroelementos, isso relevante devido a presena de sequncias
repetidas, como as LTRs.
Para abrir a interface grfica do Artemis via terminal, basta ir ao diretrio onde este foi
descompactado, mudar a permisso de uso do arquivo arc (uma programao em Shell que inicia o
Artemis) para torn-lo executvel:
~$ chmod 777 art
Em seguida, tecla-se:
~$ ./art &
Onde:
./ representa um comando que indica que arc uma programao em shell que dever ser
iniciada;
& permite que o terminal fique livre para realizar outras atividades enquanto o programa
acionado (no caso, o Artemis) estiver funcionando.
Este programa pode ser utilizado para demarcar regies especficas em nossas sequncias, como
as regies promotoras, ntrons, xons etc. Automaticamente, ele tambm apresenta as trs possveis
matrizes de leitura do trecho analisado, os seus respectivos aminocidos, bem como os cdons sem
sentido (de trmino). Assim, no caso da nossa sequncia de interesse representar uma ORF ( Open Read
Frame ou seja, um trecho que costuma ser transcrito e que pode ser traduzido em peptdeo),
podemos tirar concluses importantes sobre a mesma. Por exemplo, a matriz de leitura correta da
mesma dever ser aquela que tenha apenas cdons de trmino na sua parte final. Por outro lado, a
presena de vrios cdons de trmino dentro de uma ORF nas diferentes matrizes de leitura, um
indicativo de que esta no seja funcional.
10 de 28
O BLAST um algoritmo que serve para compararmos sequncias biolgicas, como trechos de
aminocidos ou nucleotdeos de diferentes espcies. Embora menos eficiente que outros programas de
alinhamento (como o Bowtie), o uso do Blast importante para termos uma ideia da qualidade dos
nossos dados, sendo que os seus resultados podero ser usados para comparao com aqueles obtidos
por outros programas. Na internet, o Blast est disponvel no seguinte endereo:
www.ncbi.nlm.nih.gov/BLAST/
11 de 28
Porm, no nosso caso, possvel baixar e instalar no computador ou servidor essa ferramento de
alinhamento, a partir do seguinte comando:
~$ sudo apt-get install ncbi-blast+
Dessa forma, poderemos buscar por sequncias de interesse em nossa biblioteca de cDNA.
Lembrando que isto dever ser feito somente depois de analisarmos a qualidade da nossa biblioteca
(com o FastQC) e de eliminarmos dela as sequncias curtas ou de m qualidade (com o PRINSEQ). Para
tanto, preciso realizar os seguintes passos:
1 Converter a nossa biblioteca do formato fastq para fasta, pois este o formato padro usado
pelo BLAST:
~$awk 'BEGIN{P=1}{if(P==1||P==2){gsub(/^[@]/,">");print}; if(P==4)P=0; P++}'
nome_da_biblioteca.fastq > nome_da_biblioteca.fasta
Observao
Mais informaes sobre o programa awk sero dadas logo abaixo.
Onde:
in indica que o arquivo a seguir ser modificado;
-dbtype indica o tipo de arquivo da biblioteca fasta (protena ou nucleotdeo o
padro protena, por isso precisa colocar nucl).
Com isso, sero gerados os arquivos ndices (com as extenses .nhr, .nin e .nsq) que sero
utilizados pelo BLAST para fazer o alinhamento com as nossas sequncias de interesse.
Observaes
No momento de se fazer o BLAST, pode-se usar a opo -outfmt 7 para obter essa mesma
tabela com as informaes sobre cada campo;
Entretanto, para quem deseja manipular essas informaes via terminal, como veremos a
seguir, conveniente que o arquivo a ser trabalhado seja uniforme, ou seja, contenha apenas
colunas separadas por um espaador regular (tabulaes, ponto e vrgula etc);
Lembrando que possvel obter essas informaes um dos seguinte comando:
~$ blastn -help ou blastx -help ou blastp - help
original o nosso material sequenciado (arquivo em formato fastq original) pois cada sequenciamento
de cDNA de cada tecido poder ter tamanhos diferentes (profundidade diferente de sequenciamento).
Neste caso, usa-se o programa infoseq do Emboss junto com o awk:
~$ infoseq -only -length -nohead [nome_da_biblioteca.fastq/a] | awk '{sum += $1}END{print sum}'
Passos necessrios
I Indexando um genoma de referncia com o bowtie2-build
Para cada uma das sequncias (em formato fasta) que ser buscada em nossa biblioteca de cDNA
preciso gerar um grupo de arquivos ndices. Isso conseguido a partir do seguinte comando:
~$ bowtie2-build nome_do_arquivo.fasta nome_do_arquivo.fasta.index
Com isso so criados 6 arquivos ndices que sero utilizados pelo Bowtie2 para o alinhamento das
sequncias:
Depois que o Bowtie2 termina de fazer os alinhamentos, esses arquivos *bt2 podem ser
deletados.
II Alinhando as sequncias
Depois que os arquivos ndices so gerados, pode-se iniciar o alinhamento de cada uma das
sequncias em nossa biblioteca de cDNA. Para tanto, basta digitar no diretrio em que esto os
arquivos fasta, fastq e index, o seguinte comando:
~$ bowtie2 -x nome_do_arquivo.fasta.index -U nome_da_biblioteca.fastq -S nome_do_arquivo.sam -p 2
-a --no-unal --sensitive
Observaes
Nome do arquivo sam: convm colocar o nome da sequncia buscada e da biblioteca (ex:
fasta1.biblioteca5.fastq.sam);
x indica o arquivo ndice (obtido a partir de cada arquivo fasta isolado e indexado) a ser
utilizado;
15 de 28
Onde:
-S informa que arquivo de entrada est em formato SAM;
-b indica que o arquivo de sada dever ser gravado no formato BAM;
-o nome do arquivo de sada;
-t deve ser usado caso a linha de cabealho (@SQ) esteja ausente.
Onde:
-h inclui cabealho no arquivo de sada.
-o nome do arquivo de sada.
Tendo os arquivos em mos, basta abrir o programa Artemis e seguir os passos abaixo:
~$ ./art &
Com isso gerada uma imagem mostrando a posio em que cada read pareou:
Observaes
Os reads alinhados e com a mesma sequncia nucleotdica da biblioteca pesquisada so
representados com colorao escura;
Os reads alinhados e que apresentam sequncia inversa da biblioteca so apresentados na
colorao verde;
17 de 28
Este ltimo caso bastante comum quando se pesquisa por ncRNA (RNAs no expressos em
peptdeos), tendo em vista que muitos deles so reguladores da expresso gnica.
#!/bin/sh
###########################################
# Fazendo a indexao e a busca das sequncias #
# de interesse (*.fasta) em nosso transcriptoma #
# (*.fastq) usando o programa Bowtie2 e usando o #
# programa Samstools para converter os arquivos sam em bam #
###########################################
# Opes:
# --no-unal: elimina as sequencias (reads) que no alinharam, tornando o arquivo menor.
# a: busca pelos alinhamentos validos sem limitar o numero de alinhamentos a serem procurados.
############################################
# Coletando os dados e gravando uma tabela com #
# os resultados de interesse #
############################################
Alguns comandos a serem usados em linha de comando para se rodar ou se fazer alteraes
em nosso programa em Shell:
~$ chmod 770 nome_do_programa.sh
Significado: muda a permisso do arquivo e indica que este um programa que pode ser lido,
aberto e executado pelo usurio e pelo grupo.
~$ ./nome_do_programa.sh
Significado: para iniciar o programa pelo terminal.
~$ ./nome_do_programa.sh &
Significado: colocando o & no final do comando far o processo correr em segundo plano,
liberando o terminal para outras atividades.
~$ sed -i "s/nome_a_ser_trocado/novo_nome/g" nome_do_programa.sh
Significado: usando esse comando, no preciso abrir o arquivo de programa para trocar os
nomes das bibliotecas e dos arquivos correspondentes (sam, bam, res etc), o que facilita
sobremaneira a anlise quando se tem um grande nmero de bibliotecas a serem estudadas e
um grande nmero de trocas dentro dos arquivos.
Portanto, preciso equacionar os dados para se ter uma medida mais correta da taxa de
expresso dos RNAs nas diferentes bibliotecas. Por esse motivo feita a normalizao dos counts.
Existem vrias metodologias utilizadas na normalizao das sequncias detectadas nas bibliotecas de
cDNA e, cada uma delas pode ser mais ou menos adequada, dependendo do tipo de dados que
dispomos. Alm disso, por se tratar de uma metodologia recente, as vantagens e as desvantagens de
cada uma delas ainda esto sendo avaliadas pela comunidade cientfica, no existindo ainda uma
metodologia definitiva. Na verdade, estudos recentes apontam que os resultados da normalizao e da
anlise da expresso diferencial pode variar bastante de acordo com a metodologia que usamos.
Principalmente para os casos onde os experimentos so planejados sem repeties. Na verdade,
atualmente totalmente recomendvel que os experimentos sejam feitos com repeties e as anlises
19 de 28
Exemplificando
Imagine que foram realizados dois sequenciamentos, sendo que, no RNA-seq1 foram mapeados 6
milhes de reads e no RNA-Seq2, 8 milhes de reads, sendo obtidos os seguintes dados:
Os valores ajustados via RPKM para os locos analisados nos RNA-seq1 e 2 sero:
TPM = (Nx1000000)/(TxL)
Onde:
N: Nmero de reads mapeados para uma sequncia (ex. transcrito, exon, etc)
L: Comprimento da sequncia (em Kb)
T: Soma de todas as taxas de transcrio (Soma de N/L) = Comprimento mdio dos reads
Agora, podemos comparar os resultados das nossas normalizaes com os nossos dados brutos:
Onde:
A primeira coluna contm os locos buscados em nossa biblioteca;
As colunas subsequentes contm os nmeros de reads de cada biblioteca estudada;
Na primeira linha deve ser colocado o tamanho (o nmero total de reads) de cada biblioteca;
Nas linhas subsequentes so colocados os nmeros de reads (number of aligned/mapped reads)
para cada loco;
Genes que no apresentaram nenhum read em nehuma das bibliotecas precisam ser retirados.
No nosso exemplo, utilizamos a anlise de Audic and Claverie (1997), que desenvolveram um
teste estatstico especificamente adaptado para a anlise da expresso diferencial de genes (tags).
Neste caso:
Nesta anlise, quanto menor a probabilidade p(y|x), mais diferencialmente expresso ser o loco
analisado entre ambas as bibliotecas analisadas. Lembrando que estas comparaes sero sempre
duas a duas. Ento, se tenho os resultados da expresso as bibliotecas A, B e C, sero obtidas as
comparaes para cada loco: (A x B), (A x C) e (B x C). Tambm trabalharemos com a correo de
Bonferroni, que pode ser usada caso o mesmo teste estatstico seja aplicado repetidamente usando o
mesmo conjunto de dados. Neste caso, o nvel alfa (a probabilidade de se cometer o erro estatstico
tipo I) ser ajustado de acordo com os resultados da nossa anlise. Ou seja, a nossa linha de corte para
definirmos os resultados significativos dos no significativos no ser necessariamente um valor fixo de
alfa (como o 5% comumente usado, por exemplo).
Os resultados produzidos pelo IDEG6 para os genes acima so dados na figura abaixo. Observe
que como o resultado da correo de Bonferroni foi de 0,005, todos as comparaes cuja probabilidade
foi igual ou maior que esse valor foram consideradas no significativas (apenas as expresses
significativas entre cada par de comparao so marcadas em amarelo):
Next Generation Sequencing). Quando temos tais repeties, podemos usar programas como o EdgeR e
o DESeq2 para fazer a normalizao e as anlises estatsticas.
possvel usar o DESeq para analisar experimentos sem repetio, mas os resultados costumam
no ser to precisos. Com o uso de repeties, minimizamos os erros amostrais do nosso experimento,
o que aumenta a chance de descobrirmos realmente quais locos influenciam o fenmeno que estamos
estudando. O programa DESeq2 se utiliza te teste exato baseado em distribuio negativa binomial
para realizar a anlise de expresso diferencial. Como vimos anteriormente, faz-se a normalizao:
Existem diferentes tutoriais disponveis na internet para se fazer a normalizao com o DESeq2
com o pipeline a ser seguido, tambm chamados de vignettes. Vamos utilizar apenas um deles. Este
programa roda em R, e deve ser instalado a partir do site Bioconductor, sendo necessria a instalao
de vrios programas diferentes:
https://www.bioconductor.org/
O programa R est disponvel para diferentes sistemas operacionais e o programa Rstudio possui
uma interface grfica que facilita o uso deste programa. Existem verses para o Windows e Linux
desses programas:
Site do R: https://www.r-project.org/
BIOCONDUCTOR: CRAN:
source("https://bioconductor.org/biocLite.R") DBI liblapack (exige instalao proto
biocLite("Biobase") RSQLite pela central de programas) MASS
biocLite("S4Vectors") xtable lattice Formula
biocLite("IRanges") Rcpp snow latticeExtra
biocLite("GenomicRanges") reshape2 locfit cluster
biocLite("GenomeInfoDb") digest RColorBrewer rpart
biocLite("BiocParallel") stringr dichromat nnet
biocLite("genefilter") (exige instalao do stringi colorspace acepack
gfortran pela central de programas) magrittr munsell Hmisc
biocLite("annotate") RcppArmadillo xml2 (precisa instalar xml2- plyr
biocLite("biogenerics") gtable dev -> sudo apt-get install survival
biocLite("geneplotter") BH libxml2-dev) XML
biocLite("ggprot2") (instalado a partir de lambda.r labeling foreign
download do arquivo) futile.options scales gridExtra
biocLite("AnnotationDbi") futile.logger
biocLite("DESeq")
biocLite("DESeq2")
Lembrando que a instalao de alguns desses programas pode depender da instalao prvia dos
outros. Depois de instalado precisamos preparar os dados para a anlise. O tutorial aqui apresentado
foi modificado do seguinte endereo:
https://harshinamdar.wordpress.com/2014/11/11/quick-tutorial-on-deseq2/
#############################################################
# Fazendo as anlises no DESeq2
#############################################################
# Abrindo o programa:
library("DESeq2")
# Para obter informaes sobre quais variveis e testes foram usados e quantos genes foram
significativamente
# up (LFC > 0) e down (LFC < 0)regulados:
summary (res)
# Listando apenas os genes que apresentaram um limite/limiar significativo de expresso (padj < 0,1)
e
# uma mudana na taxa de expresso de maior que 2 (fold-change)|>2:
resSig2 <- resOrdered[!is.na(resOrdered$padj) & resOrdered$padj<0.10 &
abs(resOrdered$log2FoldChange)>=1,]
resSig2
#############################################################
# Obtendo os dados normalizados para a construo do heatmap
# Obtendo algumas informaes sobre o significado de cada coluna dada nos resultados:
mcols(res,use.names=TRUE)
# Aparecer a seguinte informao:
# DataFrame with 6 rows and 2 columns
# type description
# <character> <character>
# baseMean intermediate mean of normalized counts for all samples
# log2FoldChange results log2 fold change (MAP): condition treatment vs control
# lfcSE results standard error: condition treatment vs control
# stat results Wald statistic: condition treatment vs control
# pvalue results Wald test p-value: condition treatment vs control
# padj results BH adjusted p-values
# Para plotar em um grfico as mudanas com log2 vezes em relao a mdia normalizada.
26 de 28
# Os pontos em vermelho representam os genes cujo valor do ajuste de p menor que 0,1.
# Os pontos que saem fora da janela so plotados como tringulos vermelhos.
plotMA(res, main="DESeq2", ylim=c(-2,2))
___________________________________________________________________________________________________
Continuao...
Tissue 3 Tissue 4 Number of
Number of reads TPM RPKM TPM
Loco Loco size Library size RPKM Library sizereads
A 11588 27345728 4 0,0126 6408,5980 21296792 0 0,0000 0,0000
B 10320 27345728 59 0,2091 106141,1625 21296792 15 0,0682 33140,2509
C 10765 27345728 51 0,1732 87956,4449 21296792 11 0,0480 23298,2275
D 10206 27345728 84 0,3010 152804,1846 21296792 14 0,0644 31276,3959
E 10416 27345728 50 0,1755 89121,1042 21296792 8 0,0361 17511,8991
F 9591 27345728 5 0,0191 9678,7136 21296792 19 0,0930 45168,3202
G 10190 27345728 4 0,0144 7287,8149 21296792 12 0,0553 26850,4329
H 9382 27345728 3 0,0117 5936,5940 21296792 20 0,1001 48604,7593
I 9648 27345728 34 0,1289 65426,4186 21296792 14 0,0681 33085,2919
J 9562 27345728 14 0,0535 27182,5892 21296792 6 0,0295 14306,9395
K 16231 27345728 321 0,7232 367173,4586 21296792 445 1,2874 625113,6225
L 14132 27345728 57 0,1475 74882,9168 21296792 63 0,2093 101643,8603
Podemos ento gravar arquivos individuais em formato txt contendo os dados normalizados que
sero apresentados na forma de um heatmap:
Tissue1;Tissue2;Tissue3;Tissue4
A;0.0669197232;0.0508600934;0.0126229835;0
B;0.541022618;0.4600461918;0.2090657182;0.0682491697
C;0.7257610271;0.9337647529;0.1732473707;0.047980466
D;0.8870823692;0.6384261207;0.3009776399;0.0644107391
E;0.3648024373;0.2860576432;0.1755413942;0.0360640774
F;1.1743968361;1.2358273851;0.0190641139;0.0930198255
G;0.0856132455;0.0321320883;0.0143547726;0.0552958926
H;0.7583562438;0.6910077159;0.0116932797;0.1000968424
I;0.6530534037;0.461545742;0.1288700902;0.068135987
J;0.4217132308;0.3150302248;0.0535414103;0.0294637704
27 de 28
K;7.2190792435;25.462206338;0.7232197291;1.2873615801
L2.3883489157;1.3808794485;0.1474965076;0.2093257864
Neste caso:
A primeira linha conter as informaes das bibliotecas analisadas;
A primeira coluna contm os nomes dos locos estudados;
Lembrando que os dados devero ser separados por ponto e vrgula e as vrgulas dos nmeros
(ex: 103141,28) precisam ser trocadas por ponto (ex: 103141.28).
##############################################################
### A) Lendo os dados para transformao em formato de matriz
##############################################################
head(normalized)
##############################################################
### B) Transformando os dados em uma matriz
##############################################################
head(normalized_matrix)
##############################################################
### C) Criando o heatmap
##############################################################
library(gplots)
library(heatmap3)
# Opo 1:
heatmap3(normalized_matrix, col=bluered(75), Rowv=NA, Colv=NA, balanceColor = F,
cexRow=0.8,cexCol=1.1, margins=c(5,15))
# Opo 2:
heatmap3(normalized_matrix, col=bluered(75), Rowv=NA, Colv=NA, balanceColor = F,
cexRow=0.8,cexCol=1.1, margins=c(5,15))
28 de 28
Podemos observar que os resultados, em termos de maior (vermelho) ou menor (azul) grau de
expresso nas diferentes condies so muito diferentes. Portanto, refora-se a necessidade de se
trabalhar com repeties e com ferramentas mais adequadas para este tipo de anlise, pois os
resultados parecem no ser confiveis.