作者:Chris Lou
ID轉(zhuǎn)換 很多時候你得到的是GENCODE的ID,比如ENSGxxx之類的,怎樣轉(zhuǎn)換成gene symbol呢?往下看:
R語言環(huán)境下
library('AnnotationDbi')
library('org.Hs.eg.db')
columns(org.Hs.eg.db) #看一下都有什么
res$symbol <- mapIds(org.Hs.eg.db,
keys=row.names(res),
column='SYMBOL',
keytype='ENSEMBL',
multiVals='first')
res$entrez <- mapIds(org.Hs.eg.db,
keys=row.names(res),
column='ENTREZID',
keytype='ENSEMBL',
multiVals='first')
resOrdered <- res[order(res$pvalue),] #結(jié)果重新排列一下
head(resOrdered) #展示一下結(jié)果
(↑可按住屏幕左右滑動)
上面的res指的是Deseq2 計算之后的結(jié)果。
不用Deseq2的結(jié)果也行,只要rownames是ENSGxxxx之類的就能轉(zhuǎn)換;加入的是symbol與entrez(用于GO分析之類的)。以上的教程是參考http://bioconductor.org上面的教程
上面那個教程可以應(yīng)對一般情況,比如對新注釋的要版本求也不那么高,知道是什么基因就好了。那么有些特殊要求怎么辦比如我想看看非編碼,想看看最新的注釋結(jié)果?
“少廢話,來干貨~”首先去下載你要的最新的GTF文件,這個在建立index的時候就用到了,這里強烈建議,有什么建立的index,就用什么區(qū)注釋你的基因。下載完之后,將GTF拷貝到R語言工作環(huán)境:
biocLite('rtracklayer')
library('rtracklayer')
myGTF <- 'Your_download_GTF_name.gtf'
newGTF <- import(myGTF)
a<-cbind(newGTF$gene_id,newGTF$gene_name,newGTF$gene_type)
colnames(a)<-c('geneid','genename','genetype')
res$geneid<-rownames(res)
res_S<-merge(a,res,by='geneid')
index<-duplicated(res_S$geneid)
res_symbol<-res_S[!index,]
head(res_symbol)
(↑可按住屏幕左右滑動)
GTF那里你可以DIY,比如有專門的lncRNA的注釋文件等等merge之后會用重復(fù),下面的是去除重復(fù)的方法
下面按照一般的分析順序再做一下以往教程總結(jié)
1、10元轉(zhuǎn)錄組分析:首先你得有個服務(wù)器~餓第腎啊~
2、10元轉(zhuǎn)錄組分析:這次真的是干貨了~灰常干3、從零到壹:10元轉(zhuǎn)錄組分析~硬盤不夠用咋辦4、從零到壹:從SRA下載到分析~純干貨5、生信干貨~SRA轉(zhuǎn)fastq的教程~補課啦~6、從零到壹:10元~Mapping神器STAR的安裝及用7、生信干貨~SRA下載后批量處理Counts文件
聯(lián)系客服