PTEN(Phosphatase And Tensin Homolog)是一個(gè)重要的抑癌基因,編碼的蛋白具有蛋白磷酸酶和脂質(zhì)磷酸酶活性,能拮抗PIK3-AKT信號(hào)通路,調(diào)控細(xì)胞增殖、生長和代謝。PTEN在多種腫瘤中發(fā)生高頻突變,但通常沒有發(fā)生完全失去活性,多表現(xiàn)為單等位基因上的功能缺失,亞細(xì)胞定位異常,或者發(fā)生特殊的翻譯后修飾,因?yàn)橥耆腜TEN缺失會(huì)給癌細(xì)胞帶來衰老問題,當(dāng)然這也給靶向PTEN的治療帶來了機(jī)會(huì)。
研究目的:已知PTEN發(fā)揮功能需要細(xì)胞質(zhì)膜上形成二聚體,但原因未知。作者希望找到調(diào)控PTEN二聚化及膜定位的機(jī)制,進(jìn)而研究出恢復(fù)PTEN活性的方式。
文章大致思路:
作者對(duì)PTEN進(jìn)行共免疫沉淀,找到一個(gè)與PTEN直接物理互作的蛋白WWP1(E3泛素連接酶)
證明WWP1引起PTEN聚泛素化,從而抑制PTEN的二聚化和膜定位,使其不能發(fā)揮抑癌作用
發(fā)現(xiàn)并驗(yàn)證MYC-WWP1-PTEN調(diào)控信號(hào)鏈
通過結(jié)構(gòu)模擬和生化分析得到一個(gè)WWP1的潛在抑制劑IC3(來源于十字花科蔬菜)
本次我們復(fù)現(xiàn)的圖是Fig4F:野生型和Wwp1敲除小鼠RNA-seq的GSEA分析圖,用于說明Wwp1敲除影響PI3K-AKT信號(hào)通路。
野生型和Wwp1敲除小鼠的RNA-seq數(shù)據(jù)存放在GSE126789,但是作者沒有給整理好的Matrix文件,需要下載GSE126789_RAW.tar自己整理一下。
rm(list = ls())
options(stringsAsFactors = F)
# 下載GSE126789_RAW.tar
# 批量讀取文件處理為表達(dá)矩陣
dir <- "./raw_data/GSE126789_RAW/"
files <- list.files(path = dir, pattern = "*wwp1.*.txt.gz", recursive = T) #找到wwp1的WT和敲除樣本
expr <- lapply(files,
function(x){
# 只讀取基因名和count
expr <- read.table(file = file.path(dir,x), sep = "\t", header = T, stringsAsFactors = F)[,c(1,7)]
return(expr)
})
df <- do.call(cbind, expr)
rownames(df) <- df[,1]
df <- df[,seq(2,ncol(df),by=2)] #去掉重復(fù)讀取的基因名
colnames(df) <- substr(files,1,10) #列名為樣本名
df <- df[apply(df, 1, sum)!=0,] #去掉在所有樣本中count都為0的基因
grouplist <- c(rep("KO",3),rep("WT",3)) #記錄下分組信息
expr <- df
save(expr,grouplist,file = "./expr_group.Rdata")
上一步中得到的是原始的count,可以直接用Deseq2
進(jìn)行差異分析,用edgeR
或limma
中的voom
方法也是可以的,但是要記得標(biāo)準(zhǔn)化表達(dá)數(shù)據(jù)。
## 差異分析
#原始的count可以用DESeq2做差異分析,表達(dá)矩陣需要為integer
exprSet <- apply(expr, 2, function(x){as.integer(x)})
rownames(exprSet) <- rownames(expr)
library(DESeq2)
colData <- data.frame(row.names=colnames(exprSet),
dds <- DESeqDataSetFromMatrix(countData = exprSet,
colData = colData,
design = ~ group_list)
#使用DESeq函數(shù)進(jìn)行估計(jì)離散度,然后進(jìn)行標(biāo)準(zhǔn)的差異表達(dá)分析,得到res對(duì)象結(jié)果
dds <- DESeq(dds)
res <- results(dds,
contrast=c("group_list","KO", "WT")) #提取差異分析結(jié)果
DEG <- as.data.frame(res)
DEG <- na.omit(DEG)
nrDEG <- DEG[,c(2,6)] #第6列是padj
GSEA:Gene Set Enrichment Analysis,一種基于基因集的富集方法,簡單來說就是使用預(yù)定義的基因集(一般來自MSigDB數(shù)據(jù)庫),將基因按照某種指標(biāo)排序,查看這些基因在關(guān)注的基因集中是否出現(xiàn)顯著統(tǒng)計(jì)學(xué)富集。
關(guān)于GSEA需要了解的內(nèi)容很多,我把一些相關(guān)的資料放在了文末,大家一起學(xué)習(xí)!
這里我直接用了clusterProfiler
包,按照log2FoldChange對(duì)基因排序,結(jié)果看起來還可以。
library(clusterProfiler)
BiocManager::install("org.Mm.eg.db") # 下載小鼠的OrgDB包
library("org.Mm.eg.db")
#將ENSEMBL ID轉(zhuǎn)換為ENTREZID,用于GSEA分析
eg <- bitr(geneID = rownames(nrDEG), fromType = "ENSEMBL", toType = "ENTREZID",
OrgDb = org.Mm.eg.db)
nrDEG$EZTREZID <- eg[match(rownames(nrDEG),eg$ENSEMBL),2]
nrDEG <- na.omit(nrDEG[order(nrDEG$log2FoldChange,decreasing = T),])
# 得到一個(gè)按log2FoldChange排序的genelist
gene_list <- nrDEG$log2FoldChange
names(gene_list) <- nrDEG$EZTREZID
# GSEA分析
kk <- gseKEGG(gene_list, organism = "mmu")
gesa_res <- kk@result
# 畫PI3K-AKT的GSEA圖,編號(hào)為“mmu04151”
gseaplot(kk, "mmu04151", by = "runningScore",
title = "KO vs WT \nKEGG PI3K/AKT Signaling Pathway")
和文章中的圖基本一致,文中Fig5I還有2張類似的GSEA圖,只是選用的樣本不同,有興趣的小伙伴可以做一下試試~
聯(lián)系客服