科研里面的反向?qū)ふ沂莻€剛需,但是很麻煩,應(yīng)該是出乎意料的麻煩。
比如,想要知道轉(zhuǎn)錄因子結(jié)合哪個靶基因,我們可以做ChIP-seq,轉(zhuǎn)錄因子拉下結(jié)合的DNA,通過DNA得到靶基因。
但是,如果想要知道哪個轉(zhuǎn)錄因子調(diào)控你的基因,幾乎沒有辦法。這是反直覺的,但是實際情況就是真的沒有好方法。如果有,請告訴我。
又比如,你有一個基因A,想要知道這個基因A能夠調(diào)控哪些基因,或者說哪些基因是該基因的下游,
我們可以敲減/敲除這個基因進行轉(zhuǎn)錄組測序RNA-seq,這一招屢試不爽,尤其是對于功能未知的lncRNA,那就是便宜高效。
但是,如果反過來,哪個基因敲減后會影響基因A的表達呢?好像又不行了。
對于已知基因A反向查找轉(zhuǎn)錄因子,通常的做法是,找到這個基因的啟動子,然后看這個序列上面有哪些轉(zhuǎn)錄因子的結(jié)合位點,這個屬于結(jié)合位點預(yù)測。
更好一點的做法是,下載已經(jīng)存在的所有轉(zhuǎn)錄因子的ChIP-seq數(shù)據(jù),然后反向查找哪個轉(zhuǎn)錄因子的peak落在了啟動子上面,這個屬于實驗數(shù)據(jù)的呈現(xiàn)。
但是方法是好,還是受限于數(shù)據(jù),因為沒有做過ChIPseq的轉(zhuǎn)錄因子,是反查不到的,
同樣的,想要知道哪個基因敲減后能夠影響基因A的表達量,我們也可以找到敲減數(shù)據(jù)的基因集,把他們整理一下,然后反向查找就可以了。2020年的時候,我下載整理了enrichr上面的幾個數(shù)據(jù)集,實現(xiàn)了這個功能。
實現(xiàn)的過程比較簡單,就是把數(shù)據(jù)按照行合并就行。
https://maayanlab.cloud/Enrichr/#libraries
為了方便使用,我把這個功能對接到了我的公眾號,用起來是這樣的。(當前已經(jīng)關(guān)停)
輸入一個基因TP53,然后自動返回哪些基因可以改變TP53的表達,并且給出數(shù)據(jù)代號
因為功能相對簡單,沒有做任何宣傳,就放在后臺讓大家自然使用。
我心里一直對這個功能不滿意,他猛的一看覺得有用,但是細想就感覺不知道怎么用。
第一,數(shù)據(jù)來源比較模糊,用起來不踏實
第二,數(shù)據(jù)呈現(xiàn)沒有細節(jié),不知道這個基因敲了還是過表達后會影響TP53,對科研沒有很好的參考價值
到了2021年,我就拉著課題組的師弟師妹們,自己檢索下載整理數(shù)據(jù),重新完善這個功能。當前總共處理了3000多個轉(zhuǎn)錄組敲減數(shù)據(jù),總樣本量2萬以上。考慮到微信公眾號不能很好的展現(xiàn)這個數(shù)據(jù),我和洲更做了個shiny網(wǎng)頁。
http://guotosky.vip:13838/GPSA/
進入這個網(wǎng)址,然后點擊Query,選擇Gene symbol,然后下拉選擇自己感興趣的基因,右側(cè)的表格會自動更新
表格中的每一行都展示了能夠調(diào)控TP53的基因,logFC顯示的是變化倍數(shù),正的就是敲減后TP53上調(diào),負的就是敲減后TP53下調(diào)。
關(guān)注logFC的時候,也應(yīng)該考慮到AveExpr,因為如果要實驗驗證,基礎(chǔ)表達值也很重要,表達值的不同,一部分來自于敲減帶來的改變,另一部分來自于該實驗所進行的細胞系celline。
總體而言,基礎(chǔ)表達值越高,logFC越大的組合越可信,通過查看基礎(chǔ)表達值的大小,對于選擇哪個細胞系驗證也有點參考意義。
又因為我們曾經(jīng)介紹過任意兩基因范組織相關(guān)性的技能,
跟Nature一起學(xué)習(xí)TCGA,GTEx和CCLE數(shù)據(jù)庫的使用
我在這里也把這個功能對接過來,鼠標點擊任意行,改行的基因?qū)捅蛔詣舆x取,然后相關(guān)性圖也會自動更新。
第一張是范組織的匯總圖,第二個是畫圖的數(shù)據(jù),點擊該表格的行,右邊的單組織相關(guān)性會隨之改變。
點擊這個設(shè)置按鈕,會有一些圖的調(diào)整參數(shù),支持四個數(shù)據(jù),三種相關(guān)性信息,三種作圖方式,可以任意選擇要展示的組織類型
在處理這3000多組數(shù)據(jù)時,我們也用GSEA分析了通路的改變,有了數(shù)據(jù)Query就順利支持了基因集的反查。
現(xiàn)在我們可以知道哪個基因敲減后會影響你感興趣的基因集。
選擇Gene sets,當前支持四種來源的基因集
這時候為了跟基因泛組織相關(guān)性匹配,我把這些基因集使用ssGSEA功能在組織中打分,
這樣,基因集和基因的泛組織相關(guān)性也實現(xiàn)了。
當然這也不是什么不得了的技能,我們之前也教過
跟CELL一起學(xué)習(xí)基因-通路泛癌相關(guān)性分析!
很多時候我們會發(fā)現(xiàn)基因A敲減后基因B下調(diào),那么A和B應(yīng)該是正相關(guān)的,但是你會發(fā)現(xiàn)在組織中不一定如此,這時候可能需要大家來自行解釋了。
比如,基因 A和基因B的結(jié)果來自于特定的細胞系,而相關(guān)性結(jié)果來自于組織,可能存在組織特異性的調(diào)控等等。
當然,如果你有所選擇,我們希望你選擇那些細胞和組織結(jié)果吻合的數(shù)據(jù)。
這個使用起來相對比較簡單,刻意隱藏了一些函數(shù),減少信息焦慮,希望能給科研中的朋友提供一點思路。
說不定自己的課題就起死回生了。
更多的教程,可以在這里找到。
因為第一次做,我跟洲更兩人踩了很多坑,反復(fù)取舍功能,摔桌子撂板凳臉紅脖子粗是常有的事情,雖然測試了很久,但是難免還會出現(xiàn)bug
比如,如果同一時間使用的人超過20個,第21個人需要等待一下。反正也不是什么要緊事,過一會再來就行。
還有,當前能查找出來的有用信息,取決于整天數(shù)據(jù)量,當前已經(jīng)有3000組測序數(shù)據(jù),還有2000組芯片數(shù)據(jù)會逐漸添加進去。
如果在使用過程中有什么好的建議,有什么使用方面的疑問,都請聯(lián)系我。
該圖片只作為標識使用,不要太糾結(jié)于我現(xiàn)在的體態(tài)。
聯(lián)系客服