▌你是否遇到過
1、好奇生信高手是怎么入門和提升的?
2、生信要學的內容太多,我該做哪些準備?
3、生信的套路超多,總感覺缺少一個框架感?
▌你將學到
生信學習的關鍵認知
生信學習的重要性:為什么說生信是醫(yī)生做科研的成敗點
打造你在科研中的護城河
增長飛輪理論
理解生信本質:生信設計的底層邏輯是什么
生信課題設計框架
生信高手的IPO成長模型:3步提升你的學習速度和學習質量
輸入Input(閱讀書和文獻,上課,訓練營,與人探討請教)
處理Process(方法論,思維模型,認知水平)
輸出Output(發(fā)文章,申請課題,匯報)
生信高手的技能樹:5個技能點,迅速打通生信的任督二脈
檢索調研
刻意練習
模型提煉
文章復現
反思復盤
生信四步法:挑圈聯靠構建生信SCI的4個關鍵框架
差異表達
富集分析
互作網絡
臨床意義
用得上的工具
生信高手的工具清單:給你的生信學習之旅按上加速鍵
Everything(方便電腦中文件檢索)
Snipaste
搜狗微信
Chrome瀏覽器(谷歌學術,谷歌翻譯,谷歌搜索)
Typora
語雀(或者印象筆記)
仙桃學術(www.xiantao.love)
github
從案例中發(fā)現規(guī)律
2篇典型生信文章案例:帶入式學習,深度理解課程內容
Investigation of a Hypoxia-ImmuneRelated Microenvironment Gene Signature and Prediction Model for Idiopathic Pulmonary Fibrosis
Development and Verification of the Hypoxia- and Immune-Associated Prognostic Signatur for Pancreatic Ductal Adenocarcinoma
1篇加餐文獻自己拆解
Multi-omics Analysis of Ferroptosis Regulation Patterns and Characterization of Tumor Microenvironment in Patients with Oral Squamous Cell Carcinoma
我是雪球,好久不見,(*^_^*),感謝大家來聽雪球講生信。這節(jié)課的主題叫做:生信課題設計思路解析,這個是大家從生信小白到生信高手必修的基本素質。在生信研究中,有這么需要學習的內容,我們應該如何選擇學習的切入點呢?如何在最短的時間內讓完成從第一篇到第N篇生信的積累? |
希望大家?guī)е@三個問題完成本次課程的學習。考慮到有的小伙伴對我還不是很熟悉,雪球在這里認真給大家做過自我介紹吧。▌第一個標簽:跨專業(yè)學習者
我在本碩博分別讀了三個完全不同的專業(yè)。我本科就讀于山東中醫(yī)藥大學學中醫(yī),碩士呢,我考到了復旦基礎醫(yī)學院讀神經生物學,博士期間,我在復旦中山醫(yī)院跟臨床老板做生信研究,負責臨床和科研中的生信分析。我在本科期間就發(fā)表了5篇核心期刊,在碩博期間發(fā)表了10余篇SCI。乍一看,這幾個專業(yè)之間的唯一聯系就是生物和醫(yī)學,學科跨度非常大,但是其科學研究的底層邏輯有其相似之處。萬變不離其宗。關于生信,我開始也是因為興趣驅使,自學的,當初我關注各種生信公號,買各種生信課程和代碼,和解螺旋社群內的優(yōu)秀小伙伴請教學習,從生信小白到一步步磕磕絆絆走過來,我也走了很多的彎路?;仡^想過來,如果再來一次,我可能更有重點地進行生信學習。所以,我特別想借著這個課,給大家做個生信學習的路徑規(guī)劃,讓大家少走彎路。在這堂課里,我的這個【跨專業(yè)學習者】會給大家給大家解決畏難心理,幫大家迅速解決【如何上手】生信這個難題。▌第二個標簽:酸菜的徒弟
2018年的時候,我是解螺旋的學員的早期學員。最開始從接觸解螺旋的公號開始,當初抄了滿滿幾厚本的筆記,后面又在千聊語音酸菜大大講36策,驚為天人,一見蕭郎誤終身,后來也成了對我產生最大影響的人之一。當時就特別想認識酸菜大大,在知乎上搜索了很多如何讓大佬把他會的教你類似的問題,有解螺旋的各種活動招募都積極參加,也從學員-會員-先鋒班學員-到講師-再到助教,最后在先鋒班線下會上遇到酸菜大大隨緣收徒弟,最終如愿所償,因此后續(xù)有了和酸菜大大更多接觸和學習的機會。酸菜大大在2019年就籌備構建生信體系課的課程體系。酸菜大大當初得知我對生信感興趣,于是和我商量計劃構建生信體系課的時候,給大家講了一節(jié)生信研究方法論,打響了解螺旋生信生信體系課課程的第一槍。在當時的學員反響很好,我感受了酸菜大大強大的提煉模型和方法論的能力。在后面在生信體系課和一些業(yè)務的對接中,有幸近距離觀察和學習酸菜大大的思考問題的模式。這堂課里我也會分享作為酸菜大大徒弟,在跟酸菜大大近距離學習過程中的一些心得和思考。▌第三個標簽:解螺旋生信負責人
2019年年底,解螺旋生信體系課上線以來,我在酸菜大大的幫助和指導下,一步步構建了解螺旋的生信社群,挑圈聯靠的生信公號,以及接觸到了上千位生信學員,幫助上百名學員順利發(fā)表生信SCI。在接觸各種小白生信學員的過程中,幫學員答疑的過程中,我發(fā)現大家都有很多共性的問題,很多生信入門不了的原因,要么是依賴性思維,要么是沒有刻意練習,要么是沒有掌握正確的學習方法。雪球希望通過這堂課,給大家介紹一些實用的生信學習和分析的方法,讓大家學了就能用,就像你的朋友一樣,站在你身邊,幫你補足在生信學習中的短板,少踩一些坑。你可以認真問自己個問題,一個生信小白到生信高手的底層邏輯是什么?如果我想學好生信,應該學會哪些必備技能?▌第一個題目:關于生信的學習方法
為什么大家同為解螺旋學員,接觸到相同的生信課程,有一樣的參加解螺旋訓練營的機會,有的三個月就能搞定常規(guī)生信的SCI圖表,有的人學了兩年連基本的生信思路都說不清楚?能不能通過刻意練習,通過反饋形成自己的生信學習的核心能力和思考框架?▌第二個題目:關于生信的SCI發(fā)表的最佳實踐路徑
會進行生信分析和能順利把生信SCI投出去并順利接收,這當中還有一個巨大的橫溝。雪球在對學員培訓生信寫作、投稿、返修的時候,發(fā)現即使學員們在我們的指導下都順利完成的分析部分的工作,但是文章接收的快慢還有很大的差別。雪球復盤了200多位順利發(fā)表生信SCI的學員,發(fā)現優(yōu)秀的學員都有很強的自驅性,或者叫“氣味”。比如:寫作效率很高,能用空杯心態(tài)接受老師建議,擅長調研和找路徑。我相信,這種特點和氣味兒,不僅能幫他們增加發(fā)表生信SCI的成功率,擴展到科研方向的SCI或者課題申請,都會有比較高的成功率。這兩個話題很難,希望大家認真想一想,底層邏輯和規(guī)律是什么?雪球在解螺旋生信季的第一節(jié)內容的主題是,生信課題設計思路解析,幫你打造生信學習的超強認知。▌生信學習的重要性:為什么說生信是醫(yī)生做科研的成敗點?
如果選擇做基礎科研,你最起碼需要有實驗室的一間實驗臺,需要有科研經費采買各種試劑和瓶瓶罐罐,需要花時間養(yǎng)老鼠,養(yǎng)細胞,基因鑒定,細胞轉染,跑 WB,PCR、流式等各種實驗,還要自己解決報稅、申請倫理、標本收集等各方面的問題。毫不夸張的說,有的運氣不好的小伙伴,光造動物模型這個事就干了兩年多。沒辦法,模型不成功,后面表達和下游信號通路探索都進行不下去。但是基礎科研也是后續(xù)申請省市級課題的基礎,該做還得做,繞不過去,但是作為一窮二白冷啟動期,確實只能遠觀不能褻瀆。如果選擇做臨床科研,要么自己科室本身就有大量的患者隨訪數據,要么靠挖公共的臨床數據庫的資源。在早年間,Meta分析很火,很多醫(yī)生都趕上了這波紅利,匯總一些文章,從不同的角度出發(fā),一年發(fā)十幾二十篇文章的都大有人在。但是因為風頭太盛,而且題目里必有“meta”的字眼, 后面meta分析不能作為很多高校的職稱晉升和拿學位的標準了,Meta的熱度就下來了。但是臨床研究水平也是臨床醫(yī)生必不可少的技能點。有多少臨床課題,有沒有高水平的臨床文章,也反映了臨床醫(yī)生的江湖地位。畢竟,如果有一篇改寫指南的代表作,那在你的小圈子里肯定算得上是巨佬級別的人物了。▌為什么最近生信這么火呢?
第一個原因,是時代的紅利
??紅利是對客觀存在的市場規(guī)律,對洞察力的獎勵。隨著常規(guī)的測序成本下來,稍微有點經費就能做測序,發(fā)個2-3分的文章綽綽有余;另外,測序又不斷有新的測序類型和產品不斷涌現,而且高端玩家也能鈦金新技術,做第一個用該技術在本領域內的文章,就可以發(fā)到高影響力的期刊上;公共數據庫存儲了越來越多的測序數據,或者很多高分測序文章都提供了測序樣本的補充材料,可以免費供研究者挖掘;二次數據挖掘的數據庫,以及市面上各種生信教程,降低了學習門檻。可以說,無論你是貧窮還是富有,無論你是小白還是大咖,生信可以高效的滿足你科研連續(xù)文章產出的需求。第二個原因,是生信的百搭性和實用性
在老板隨手扔給你一個課題方向的時候,你想過如何拆解這個課題,變成一個具有可行性的執(zhí)行方案嗎?首先分子怎么來?是看文獻一個個盲猜,還是通過自己動手用公共數據篩?接下來信號通路選哪條,表型應該靠哪個?如果看文獻來猜的話,每一個篩選步驟下來,需要調研的文獻都是指數級增加。而且你寫在文章或者課題里,專家總有種你不靠譜的感覺,為什么選了這個不選哪個?在數字化和講究定量的科研時代,沒有點生信測序結果,都有點拿不出手。無論是基礎文章中的分子、機制、表型的篩選,還是和臨床研究結合,用高通量數據構建臨床變量的預測模型,都是很好的給科研增加論證維度的升級利器。另外,更務實的一點,發(fā)生信文章是目前最具有性價比的選擇,具有周期短、起效快的特點。目前生信文章在高校和醫(yī)院都是被認可的,用來晉升職稱和拿學位都是允許的。雪球當年有一篇基礎實驗一直在投,遲遲不中,后面緊急補了個生信文章,擦著邊靠生信文章畢業(yè)。生信文章的題目還有一定的隱蔽性,有些生信文章起的題目和基礎實驗類似,在申請課題的時候,專家粗略一瞅,說不定也誤認為是基礎科研類的文章。未來生信在生信研究中的比重肯定會越來越高,也會有越來越的科研工作者掌握生信,生信會逐漸成為醫(yī)生的剛需技能。與之相對應的,生信的發(fā)文章的門檻也會越來越高。如果你做的是純生信研究,會有審稿人要求你補實驗,補越來越多的的實驗;如果你做的是純基礎或者臨床類的研究,在投稿的時候,肯定也會有嚴謹的審稿人要求你做一組生信解釋一下你的分子、機制、表型和臨床變量怎么篩選的 。目前生信還在紅利期的中后節(jié),遇到紅利最正確的應對姿勢是:趁著今年,還有一些期刊還收純生信文章,有一些3-5分的期刊對生信的分析難度還沒這么高。通過紅利期,積累幾篇生信文章,當作科研生涯的打底;等生信紅利期過去,把生信當作自己武器庫中的一個常見兵器,有機融入到你在科研中的每個環(huán)節(jié),讓生信起到為你科研探索方向出現岔路口的投石問路的探路器。當你吃到了生信紅利,就會迅速構建起屬于你自己的增長飛輪。貝索斯的商業(yè)哲學是通過更低的價格,更優(yōu)的選擇,更快的交付,推動其商業(yè)帝國的高速運轉。對于我們科研工作者也是一樣。當你在沒有資源,沒有經費的時候,通過生信紅利,有了一些文章的積累之后,會有更多的課題,能有機會申請到名校名導的研究生,獲得更好的科研資源和環(huán)境,從而進一步促進科研成果的產出,形成正向循環(huán)。在三年五年,甚至未來幾十年的時間維度里,打造你自己的科研壁壘 ,起碼做到在同行業(yè)內中上的水平。當你回過來看的時候,你在職業(yè)生涯里轉變的那一點,就有可能是當初抓住了生信的紅利,發(fā)的那幾篇文章開始。不能說絕對,但是雪球相信,對很大一部分醫(yī)生來說,生信能力的高低很大程度上是決定了你做科研的成敗點。如果這么性價比高的SCI科研方案都搞不定,其他費時費錢費力的基礎科研,也很難做的很好。▌學習能力的差距:生信高手有哪些學習習慣
接下來,我們聊一個最基礎的話題,生信高手是怎么煉成的?很多人可能覺得自己在生信這件事上投入的時間和精力夠多了,就是因為“笨“或者沒有這塊學習代碼的天賦。可事實真的是這樣嗎?
一提到生信學習,大家總是習慣性的想到這些事情:
多看文獻,多看代碼,多看教程,多聽多看多問多做
只要多聽,多看,多問,多做,就能迅速上手生信了嗎?那到底生信學習的捷徑在哪里呢?
【劃重點??】直接說答案,生信高手的底層邏輯在于:刻意練習。【調研???】 大家學過《刻意練習》相關的書或者課程嗎?著名的心理學家埃里克森在”專業(yè)特長科學“潛心幾十年,研究了一系列行業(yè)或領域中的專家任務:國際象棋大師、頂尖小提琴家、運動明星、記憶高手、拼字冠軍、杰出醫(yī)生等。他發(fā)現,不論在什么行業(yè)或領域,提高技能與能力的最有效方法全都遵循一系列普遍原則,他將這周通用方法命名為”刻意練習“。為此著作了這本書《刻意練習》。這本書的核心觀念就總結了一句話:高手,都是練出來的。刻意練習,是專門為了”提升能力“而設計出來的練習方法。刻意練習,有四個必須要素:套路,非舒適區(qū)、重復、反饋。套路就是門路,門在哪,路在哪,別人都摸索明白了,而你不知道,別人告訴你一套門路,你去學習了就能按圖索驥,不進錯門不走彎路,快速到達目的地。專業(yè)人士在基礎訓練的時候,學的都是套路,比如圍棋的定式,編程的算法,數學的公式,物理的定理,都是套路。生信的研究套路就是把生信類的文章大量拆解,拆解成各種模塊化的要素,有哪些恒量有哪些變量,有哪些加加減減的排列組合,有哪些邏輯鏈接,掌握了這些,基本上可以完成一個生信課題的設計。第二個關鍵要素:非舒適區(qū)
如果你想成長,在生信領域有所精進,需要跳出舒服的,自動做事的范疇,對標高手,不斷挑戰(zhàn)難題,才有機會成長。在生信研究方面,比如同一類文章套路,你用零代碼的方式發(fā)表過幾篇文章,下一步就需要考慮研究復雜度的升級,不要老是沉迷于老套路,去追一些高分生信文章的課題設計方式和分析方法,爭取發(fā)表影響因子更高的SCI文章,申請更高規(guī)格的課題。沉溺于過去的成功經驗,并不能代表未來你能始終追趕上生信研究套路的新趨勢。第三個關鍵要素:大量重復
重復是無聊又是必須的,大量重復有利于你形成肌肉記憶的條件反射,以及對套路內核更深刻的理解。在解螺旋生信部面試的時候,我們的技術主管總喜歡問面試者一句話,你一共寫過多少行代碼。這個問題的本質其實就是問代碼的功底的最粗略的評估。早年間,雪球在網上學生信的時候,也認識了幾個生信大神。他們的生信入門之路都如出一轍,都是比著幾本R語言書《R數據科學》《R語言實戰(zhàn)》整本書的敲代碼敲了幾遍。如果想寫好R語言代碼,離不開對常見統(tǒng)計學分析、可視化圖表的常見代碼的反復練習。多敲R語言代碼,練手感的重要性,就好像你在學習武功的時候,練習蹲馬步一個道理。第四個關鍵要素:反饋
你在做的過程,需要拿到反饋,告訴你下一步怎么調整。反饋就是起到教練的意義,能以旁觀者的角度提供及時反饋。不管在練習任何技能或提高能力,大部分人很容易陷入自我而不察覺。相對于球類運動、圍棋,科研比較特殊,很難有專門這樣的【高水平的教練】。解螺旋正是通過大量的課程、生信講席營,各種主題的訓練營,都配有助教老師,就是為了幫助大家及時反饋。我們希望大家用科學的方法去做科研,用更高投入產出比的正確姿勢更快學好生信。總結一下,生信高手都有個刻意練習的過程:套路、非舒適區(qū)、重復、反饋,缺一不可。▌學什么是好的生信課題?
今天的課程內容比較多,我們直奔主題吧。這個是雪球總結的“好的生信課題的四要素”。我快速讀一下,讓大家提前有個框架感。1、理解本質:我們做生信研究,究竟在研究什么?
2、課題拆解:如何拆解我的科研假設?
3、提煉重點:課題設計的重點、邏輯鏈條和創(chuàng)新點是什么?
4、高效驗證:如何性價比最高的驗證你的生信結論。
生信研究很重要,生信很百搭,那生信研究的本質是什么呢?四個字概括,就是挑圈聯靠。
所謂測序,就是通過大規(guī)模對樣本不同分組間的基因的檢測,得到其在不同維度的定量結果,如果是在基因組層面,就看有哪些基因突變;如果在轉錄組層面,就看有哪些基因的mRNA表達變化;依此類推。所以,拿到整理好的測序數據的第一步,就是找有哪些不一樣的基因,把這些異?;蛄喑鰜?,也就是我們常說的”挑'的這一步。我們現在手里有一些異常基因,孤零零的也沒啥用啊,于是有人想到可以把這些基因進行分類,將其和生物學功能聯系起來,看看這些基因和哪些通路有關、和哪些表型有關、和哪些細胞亞群有關。這一步聯系,就是我們“圈”的這步,把基因進行分類。除了這些分子進行生物學歸類,也可以看看這些分子的內部之間的相互聯系,或者對外的相關關系。于是也有了“聯”這一步,看看分子之間互作網絡,分子的靶基因,分子與其他類型小分子的聯系。有了生物學的關聯,如果測得是人的樣本,還可以收集到一些臨床變量。我們還可以把測序數據和臨床數據聯系起來,看看不同亞組之間的基因特征聯系,看看構建個臨床預測模型,是否有可能成為臨床變量的預測因子。這一步就是我們常說的“靠”這一步,看看有哪些臨床關聯。我們現在知道了生信研究的本質,還需要課題拆解、提煉重點、高效驗證三步,才能完成一個好的課題設計。因為我們本堂課設置的培訓的內容很多,這三個要點,雪球在后面幾期課程中會給大家詳細介紹,這里大家先有一個初步的印象。生信高手的IPO成長模型:3步提升你的學習速度和學習質量
下面這個話題,我會用生信代碼分析的思路,給大家拆解一下生信高手成長的IPO模型。IPO是《未來簡史》中提出來的思考方式:任何計算機的算法意義,人的一生也是一個數據處理的過程,那么認知升級,就是某部分算法迭代和優(yōu)化的過程。但凡算法,就會涉及到三個過程:輸入(Input),處理(Process),輸出(Output)輸入Input(閱讀書和文獻,上課,訓練營,與人探討請教)
輸出Output(發(fā)文章,申請課題,匯報)說的再直接一點:你的學習能力,就是你的IPO的速度和質量。這個是一個非超好的思考模型,任何一個科研工作者對任何一個領域的學習能力,或者學習效率,都可以拆解到這三個環(huán)節(jié),然后看看是很差,一般般,比較平庸,還是優(yōu)秀。你可能也觀察到身邊很多生信高手跟你說他自己的學習習慣,有的人從大量文獻檢索,然后復現,找資料去模仿,然后學的很好;有的人會跟你說,他參加了一些高質量的生信訓練營,在營里跟著一天天學習,迅速入門生信;還有人說,他上了網上各種生信課程,東學學西學學,也學的很好。這些人的學習能力到底哪個更強一些?哪個更適合你來模仿學習?上了各種生信的課程?但是也有可能是將各種內容的精華都吸收了,取其精華,也有可能是囫圇吞棗,沒有深入思考的能力;
靠自己復現文章提升生信分析能力?也有可能是閱讀了極少經典高質量的文章和代碼文檔,完成了高質量的思考和練習。所以,真正重要的是生信學習者IPO的質量,也就是信息輸入、處理和輸出的速度和質量,而不是表面上的學習習慣。這個環(huán)節(jié),雪球準備了一個Checklist自查清單,包括8個關鍵問題,你可以認真回答一下這些問題,看看你是不是做的到位。3、你現在的生信學習內容和質量,你可以如何大幅提升?3、面對不同的生信文章,你是否有自己的完備的生信套路框架來套? |
你聽過一句話么?你讀什么書,就會變成什么人。這個背后,就是說信息輸入的重要性。我相信大家都深有體會,隨著年齡的增加,時間也會感覺越來越快,老是感覺時間不夠用的。精力是我們最寶貴的財富,在有限的時間內,建議多多學習生信思路拆解、高水平的生信分析和可視化的教程,以及追新一些在對你略有挑戰(zhàn)的文章拆解。一是實際生信分析中的感悟(做課題復盤)
一是從閱讀學習中獲得(生信相關的微信公號,課程,博客,論壇)
一是從高水平的交流獲得(朋友交流,訓練營助教答疑,咨詢)
一是從高分文章中學習(頂級文章的套路,算法,邏輯銜接,配色構圖)
反思一下,這些渠道你都有在用嗎?是否有什么短板或者盲區(qū)?3)你現在的生信學習內容和質量,你可以如何大幅提升?如果一個生信學習者,生信內容的閱讀的信息質量是你的10倍,那幾乎可以斷定,他的學習效率至少也比你高出幾倍。剛開始學生信的時候,你可以從1-3分的生信文章看起,等到一定階段,就應該更新到3-5分的生信文章套路拆解;再過一段時間,再提升文獻閱讀的質量的難度;再比如生信公號的閱讀,在學習的初期,應該大量的時間來看生信文章的解讀和簡單圖表的復現,等到后期,應該更多閱讀整篇文章的高分文章復現,或者新套路的生信分析方法。真正有價值的信息其實是鳳毛麟角的,隨著學習程度的進階,你應該不斷更新閱讀源,來不斷提升你的信息質量。第二個環(huán)節(jié)是處理,當信息進入你的大腦,不同人有無數處理方法。同樣一篇文章,一個課程,一個訓練營,讓不同的人接觸學習,大家最終得到的收獲可能完全不同。我在協助學員文章返修的時候,經常會遇到審稿人問,你這個生信課題的主要結論是什么?我們平時在設計課題的時候,也要注重文章的邏輯和前后順序。當然,課題設計的模板沒有固定答案,比如技術路線圖放到最后一個圖和第一個圖沒啥差別,有時候生信課題設計中個別分析排列組合的順序變化一下也是允許的,但是你要理解生信分析合理配置圖表的“度”在哪里,要了解各種分析的內涵和外延,以及其適用條件,不能看上去可以就蠻用。在生信分析中,也存在著很多功能相似的分析,但是都有其不同的試用條件,在合適的場景取用合適的分析很重要,能夠把生信課題講成一個有前后邏輯、有亮點的故事很重要。在生信文獻學習和學可視化分析的過程中,需要你學著梳理文章的前后邏輯,每個分析試用的內涵和外延。比如同樣是功能富集分析,GO/KEGG和GSEA分析就有很大區(qū)別。GSEA分析中的輸入文件,不僅是基因名,還有所有基因的表達值。這與我們進行GO/Pathway分析時輸入差異表達的基因是不同的。我們在做GO/Pathway富集分析的時候,是首先判斷差異表達基因,然后再看差異表達的基因所參與的功能;而GSEA分析則根據一組基因的整體表達趨勢來看該組基因是否有差異。常規(guī)的GO/Pathway分析是這樣:先從10000個基因中找到差異基因800個(倍數>1.5倍),然后再分析功能;而GSEA則把10000個基因全部放進來,不管差異倍數是1.5還是1.1,統(tǒng)統(tǒng)進行考量和富集。再極端一點,如果某條通路的分子大部分都被上調了,但是倍數只有1.3倍,常規(guī)的分析會遺漏該通路,而GSEA分析則能找出來。這一點是GSEA與常規(guī)富集分析最大的區(qū)別。另外,在單基因的生信文章套路中,分組是按單基因的表達中值為分界線,把疾病組分成基因高表達組和低表達組進行分析。雪球遇到很多小伙伴就直接拿著疾病組+對照組進行基因表達中值的分組。說到底,這兩種情況都是不理解每個生信分析的概念,不了解這些分析的內涵和外延;沒有把生信分析的邏輯理解透,導致的概念上的問題。當你沒有整理套路的意識時,你看到的每一篇生信文章,每一個生信分析都是新的,零散在一地的;當你有意識把他們進行分類整理成不同套路的時候,你就逐漸建立了一個生信套路的主干,這時候,你看到的每一篇新的文章都是一片葉子,相同的內容可以迅速領會,而不同的內容都會當作一片新的葉子有條理的掛在對應的枝杈上。雪球在學生信的時候,也會定期整理不同的套路,在pubmed里輸入特定的檢索詞,積累大量有共同特征的文章套路,然后逐條看過去,列成思維導圖或者用Markdown筆記記錄整理個別不同分析的亮點和精華,通過這樣的方式迅速掌握一類生信課題設計思路。這里雪球把自己積累的文件夾放在這里,大家也可以自己對文章套路的匯總梳理方法。具體的分類方法并不是非常重要的,重要的是你開始這個文獻梳理的動作。最開始接觸到一類新套路的時候,你可以先梳理提煉一個最簡的課題設計模型;通過大量的文獻梳理,充分做加法,了解這個套路的各種變化排列組合方式;然后專業(yè)做減法,萃取關鍵知識,通過做筆記、畫思維導圖的方式,梳理哪些是必備的分析模塊,哪些是可以加加減減的組合,哪些是有難度的分析,哪些是創(chuàng)新點,然后提煉出最與你現在的課題相近的科研假設和分析路徑。通過這樣的大量內容積累,你會鍛煉出來一種對生信發(fā)文章的手感。很多學員經常問雪球,雪球老師,我的這些生信圖表,能發(fā)幾分,能投哪些期刊?雪球老師,我這樣的分析有問題嗎,還需要加哪些分析內容?所有的答案都在文獻中啊,只要你花了這個功夫把這些準備工作做好,雪球相信,你的這些疑問都會迎刃而解。3)面對不同的生信文章,你是否有自己的完備的生信套路框架來套?在你學生信的過程中,主要的兩大難點一個在于生信的課題設計,一個就在于生信的分析和可視化。生信的分析和可視化是術的層面,涉及到大量的重復練習、復盤總結,這里我們主要就道的層面,讓大家建立一種對生信文章套路設計的框架感。就是當你面臨一個研究課題或者分析需求,不是隨機尋找解法,而是有一個完備的思考框架,讓你完整思考,做出一個完善的設計方案。一個有創(chuàng)新性的課題設計,就是一道解答題。舉個例子,比如我做乳腺癌方向,對耐藥感興趣,最好還能和免疫微環(huán)境聯系起來,后期還想加點實驗驗證。1、因為有實驗驗證的需求,這時候首先排除選擇單基因設計方案。因為實驗驗證具有不確定性,你沒法保證單基因驗證就一定能得到陽性結果,因此最少要篩選出3-20個基因來驗證,保證實驗增加陽性結果驗證的可能性。2、免疫微環(huán)境分析有很多常規(guī)的R包,我的數據集的表達矩陣可以整體做免疫浸潤分析,同時,我也可以做關鍵基因與免疫浸潤的相關性分析。最佳的肯定是找到乳腺癌中耐藥/非耐藥的樣本進行生信分析,如果這些樣本沒有臨床信息,就以關鍵基因為連接點,看看這些基因在TCGA里的臨床意義,做臨床預測模型,臨床相關性分析等路徑。第二種解法,是在我要研究的癌種中,沒有這樣分組要求的樣本,這時候我是不是沒法研究耐藥這個表型了呢?當然不是,我們可以選擇乳腺癌這個疾病里既往發(fā)表的耐藥的文章,收集相關基因列表,尤其可以關注高分文獻中有沒對乳腺癌耐藥基因的匯總;也可以在表型基因集里看看耐藥表型涉及到了哪些基因列表;同時也可以看看表型數據庫,或者某類熱點表型特定的基因庫,看看有沒這樣的表型基因列表。4、接下來,我們可以根據實際獲得的樣本數據集匯總情況,套用近期發(fā)表的類似的套路框架設計課題。好,講到最后一個環(huán)節(jié),輸出Output。不同的人,面對同一個材料,吸收的效率可能差三五倍,甚至十幾倍,而核心,就是學習方式和深度。如果你只是單詞被動學習,比如聽課、閱讀等,學習的效率很低,內容的留存率不到10%。而你采用主動學習,比如討論,實操,或者來解螺旋當生信助教,或者進入解螺旋的生信卓越計劃每周與高手討論,有老師幫你指點和復盤,留存率會是50%—90%。所以,你可能注意到,有很多生信高手或者程序員,都會定期寫博客,分享代碼筆記,或者解螺旋社群內有很多助教老師,都是從當優(yōu)秀助教做起,后面也促進自己的學術成果的產出,他們都是用這種方式,來沉淀學到的東西。大家要記住一點,走馬觀花式的學習是毫無意義的,貪多嚼不爛。雪球希望大家用嘗試文章復現,寫代碼筆記,或者來解螺旋社群當生信助教的方式,來進行定期的自我分析、自我討論和自我復盤的機會。好的,Output我就講完了,希望大家自我反思一下:生信高手的技能樹:5個技能點,迅速打通生信的任督二脈
檢索調研
Pubmed/谷歌學術/Geenmedical網站關鍵詞檢索生信四步法:挑圈聯靠構建生信SCI的4個關鍵框架
生信高手的工具清單:給你的生信學習之旅按上加速鍵
Everything(方便電腦中文件檢索):下載 - voidtools
Snipaste(強大的截圖、貼圖軟件,可編輯,可圖片置頂) (https://www.snipaste.com/)
搜狗微信(用于搜索生信類的文章)搜狗微信搜索_訂閱號及文章內容獨家收錄,一搜即達 (sogou.com)
Chrome瀏覽器(谷歌學術,谷歌翻譯,谷歌搜索)Google Chrome 網絡瀏覽器
Typora(https://gitee.com/code_soft/typora)專為寫作打造的效率工具,支持代碼模塊
語雀(工作臺 · 語雀 (yuque.com))(或者印象筆記|你的第二大腦 | 印象筆記 (yinxiang.com))
仙桃學術(www.xiantao.love)
GitHub(https://github.com/): 代碼管理倉庫,可以管理自己的代碼,也是程序員的“代碼版”簡歷,SCI投稿時可以用上【國內也可以考慮用GIT】
2篇典型生信文章案例:帶入式學習,深度理解課程內容
Investigation of a Hypoxia-Immune Related Microenvironment Gene Signature and Prediction Model for Idiopathic Pulmonary Fibrosis
Development and Verification of the Hypoxia- and Immune-Associated Prognostic Signatur for Pancreatic Ductal Adenocarcinoma
拆解方法四步走:
1、讀題猜要素
2、看圖識策略
3、摘要看框架
4、方法揭細節(jié)
1篇加餐文獻自己拆解
Multi-omics Analysis of Ferroptosis Regulation Patterns and Characterization of Tumor Microenvironment in Patients with Oral Squamous Cell Carcinoma
這次的課程就要結束了,我們簡單回顧一下。
如果這堂課只能提煉四句話的話,雪球希望你記住下面的四句話:
1、不要只看到學習的表層,要理解【生信學習者IPO學習模型】的含義;
2、根據生信高手的七大學習習慣,檢查自己在生信學習方面有哪些不足;
3、生信高手八大工具,希望你根據自己的習慣取用,方法不重要,提高學習效率的意識很重要。
4、希望你能理解生信課題設計的底層邏輯,按挑、圈、聯、靠四步法設計方案,用清晰的框架感拆解生信文章和設計生信課題,不要一直盲目和一團亂。
本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請
點擊舉報。