癌癥是通過體細(xì)胞進(jìn)化的過程而發(fā)展的。這里,作為國際癌癥基因組協(xié)會(ICGC)和癌癥基因組圖譜(TCGA)的全基因組全癌基因組(PCAWG)泛癌分析的一部分,作者通過對2,658種癌癥的全基因組測序分析,重建了生活史38種癌癥的突變過程和驅(qū)動基因突變序列的克隆和進(jìn)化。早期腫瘤發(fā)生的特征是一組受限制的驅(qū)動基因突變,以及特定的拷貝數(shù)增加。在整個腫瘤演化過程中,有40%的樣品突變譜發(fā)生了顯著變化。驅(qū)動基因的近四倍多樣化和增加的基因組不穩(wěn)定性是后期的特征??截悢?shù)變化通常發(fā)生在有絲分裂危機(jī)中,并導(dǎo)致同時獲得染色體片段。時序分析表明,驅(qū)動基因的突變通常要比診斷早很多年,甚至幾十年。這些結(jié)果共同決定了癌癥的進(jìn)化軌跡,并突出說明了早期癌癥檢測的可能性。
目前的科學(xué)研究對癌癥基因組中突變的類型進(jìn)行了很好的研究,但對于這些在體細(xì)胞進(jìn)化過程中出現(xiàn)損傷的時間、以及如何在進(jìn)化與癌癥進(jìn)展之間劃清界限的時間知之甚少——這正是本研究的現(xiàn)實意義。根據(jù)腫瘤累積的體細(xì)胞突變目錄,對大塊腫瘤樣品進(jìn)行測序可以部分重建單個腫瘤的進(jìn)化歷史。這些推論包括在早期體細(xì)胞進(jìn)化過程中獲得染色體的時間,使用來自各個患者的匹配的原發(fā)性和轉(zhuǎn)移性腫瘤樣本對癌癥晚期演化進(jìn)行的系統(tǒng)發(fā)育分析,以及許多樣本中驅(qū)動基因突變的時間順序。
癌細(xì)胞的基因組是由其進(jìn)化過程中出現(xiàn)的累積體細(xì)胞畸變形成的,該歷史的一部分可以從全基因組測序數(shù)據(jù)中重建(圖1a)。最初,每個點突變都發(fā)生在單個細(xì)胞的單個染色體上,這導(dǎo)致了帶有相同突變的細(xì)胞譜系。
補(bǔ)充信息:依據(jù)分析,作者確定了亞克隆突變,這些突變僅存在于一部分細(xì)胞中,并且發(fā)生在腫瘤樣品中所有癌細(xì)胞的最新共同祖先(MRCA)之后。
關(guān)于圖1使用的方法:在獲得區(qū)域內(nèi)重復(fù)突變與非重復(fù)突變的比率可用于估算克隆進(jìn)化過程中獲得增益的時間點,此處稱為“分子時間”,它測量了相對于(克隆)突變總數(shù)的發(fā)生時間。例如,如果在受精后立即發(fā)生增益,則幾乎沒有共擴(kuò)增的早期克隆突變,而在克隆腫瘤進(jìn)化結(jié)束時發(fā)生的增益將包含許多重復(fù)的突變。
圖1展示了根據(jù)點突變的等位基因頻率獲取定時克隆副本數(shù)的過程和結(jié)果。圖1a中,報告拷貝數(shù)點突變的測序讀數(shù)的數(shù)目可用于在獲得特定拷貝數(shù)的情況下將變異區(qū)分為早期(綠色)或晚期克隆(紫色),而在沒有拷貝數(shù)的情況下可用于克隆(藍(lán)色)或亞克隆(紅色)。
上述這些分析結(jié)果如圖1b所示。正如預(yù)期,體細(xì)胞點突變的變異等位基因頻率(VAF)聚集在樣品純度,局部拷貝數(shù)構(gòu)型和鑒定的亞克隆種群所強(qiáng)加的值附近。所描繪的透明細(xì)胞腎細(xì)胞癌已在早期分子時間獲得了染色體臂5q作為不平衡易位t(3p; 5q)的一部分,這證實了這種病變常在青春期發(fā)生在這種癌癥類型中的觀念。在稍后的某個時間點,樣品經(jīng)歷了一次完整的基因組復(fù)制(WGD)事件,一次復(fù)制了所有等位基因,包括衍生染色體,這一點由所有在一個時間點附近聚集的所有拷貝數(shù)增益的突變時間估計所證明 ,與確切的副本編號狀態(tài)無關(guān)。
圖1b是基于VAF(上),拷貝數(shù)(CN)狀態(tài)和結(jié)構(gòu)變體(中)和結(jié)果時序估計(下)的一個樣本中的帶注釋的點突變。其中,LOH指的是雜合性喪失。
實驗說明:作者為了系統(tǒng)地檢查PCAWG數(shù)據(jù)集中整個腫瘤演變過程中染色體增益的突變時間,將此分析應(yīng)用于2,116個拷貝數(shù)增益適合于時間樣本。
作者發(fā)現(xiàn),染色體增益發(fā)生在很長的分子時間范圍內(nèi),其中腫瘤類型之間存在系統(tǒng)差異;而在不同腫瘤類型內(nèi),不同的染色體通常表現(xiàn)出相似的分布(圖1c)。在膠質(zhì)母細(xì)胞瘤和髓母細(xì)胞瘤中,很大一部分收益發(fā)生在分子時間的早期。相比之下,在肺癌,黑色素瘤和乳頭狀腎癌中,在分子時間標(biāo)度接近尾聲時會出現(xiàn)獲益。大多數(shù)腫瘤類型,包括乳腺癌,卵巢癌和結(jié)腸直腸癌,都表現(xiàn)出相對較長的染色體不穩(wěn)定期,這表明整個樣本的獲取時序變化很大。
圖1c中,餅形圖描述了根據(jù)癌癥類型中給定拷貝數(shù)的增加推斷突變時間的分布。其中,綠色表示早期克隆獲得,后期獲得漸變?yōu)樽仙?。每個圖表的大小與此事件的重復(fù)發(fā)生率成比例。
但是,某些類型的腫瘤始終具有特定染色體區(qū)域的早期或晚期增益。最明顯的是膠質(zhì)母細(xì)胞瘤,其中90%的腫瘤包含7、19或20號染色體的單拷貝獲得(圖1c,d)。值得注意的是,這些增益始終在分子時間的前10%內(nèi)計時,這表明它們在患者一生中很早就出現(xiàn)了。
圖1d是熱圖,本熱圖代表針對所選腫瘤類型的單個樣本(y軸)在不同染色體臂(x軸)上獲得的分子定時估算值。e,兩個近二倍體情況的時間模式,說明了同步增益(頂部)和異步增益(底部)。
作者觀察到,同一腫瘤中的增益通常似乎發(fā)生在相似的分子時間,這表明它涉及獲得最多片段的間斷爆發(fā)(圖1e)。其中,頂部說明了同步增益,底部說明了異步增益。
同步獲取很頻繁,經(jīng)過置換測試(P <0.01),信息豐富的近二倍體腫瘤中占57%(在815個樣本中占468個),比偶然預(yù)期的頻率高61%(圖1f)。
圖1f中,左圖展示了樣本中同步和異步增益模式的分布,按WGD狀態(tài)劃分,沒有信息的樣本的增益太少或太小則無法準(zhǔn)確計時;右圖展示了通過系統(tǒng)的置換測試可以顯示近二倍體樣品中同步增益的富集。
因為大多數(shù)臂長增益使等位基因特異性拷貝數(shù)增加1(80–90%;圖1g),所以這些增益似乎是由于后期單個拷貝的錯誤分離而產(chǎn)生的。其中,誤差棒表示95%可信區(qū)間,ND表示接近二倍體。
上面的觀點進(jìn)一步得到觀察的支持,在大約85%的具有相同等位基因的兩個增益的區(qū)段中,第二個增益出現(xiàn)在第一個增益之后具有明顯的潛伏期(圖1h)。圖1h表示n = 824次增益的相對潛伏期的分布以及可用的時序信息,縮放至第一次增益后的時間并按每個染色體聚合。
如上所述,可以將點突變(SNV)以及插入和缺失(indels)定性地分配給不同的時期,從而可以確定驅(qū)動程序突變的時間。在2,583個獨特樣本中的4,700萬個點突變中,早期克隆為22%,晚期克隆為7%,未指定克隆為53%,亞克隆為17%(圖2a)。
圖2說明了點突變的時間,這表明復(fù)發(fā)性驅(qū)動基因突變發(fā)生得較早。其中,圖2a頂部展示了n = 2,778個樣本中不同突變時期的點突變分布;中部展示了在來自唯一供體的n = 2,583白名單樣本中的50個最常見的病變中,驅(qū)動程序突變的時間分布;底部展示了不同癌癥類型的驅(qū)動程序突變分布;顏色如圖中所定義。
在一組453個癌癥驅(qū)動基因中,鑒定出了5,913個致癌點突變,其中29%為早期克隆,5%為晚期克隆,56%未確定克隆和8%為亞克隆。因此,出現(xiàn)了常見的驅(qū)動因子在早期克隆和未指定克隆類別中富集,而在晚期克隆和亞克隆克隆類別中耗竭,表明優(yōu)先的早期時序(圖2b)。
圖2b展示了50個最常見的驅(qū)動病變的相對時序,以早期和晚期克隆驅(qū)動突變與背景或克隆與亞克隆的比值比計算。誤差線表示源自自展法重抽樣(bootstrap resampling)的95%置信區(qū)間。少于5%的引導(dǎo)程序樣本中的比值比(odds radios)被認(rèn)為是有意義的(彩色部分)。
bootstrap resampling:在現(xiàn)有樣本的基礎(chǔ)上虛擬擴(kuò)大樣本容量,簡單來說就是用30個樣本能做到30萬樣本那樣的效果。
Odds ratio:OR值,又稱比值比、優(yōu)勢比、讓步比,主要指病例組中暴露人數(shù)與非暴露人數(shù)的比值除以對照組中暴露人數(shù)與非暴露人數(shù)的比值,是流行病學(xué)研究中病例對照研究中的一個常用指標(biāo),用來評估風(fēng)險。
例如,在早期克隆階段,TP53和KRAS中的驅(qū)動程序突變分別富集了12倍和8倍。對于TP53,這種趨勢與腫瘤類型無關(guān)(圖2c)。PIK3CA突變的克隆頻率比預(yù)期的高兩倍,而TERT基因附近的非編碼變化的頻率是早期克隆的三倍。其中,樣本數(shù)量在x軸標(biāo)簽中定義。
隨著時間的推移,匯總所有驅(qū)動程序點突變的克隆狀態(tài)表明,在腫瘤發(fā)展的后期突變的驅(qū)動基因的多樣性增加:所有早期克隆驅(qū)動程序突變的50%僅發(fā)生在9個基因中,而50%的晚期和亞克隆突變發(fā)生在每個大約有35個不同的基因,幾乎增加了四倍(圖2d)。與先前對個別腫瘤類型的研究[31-34]一致,這些結(jié)果表明,一般而言,癌癥發(fā)展的非常早期的事件發(fā)生在一組受約束的共同驅(qū)動因素中,并且在晚期腫瘤發(fā)展中涉及了更多種驅(qū)動因素。
圖2d展示了在n = 2,583個唯一樣本中,不同計時時期貢獻(xiàn)了所有驅(qū)動程序突變的50%的獨特病變(基因)的估計數(shù)量,其中包含n = 5,756個具有可用時序信息的驅(qū)動程序突變。其中,誤差線表示0到1個偽計數(shù)之間的范圍;條形表示兩個值的平均值。NA表示不適用,NS表示不重要。
盡管單個事件的時間估計反映了一個樣本之間不同的進(jìn)化時期,但它們部分地定義了每個樣本中發(fā)生驅(qū)動程序突變和拷貝數(shù)變化的順序(圖3a-d)。將這些順序匯總到各個樣本中可以確定病變的概率等級(圖3a),概括每個突變是在腫瘤進(jìn)化過程中優(yōu)先發(fā)生在早期還是晚期。
圖3展示了匯總單樣本排序揭示了驅(qū)動程序突變的典型時序。圖3b-d展示了順序模型過程的組成數(shù)據(jù)。
再例如,在大腸腺癌中,作者發(fā)現(xiàn)APC突變發(fā)生的幾率最高,其次是KRAS,17p和TP53的缺失以及SMAD4(圖3b,e)。在許多癌癥類型中,先前尚未詳細(xì)確定癌癥進(jìn)展期間的事件順序。例如,在胰腺神經(jīng)內(nèi)分泌癌中,作者發(fā)現(xiàn)許多染色體丟失,包括染色體2、6、11和16的丟失,都是最早的事件,其次是MEN1和DAXX中的驅(qū)動子突變(圖3c,f)。由于大量的染色體丟失,這些腫瘤中的許多已經(jīng)達(dá)到假單倍體狀態(tài)之后,WGD事件隨后發(fā)生。在膠質(zhì)母細(xì)胞瘤中,作者發(fā)現(xiàn)10號染色體的丟失以及TP53和EGFR中的驅(qū)動程序突變非常早,通常早于7、19和20號染色體的早期獲得(圖3d,g)。TERT啟動子中的突變傾向于在早期到中間時間點發(fā)生,而其他驅(qū)動程序突變和拷貝數(shù)變化則傾向于在以后發(fā)生。
補(bǔ)充信息:在各種癌癥類型中,我們通常會在最早的事件中發(fā)現(xiàn)TP53突變,以及17號染色體的丟失。常見的驅(qū)動因素通常發(fā)生在稀有的驅(qū)動因素之前。
圖3e-g中,概率分布顯示隊列中特定事件的時間不確定性。突出顯示比率(odds)大于10的事件(更早或更晚)。隊列中事件類型的普遍性在右側(cè)以條形圖顯示。
癌癥基因組在其生命周期中受到各種突變過程的影響,這些突變過程源于外源性和細(xì)胞內(nèi)在的DNA損傷以及易錯的DNA復(fù)制,留下的特征性的突變譜,稱為突變特征。根據(jù)其克隆等位基因狀態(tài)對突變進(jìn)行分層,作者發(fā)現(xiàn)在早期和晚期克隆時間點之間的突變譜發(fā)生變化的證據(jù),通過Bonferroni調(diào)整似然比檢驗,在29%(1,852個中的530個)的信息樣本中(P <0.05),改變19%頻譜(圖4a,b)。同樣,有信息的樣本中有30%(2,387個中的729個)顯示出其克隆和亞克隆狀態(tài)之間的突變譜變化,中位差異為21%(范圍為3–72%)。綜合起來,在整個腫瘤演化過程中,有40%的樣本(在2688個樣本中有1,069個)的突變譜發(fā)生了變化。
方法相關(guān)說明:作者為了量化觀察到的時間變化是否可歸因于已知和可疑的突變過程,將每個時間點的突變譜分解為一個包含57個突變特征的目錄,包括雙堿基取代和插入缺失特征。
Bonferroni校正法:此方法是在進(jìn)行兩兩比較時對檢驗水準(zhǔn)進(jìn)行調(diào)整的辦法,但是該方法在比較的次數(shù)較多時,就不太適合。
圖4展示了克隆腫瘤早期和晚期進(jìn)化過程中的動態(tài)突變過程。其中圖4a早期為左,晚期為右。
通常,這些突變特征在幾個數(shù)量級上顯示出顯著的無方向性的時間變異性(圖4c,d)。此外,幾個標(biāo)記顯示出明顯的時間趨勢。如人們所料,外源誘變的特征在腫瘤發(fā)生的早期克隆階段主要活躍。
其中,圖4c歸因于個別突變特征的早期和晚期克隆突變的相對比例之間的倍數(shù)變化,點按組織類型著色,顯示的是樣本(n = 530)的數(shù)據(jù),其總體突變譜具有可測量的變化,并且僅限于至少10個樣本中有活性的標(biāo)記。箱形圖劃定了分布的第一個和第三個四分位數(shù),中位數(shù)顯示在中間,延伸線(whisker)覆蓋了距離框的IQR 1.5倍以內(nèi)的數(shù)據(jù)。圖4d展示了樣品(n = 729)在克隆期和亞克隆期之間的倍數(shù)變化,其突變譜可測量,類似于c。
上面顯示的分子時間數(shù)據(jù)不能測量時間順序中事件的發(fā)生。如果每個樣品中每年獲得突變的速率是恒定的,則時間順序?qū)H僅是估計的分子時間和診斷年齡的乘積。但是,如果突變率隨時間變化,則該關(guān)系將是非線性的,并且如前一部分的分析所建議的那樣,由于獲得的突變過程而使這種關(guān)系膨脹。這些問題中的某些問題可以通過僅計數(shù)由內(nèi)源性和可變性較弱的突變過程引起的突變來緩解。隨著時間的推移,作者對CpG>TpG誘變速率演變的不同情況進(jìn)行了建模(圖5a)。
其中,圖5展示了大致的時間時序推論表明癌癥發(fā)展的時間尺度為數(shù)年。圖5a說明在診斷之前更大的增加表明突變時間尺度的膨脹。
將這種邏輯應(yīng)用于產(chǎn)生足夠數(shù)量的CpG> TpG突變的時間WGDs,表明在某些突變率升高的情況下,某些類型的癌癥在診斷之前會發(fā)生數(shù)年甚至可能十年或更長時間(圖5b)。
圖5b說明,在n = 569種非超突變性癌癥中,至少有100例信息性SNV(單核苷酸變異),正常感染的低腫瘤和每種腫瘤組織學(xué)至少有5個樣本的情況下,在不同CpG>TpG突變率情況下,在診斷之前WGD與最后可檢測到的亞克隆之間的中位潛伏期增加 。
MRCA和最后一個可檢測到的亞克隆之間的潛伏期較短,通常數(shù)月至數(shù)年(圖5c)。圖5c表示,在n = 1,921例正常腫瘤中低腫瘤的非超突變樣品中,每種癌癥類型至少有5例病例,對于不同的CpG> TpG突變率變化,在診斷之前MRCA與最后一個可檢測的亞克隆之間的中值潛伏期增加。
大多數(shù)已知的癌前病變發(fā)展為癌的過程通??缭綌?shù)年,甚至數(shù)十年甚至四十至四十五年,這一事實進(jìn)一步支持了這些癌癥演變的時標(biāo)。作者的數(shù)據(jù)證實了這些時間尺度,并將其擴(kuò)展到?jīng)]有可檢測到的惡性前病狀的癌癥類型,從而增加了人們希望也可以在惡性程度較低的階段檢測出這些腫瘤的希望。
本文提供的數(shù)據(jù)使作者能夠繪制大致時間表,總結(jié)每種癌癥類型的典型進(jìn)化史(圖6)。這些利用了點突變和拷貝數(shù)變化的定性時機(jī),以及標(biāo)記活動,可以與WGD的時間順序估計和MRCA的出現(xiàn)相結(jié)合。
其中,圖6a為表示受精卵與大腸腺癌診斷中位年齡之間的時間長度(以年為單位)的時間軸,圖6b鱗狀細(xì)胞肺癌,圖6c為卵巢腺癌,圖6d為和胰腺腺癌。
小結(jié)
作者利用PCAWG數(shù)據(jù)集來表征來自38種類型的2,658名獨特供體的2,778種癌癥樣品的進(jìn)化史,并推斷染色體進(jìn)化的時間和方式,了解每種癌癥類型的樣本之間典型的突變序列。然后,作者定義了廣泛的腫瘤演化時期,并研究了這些時期之間的驅(qū)動因素和突變特征是如何變化的。接著作者使用類鐘突變過程,將突變時間估計映射為近似實時。綜合起來,這些分析使作者勾勒出癌癥的典型進(jìn)化軌跡,并繪制出相對于診斷點實時結(jié)果。
聯(lián)系客服