Nature genetics下一個(gè)BWA+GATK:
genome graphs可以進(jìn)化的基因組數(shù)據(jù)
好的工具,讓復(fù)雜遺傳病易于被診斷
如果覺(jué)得內(nèi)容對(duì)您有用,歡迎分享
如果有不同觀點(diǎn)或建議,歡迎留言
先來(lái)點(diǎn)有意思的
硬核思路圖自取
本期參考文獻(xiàn)
0
從人類參考基因組說(shuō)起
自人類基因組計(jì)劃完成后,
通過(guò)測(cè)序得到基因組序列草圖,
解決了數(shù)不清的遺傳學(xué)問(wèn)題,
如
致病基因定位
人類遺傳差異性鑒定
GWAS分析等等
隨著測(cè)序技術(shù)的進(jìn)步,
基因組參考序列也越來(lái)越完善。
參考基因組也是測(cè)序分析的基石之一,
借助參考基因組序列,
各種測(cè)序數(shù)據(jù)才能得到變異相關(guān)信息,
并借助生物信息學(xué)的幫助,
建立各種參考數(shù)據(jù)庫(kù),
如refseq,ccds,encode等,
尤其是高通量測(cè)序的時(shí)代,
如果沒(méi)有參考基因組作為分析基礎(chǔ),
海量測(cè)序數(shù)據(jù)的分析是難以想象的。
1
目前的分析流程
目前二代測(cè)序的數(shù)據(jù)分析,
流程相對(duì)固定,
測(cè)序數(shù)據(jù)比對(duì)+變異分析,
比對(duì)的過(guò)程是
將測(cè)序數(shù)據(jù)匹配到基因組的對(duì)應(yīng)位置
通常用BWA軟件從fastq數(shù)據(jù)得到BAM數(shù)據(jù)
變異分析過(guò)程是
得到參考基因組不一致的測(cè)序數(shù)據(jù)信息
通常用GATK工具包從BAM數(shù)據(jù)得到VCF數(shù)據(jù)
比對(duì)和分析過(guò)程,
都依賴于參考基因組數(shù)據(jù),
核心目的是找到測(cè)序樣本的特有基因型,
也就是和參考基因組不一致的部分。
2
參考基因組的局限
目前的參考基因組,
除了序列還進(jìn)一步完善之外,
一個(gè)關(guān)鍵的局限性是
線性序列
意思是每個(gè)位置的參考?jí)A基都是固定的。
這種線性基因組
雖然對(duì)嚴(yán)重遺傳疾病分析影響不大,
但是從遺傳學(xué)角度來(lái)說(shuō),
不同人之間的序列差異非常多樣,
存在各種差異變異,
這些個(gè)體之間的差異變異,
可以給測(cè)序分析提供非常有用的信息,
例如GATK流程中
會(huì)利用人群變異信息做變異校正,
同時(shí)也會(huì)用樣本集中分析的方法
(joint calling),
來(lái)提高變異的靈敏度與特異性。
但這些有用的遺傳信息,
目前的線性基因組中是不包括的,
只能通過(guò)其他流程來(lái)補(bǔ)充,
這一方面會(huì)增加分析的復(fù)雜程度,
另一方面也會(huì)不可避免的造成信息丟失。
3
基因組序列+遺傳學(xué)信息
= genome graphs
為了解決線性基因組的局限性,
便產(chǎn)生了genome graphs的概念,
genome graphs的主要思想是:
借助數(shù)學(xué)分支graph theory的思想
將遺傳學(xué)信息和基因組信息整合
產(chǎn)生的新數(shù)據(jù)形式就是genome graphs
文章開(kāi)頭文獻(xiàn)中使用的工具,
是七橋公司公開(kāi)的一個(gè)genome graphs工具包,
這個(gè)工具包
將基因組序列和人群變異數(shù)據(jù)庫(kù)的信息結(jié)合,
得到了包含人群遺傳變異的參考基因組數(shù)據(jù)。
構(gòu)建好基因組圖數(shù)據(jù)后,
reads序列會(huì)通過(guò)哈希index,
在圖基因組上尋找對(duì)應(yīng)位置,
如果變異已經(jīng)存在于圖數(shù)據(jù)中,
會(huì)很快通過(guò)序列路徑得到結(jié)果,
對(duì)于不存在于圖中的變異,
會(huì)進(jìn)行新變異的分析。
4
genome graphs的優(yōu)勢(shì)
genome graphs的優(yōu)勢(shì)在基因組序列中,
加入了其他遺傳學(xué)信息,
這些信息在序列比對(duì)時(shí)能提供有效幫助,
目前加入的遺傳學(xué)信息是1kg的變異數(shù)據(jù),
包括snp,indel和sv數(shù)據(jù),
這些數(shù)據(jù)可以
進(jìn)一步提高變異的靈敏度與特異性。
另外一個(gè)優(yōu)勢(shì)是sv的分析,
二代測(cè)序分析sv通常需要其他軟件的輔助,
但genome graphs通過(guò)加入的sv信息,
可以有效在比對(duì)過(guò)程中發(fā)現(xiàn)sv變異。
genome graphs還可以
通過(guò)不斷加入新的變異數(shù)據(jù),
來(lái)提高變異發(fā)現(xiàn)的能力,
意味著genome graphs可以通過(guò)數(shù)據(jù)積累,
信息變得越來(lái)越豐富,
這是目前的線性基因組無(wú)法實(shí)現(xiàn)的。
5
模型潛力
目前公開(kāi)的軟件,
暫時(shí)只能在基因組序列中
加入人群變異信息,
但作者計(jì)劃會(huì)讓基因組中
加入更多信息,
如AF,LD等信息,
并開(kāi)發(fā)更多功能,
如同時(shí)分析群體樣本等。
此外,作者還構(gòu)想了其他領(lǐng)域,
如RNA-seq,CHIP-seq等的應(yīng)用。
總之,genome graphs是一個(gè)重要的方向,
依靠graph theory強(qiáng)大的理論基礎(chǔ),
期待能有更多的潛能被挖掘。
最后
一起來(lái)看看genome graphs官方介紹吧
視頻提供者
B站(bilibili)id: 大尾巴龍龍,
還有更多遺傳學(xué)視頻,推薦大家關(guān)注
如果對(duì)文章內(nèi)容有評(píng)價(jià)或不同看法,
歡迎到行業(yè)大咖顧大夫創(chuàng)建的論壇中討論
NGS基因診斷率能力提高之路徑
多維度、多學(xué)科、多角度,合共同之力解決問(wèn)題。
『廣告時(shí)間』
bpvast(上海冪普智能科技有限公司)的基因檢測(cè)智能操作系統(tǒng)(g-TIES),是由多年單基因遺傳病領(lǐng)域的資深從業(yè)人士領(lǐng)銜,整合國(guó)內(nèi)最優(yōu)秀的生物信息學(xué)和生產(chǎn)運(yùn)營(yíng)管理團(tuán)隊(duì),并與業(yè)內(nèi)專家反復(fù)溝通交流,最終開(kāi)發(fā)出的適合大規(guī)模應(yīng)用的單基因遺傳病檢測(cè)支持系統(tǒng)。詳細(xì)請(qǐng)見(jiàn):基因檢測(cè)智能操作系統(tǒng)(g-TIES)
上海瀚垚生物全國(guó)獨(dú)家代理,如有試用和購(gòu)買需要請(qǐng)聯(lián)系 info@56dna.cn,或在公眾號(hào)留言。
上海瀚垚生物 (www.56dna.cn)
我們?yōu)槟峁﹥?yōu)質(zhì)的基因檢測(cè)服務(wù):
A、低成本即可獲得最高質(zhì)量的基因測(cè)序和數(shù)據(jù)解讀服務(wù),對(duì)于初期客戶,可以提供低成本的試錯(cuò)機(jī)會(huì),未來(lái)業(yè)務(wù)證明可以做大,可以無(wú)縫銜接到Turn key服務(wù)模塊。
B、團(tuán)隊(duì)多年從事遺傳類疾病檢測(cè)服務(wù),可以幫客戶完成最復(fù)雜的數(shù)據(jù)解讀環(huán)節(jié),客戶可以做到零參與或只參與審核。
C、快速的實(shí)驗(yàn)周期,大部分項(xiàng)目20個(gè)工作日可完成報(bào)告。
感謝CHPO組織及各位專家在HPO工具漢化和應(yīng)用中所做的卓越貢獻(xiàn),為下游應(yīng)用和開(kāi)發(fā)工具提供了很好的基礎(chǔ)設(shè)施!
趕緊關(guān)注,讓我們與您一起對(duì)話基因
聯(lián)系客服