NGS已在臨床領域有廣泛的應用,但用于工業(yè)生產(chǎn)領域,臨床生物信息急需在保證準確性和算法一致性(可重復性)的前提下提升分析的性能和通量,本人列舉一些提升性能需要了解的核心技術,以供大家學習、參考。
1. 熟悉c/cpp語言,因為絕大部NGS臨床分析的關鍵和限速步驟的工具都是采用此類高性能編程語言所寫。
2. 熟悉intel 底層指令集(SSE、AVX、AVX512)、向量化加速,了解CUDA編程(GPU加速)。
3. 精通zlib、bzip2、lzma等通用壓縮格式,了解bgzip的實現(xiàn)原理。
4. 熟悉sam/bam、vcf/bcf等底層實現(xiàn),索引原理。
5. 熟悉多線程加速、熟悉異步IO操作。
6. 精通bwt,suffix array,hash,tree,graph,sw/nw比對等算法。
7. 熟悉bwa、samtools、htslib、bcftools等算法實現(xiàn)。
8. 熟悉java,了解GATK best practice等底層算法實現(xiàn)。
9.熟悉NGS實驗設計和檢測目的,精通數(shù)據(jù)處理每一個環(huán)節(jié)的目的和生物學意義。
聯(lián)系客服