二代測序技術:next generation sequencing(NGS)又稱為高通量測序技術,與傳統測序 相比,二代測序技術可以一次對幾十萬到幾百萬條核酸分子同時進行序列測定,從而使得對 一個物種的轉錄組和基因組進行細緻全貌的分析成為可能,所以又被稱為深度測序(Deep sequencing)。NGS主要的平臺有Roche(454 & 454+),Illumina(HiSeq 2000/2500、 GA IIx、MiSeq),ABI SOLiD等。
基因組:Genome,單倍體細胞核、細胞器(線粒體、葉綠體)或病毒粒子所含的全部 DNA分子或 RNA 分子。
全基因組 de novo 測序:又稱從頭測序,它不依賴於任何現有的序列資料,而直接對某個物種的基因組進行測序,然後利用生物資訊學分析手段對序列進行拼接、組裝,從而獲得該 物種的基因組序列圖譜。
全基因組重測序:對已有參考序列(Reference Sequence)物種的不同個體進行基因組測 序,並以此為基礎進行個體或群體水準的遺傳差異性分析。全基因組重測序能夠發現大量的 單核苷酸多態性位元點(SNP)、 拷貝數變異(Copy Number Variation,CNV)、 插入缺失(InDel, Insertion/Deletion)、結構變異(Structure Variation,SV)等變異類型,以準確快速的方法 將單個參考基因組資訊上升為群體遺傳特徵。
轉錄組:Transcriptome,是指特定生長階段某組織或細胞內所有轉錄產物的集合;狹義上 指所有 mRNA 的集合。
轉錄組測序:對某組織在某一功能狀態下所能轉錄出來的所有 RNA 進行測序,獲得特定狀 態下的該物種的幾乎所有轉錄本序列資訊。通常轉錄組測序是指對 mRNA 進行測序獲得相 關序列的過程。其根據所研究物種是否有參考基因組序列分為轉錄組 de novo 測序(無參 考基因組序列)和轉錄組重測序(有參考基因組序列)。
外顯子組:Exome,人類基因組全部外顯子區域的集合稱為外顯子組,是基因中重要的編 碼蛋白的部分,並涵蓋了與個體表型相關的大部分的功能性變異。
外顯子組測序:是指利用序列捕獲技術將全基因組外顯子區域 DNA 捕捉並富集後進行高通 量測序的基因組分析方法。外顯子測序相對于基因組重測序成本較低,對研究已知基因的 SNP、InDel 等具有較大的優勢。
目的地區域測序: 應用相關試劑盒對基因組上感興趣的目的地區域進行捕獲富集後進行大規模測 序,一般需要根據目的地區域專門定制捕獲晶片。
宏基因組:Metagenome,指特定生活環境中全部微小生物遺傳物質的總和。它包含了可培養的和未可培養的微生物的基因。目前主要指環境樣品中的細菌和真菌的基因組總和。
粒線體基因組:Mitogenome,指利用完整粒線體基因組為基礎所進行的研究。粒線體基因組具有母系遺傳特性作,可以做為一種分子標記,廣泛應用於動植物界不同等級系統發育的研究。
宏基因組 16S rRNA 測序:可以對特定環境下的細菌和古細菌群體的微生物種類和豐度進行有效的鑒定。對不同地點、不同條件下的多個樣本 16S rRNA 的 PCR 產物平行測序,可 以比較不同樣本間的微生物組成及成分差異,進而闡明物種豐度、種群結果等生態學資訊。
表觀遺傳學:Epigenetics,是指在基因組 DNA 序列沒有改變的情況下,基因的表達調控和 性狀發生了可遺傳的變化。 表觀遺傳的現象很多,已知的有 DNA 甲基化 (DNA methylation), 基因組印記(genomic impriting),母體效應(maternal effects),基因沉默(gene silencing), 核仁顯性,休眠轉座子啟動和 RNA 編輯(RNA editing)等。
全基因組甲基化測序:DNA 甲基化是指在 DNA 甲基化轉移酶的作用下,在基因組 CpG 二核苷酸的胞嘧啶 5'碳位共價鍵結合一個甲基基團。DNA 甲基化已經成為表觀遺傳學和表 觀基因組學的重要研究內容。甲基化是基因表達的主要調控方式之一,研究染色體 DNA 甲 基化情況是瞭解基因調控的重要手段。對已經有參考基因組的物種的基因組 DNA 用標準亞 硫酸氫鹽(Bisulfite)處理後,未甲基化的胞嘧啶 C 會脫氨基形成尿嘧啶 U,經 PCR 擴增, U 替換為胸腺嘧啶 T,而發生甲基化的胞嘧啶 C 保持不變。將處理組與參考基因組序列進 行比對,可發現甲基化位點並對甲基化情況進行定量分析的方法叫做全基因組甲基化測序。
ChIp-Seq:Chromatin Immunoprecipitation sequencing,即染色質免疫共沉澱-測序技術, 即通過染色質免疫共沉澱技術特異性地富集目的蛋白結合的 DNA 片段。對富集得到的 DNA 片段進行純化與文庫構建,然後進行高通量測序,從而得到全基因組範圍內可以與目的蛋白 相互作用的 DNA 片段的方法叫做 ChIP-Seq。
數字表達譜:Digital Gene Expression Profile,利用新一代高通量測序技術和高性能計算 分析技術,能夠全面、經濟、快速地檢測某一物種特定組織在特定狀態下的基因表達情 況,即運用特定的酶對 mRNA 距 polyA tail 21-25nt 的位置進行酶切,所獲得的帶 polyA 尾的序列(Tag)通過高通量測序,該 tag 被測得的次數即是對應基因的表達值。數位基因表 達譜已被廣泛應用於基礎科學研究、醫學研究和藥物研發等領域。特點是經濟,但獲得的數據量有限。若想獲得轉錄本的更多資訊的話,一般都採用轉錄組測序的方法來測序。
Fastq : Fastq 是 Solexa 測序技術中一種反映測序序列的堿基品質的檔案格式。第一行以“@” 符號開頭,後面緊跟一個序列的描述資訊;第二行是該序列的內容;第三行以“+”符號開頭, 後面可以是該序列的描述資訊,也可省略;而第四行是第二行中的序列內容每個堿基所對應 的測序品質值。
Read:高通量測序平臺產生的序列標籤就稱為 reads。
基因組組裝:進行基因組或轉錄組 de novo 測序時,物種基因組經構建不同的文庫測序所 得的片段需經過生物資訊學手段對其進行整理拼接,並通過一定的標準(如 N50)對後續 組裝結果進行品質評估等,最終獲得高準確度的基因組序列的過程。
基因組測序深度:測序得到的總堿基數與待測基因組大小的比值。如測一個物種的全基因組 的重測序,基因組大小約為 5G,測序獲得 100G 的資料量,則測序深度為 20×。
基因組覆蓋率:指測序獲得的序列占整個基因組的比例。由於基因組中的高 GC、重複序列等複雜結構的存在,測序最終拼接組裝獲得的序列往往無法覆蓋有所的區域,這部分沒有獲得的區域就稱為 Gap。例如一個細菌基因組測序,覆蓋率是 98%,那麼還有 2%的序列區 域是沒有通過測序獲得的。
Contig:在de novo測序中拼接軟體基於 reads 之間的 overlap 區,拼接獲得的中間沒有gap的序列稱為 Contig(重疊群)。
Scaffold:基因組 de novo 測序,通過 reads 拼接獲得 Contigs 後,往往還需要構建 454 Paired-end 庫或 Illumina Mate-pair 庫,以獲得一定大小片段(如 3Kb、8Kb、10Kb、20Kb) 兩端的序列。基於這些序列,可以確定一些 Contig 之間的順序關係,這些先後順序已知的 Contigs 組成Scaffold。
Contig N50:Reads 拼接後會獲得一些不同長度的 Contigs。將所有的 Contig 長度相加, 能獲得一個 Contig 總長度。然後將所有的 Contigs 按照從長到短進行排序,如獲得 Contig 1, Contig 2,Contig 3……Contig 25。將 Contig 按照這個順序依次相加,當相加的長度達到 Contig 總長度的一半時,最後一個加上的Contig長度即為 Contig N50。舉例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig 總長度*1/2 時,Contig 4 的長度即為 Contig N50。 Contig N50 可以作為基因組拼接的結果好壞的一個判斷標準。
Scaffold N50:Scaffold N50 與 Contig N50 的定義類似。Contigs 拼接組裝獲得一些不同 長度的 Scaffolds。將所有的 Scaffold 長度相加,能獲得一個 Scaffold 總長度。然後將所有 的 Scaffolds 按照從長到短進行排序,如獲得 Scaffold 1,Scaffold 2,Scaffold 3……Scaffold 25。將 Scaffold 按照這個順序依次相加,當相加的長度達到 Scaffold 總長度的一半時,最 後一個加上的 Scaffold 長度即為 Scaffold N50。舉例:Scaffold 1+Scaffold 2+ Scaffold 3+Scaffold 4 +Scaffold 5=Scaffold 總長度*1/2 時,Scaffold 5 的長度即為 Scaffold N50。 Scaffold N50 可以作為基因組拼接的結果好壞的一個判斷標準。
Isotig:指在轉錄組 de novo 測序時,用 454 平臺測序完成後組裝出的結果,一個 isotig 可視為一個轉錄本。
Isogroup:指轉錄組 de novo 測序中,用 454 平臺測序完成後組裝出的結果獲得的可聚類 到同一個基因的轉錄本群。
基因表達差異:是指某一物種或特定細胞在特定時期/功能狀態下,多樣本間不同基因在mRNA 水準上表達量的差異,可通過 RPKM/FPKM 值來體現。
RPKM:Reads Per Kilobase per Million mapped reads,是指每 1 百萬個 map 上 的 reads 中 map 到外顯子的每 1K 個堿基上的 reads 個數。計算公式四 RPKM=106C/NL/103,其中 C 為唯一比對到目的基因的 reads 數;N 為唯一比對到參考基 因的總 reads 數,L 是目的基因編碼區的堿基數。RPKM 法可以消除基因長度、資料量之間 的差異進行計算基因表達量。
可變剪切: alternative splicing 大多數真核基因轉錄產生的 mRNA 前體是按一種方式剪接產 生出一種 mRNA,因而只產生一種蛋白質。但有些基因產生的 mRNA 前體可按不同的方式 剪接,產生出兩種或更多種 mRNA,即可變剪接。
基因融合:Gene fusion,將基因組位置不同的兩個或多個基因中的一部分或全部整合到一 起,形成新的基因,稱作融合基因或嵌合體基因,該基因有可能翻譯出融合或嵌合體蛋白。
基因家族分析:通過進行 BLASTN/ HMM 比對等查找基因歸屬的基因家族並添加相關功能 注釋。
基因組注釋:Genome annotation 是利用生物資訊學方法和工具,對基因組所有基因的生物 學功能進行高通量注釋,是當前功能基因組學研究的一個熱點。基因組注釋的研究內容包括 基因識別和基因功能注釋兩個方面。基因識別的核心是確定全基因組序列中所有基因的確切 位置。常見的基因組注釋有 GO 注釋、pathway 分析。
GO 注釋:gene ontology 是指對基因功能的注解,GO 強調基因產物在細胞中的功能,但是GO 不能反映此基因的表達情況。
Pathway 注釋:是指對功能基因參與的信號通路等進行分析注釋。
甲基化率:是指在甲基化測序中,發生甲基化的胞嘧啶占所有胞嘧啶的比率。
CpG 島:CpG island 是指 DNA 上一個區域,此區域含有大量相聯的胞嘧啶(C)、鳥嘌呤(G),以及使兩者相連的磷酸酯鍵(p)。基因組中長度為 300~3000 bp 的富含 CpG 二核 苷酸的一些區域,主要存在于基因的 5’區域。啟動子區中 CpG 島的未甲基化狀態是基因轉 錄所必需的,而 CpG 序列中的 C 的甲基化可導致基因轉錄被抑制。
GC%:GC 含量,全基因組範圍內或在特定基因組序列內的 4 種堿基中,鳥嘌呤和胞嘧 啶所占的比率。
SNP:single nucleotide polymorphism,單核苷酸多態性,個體間基因組 DNA 序列同一位 置單個核苷酸變異(替代、插入或缺失)所引起的多態性;不同物種個體基因組 DNA 序列同 一位置上的單個核苷酸存在差別的現象。有這種差別的基因座、DNA 序列等可作為基因組 作圖的標誌。SNP 在 CG 序列上出現最為頻繁,而且多是 C 轉換為 T ,原因是 CG 中的 C 常為甲基化的,自發地脫氨後即成為胸腺嘧啶。一般而言,SNP 是指變異頻率大於 1 %的 單核苷酸變異,主要用於高危群體的發現、疾病相關基因的鑒定、藥物的設計和測試以及生 物學的基礎研究等。
InDel:Insertion/Deletion,插入/缺失,在基因組重測序進行 mapping 時,進行容 Gap 的比對並檢測可信的 Short InDel,如基因組上小片段>50bp 的插入或缺失。在檢測過程中,Gap 的長度為 1~5 個堿基。
基因組:Genome,單倍體細胞核、細胞器(線粒體、葉綠體)或病毒粒子所含的全部 DNA分子或 RNA 分子。
全基因組 de novo 測序:又稱從頭測序,它不依賴於任何現有的序列資料,而直接對某個物種的基因組進行測序,然後利用生物資訊學分析手段對序列進行拼接、組裝,從而獲得該 物種的基因組序列圖譜。
全基因組重測序:對已有參考序列(Reference Sequence)物種的不同個體進行基因組測 序,並以此為基礎進行個體或群體水準的遺傳差異性分析。全基因組重測序能夠發現大量的 單核苷酸多態性位元點(SNP)、 拷貝數變異(Copy Number Variation,CNV)、 插入缺失(InDel, Insertion/Deletion)、結構變異(Structure Variation,SV)等變異類型,以準確快速的方法 將單個參考基因組資訊上升為群體遺傳特徵。
轉錄組:Transcriptome,是指特定生長階段某組織或細胞內所有轉錄產物的集合;狹義上 指所有 mRNA 的集合。
轉錄組測序:對某組織在某一功能狀態下所能轉錄出來的所有 RNA 進行測序,獲得特定狀 態下的該物種的幾乎所有轉錄本序列資訊。通常轉錄組測序是指對 mRNA 進行測序獲得相 關序列的過程。其根據所研究物種是否有參考基因組序列分為轉錄組 de novo 測序(無參 考基因組序列)和轉錄組重測序(有參考基因組序列)。
外顯子組:Exome,人類基因組全部外顯子區域的集合稱為外顯子組,是基因中重要的編 碼蛋白的部分,並涵蓋了與個體表型相關的大部分的功能性變異。
外顯子組測序:是指利用序列捕獲技術將全基因組外顯子區域 DNA 捕捉並富集後進行高通 量測序的基因組分析方法。外顯子測序相對于基因組重測序成本較低,對研究已知基因的 SNP、InDel 等具有較大的優勢。
目的地區域測序: 應用相關試劑盒對基因組上感興趣的目的地區域進行捕獲富集後進行大規模測 序,一般需要根據目的地區域專門定制捕獲晶片。
宏基因組:Metagenome,指特定生活環境中全部微小生物遺傳物質的總和。它包含了可培養的和未可培養的微生物的基因。目前主要指環境樣品中的細菌和真菌的基因組總和。
粒線體基因組:Mitogenome,指利用完整粒線體基因組為基礎所進行的研究。粒線體基因組具有母系遺傳特性作,可以做為一種分子標記,廣泛應用於動植物界不同等級系統發育的研究。
宏基因組 16S rRNA 測序:可以對特定環境下的細菌和古細菌群體的微生物種類和豐度進行有效的鑒定。對不同地點、不同條件下的多個樣本 16S rRNA 的 PCR 產物平行測序,可 以比較不同樣本間的微生物組成及成分差異,進而闡明物種豐度、種群結果等生態學資訊。
表觀遺傳學:Epigenetics,是指在基因組 DNA 序列沒有改變的情況下,基因的表達調控和 性狀發生了可遺傳的變化。 表觀遺傳的現象很多,已知的有 DNA 甲基化 (DNA methylation), 基因組印記(genomic impriting),母體效應(maternal effects),基因沉默(gene silencing), 核仁顯性,休眠轉座子啟動和 RNA 編輯(RNA editing)等。
全基因組甲基化測序:DNA 甲基化是指在 DNA 甲基化轉移酶的作用下,在基因組 CpG 二核苷酸的胞嘧啶 5'碳位共價鍵結合一個甲基基團。DNA 甲基化已經成為表觀遺傳學和表 觀基因組學的重要研究內容。甲基化是基因表達的主要調控方式之一,研究染色體 DNA 甲 基化情況是瞭解基因調控的重要手段。對已經有參考基因組的物種的基因組 DNA 用標準亞 硫酸氫鹽(Bisulfite)處理後,未甲基化的胞嘧啶 C 會脫氨基形成尿嘧啶 U,經 PCR 擴增, U 替換為胸腺嘧啶 T,而發生甲基化的胞嘧啶 C 保持不變。將處理組與參考基因組序列進 行比對,可發現甲基化位點並對甲基化情況進行定量分析的方法叫做全基因組甲基化測序。
ChIp-Seq:Chromatin Immunoprecipitation sequencing,即染色質免疫共沉澱-測序技術, 即通過染色質免疫共沉澱技術特異性地富集目的蛋白結合的 DNA 片段。對富集得到的 DNA 片段進行純化與文庫構建,然後進行高通量測序,從而得到全基因組範圍內可以與目的蛋白 相互作用的 DNA 片段的方法叫做 ChIP-Seq。
數字表達譜:Digital Gene Expression Profile,利用新一代高通量測序技術和高性能計算 分析技術,能夠全面、經濟、快速地檢測某一物種特定組織在特定狀態下的基因表達情 況,即運用特定的酶對 mRNA 距 polyA tail 21-25nt 的位置進行酶切,所獲得的帶 polyA 尾的序列(Tag)通過高通量測序,該 tag 被測得的次數即是對應基因的表達值。數位基因表 達譜已被廣泛應用於基礎科學研究、醫學研究和藥物研發等領域。特點是經濟,但獲得的數據量有限。若想獲得轉錄本的更多資訊的話,一般都採用轉錄組測序的方法來測序。
Fastq : Fastq 是 Solexa 測序技術中一種反映測序序列的堿基品質的檔案格式。第一行以“@” 符號開頭,後面緊跟一個序列的描述資訊;第二行是該序列的內容;第三行以“+”符號開頭, 後面可以是該序列的描述資訊,也可省略;而第四行是第二行中的序列內容每個堿基所對應 的測序品質值。
Read:高通量測序平臺產生的序列標籤就稱為 reads。
基因組組裝:進行基因組或轉錄組 de novo 測序時,物種基因組經構建不同的文庫測序所 得的片段需經過生物資訊學手段對其進行整理拼接,並通過一定的標準(如 N50)對後續 組裝結果進行品質評估等,最終獲得高準確度的基因組序列的過程。
基因組測序深度:測序得到的總堿基數與待測基因組大小的比值。如測一個物種的全基因組 的重測序,基因組大小約為 5G,測序獲得 100G 的資料量,則測序深度為 20×。
基因組覆蓋率:指測序獲得的序列占整個基因組的比例。由於基因組中的高 GC、重複序列等複雜結構的存在,測序最終拼接組裝獲得的序列往往無法覆蓋有所的區域,這部分沒有獲得的區域就稱為 Gap。例如一個細菌基因組測序,覆蓋率是 98%,那麼還有 2%的序列區 域是沒有通過測序獲得的。
Contig:在de novo測序中拼接軟體基於 reads 之間的 overlap 區,拼接獲得的中間沒有gap的序列稱為 Contig(重疊群)。
Scaffold:基因組 de novo 測序,通過 reads 拼接獲得 Contigs 後,往往還需要構建 454 Paired-end 庫或 Illumina Mate-pair 庫,以獲得一定大小片段(如 3Kb、8Kb、10Kb、20Kb) 兩端的序列。基於這些序列,可以確定一些 Contig 之間的順序關係,這些先後順序已知的 Contigs 組成Scaffold。
Contig N50:Reads 拼接後會獲得一些不同長度的 Contigs。將所有的 Contig 長度相加, 能獲得一個 Contig 總長度。然後將所有的 Contigs 按照從長到短進行排序,如獲得 Contig 1, Contig 2,Contig 3……Contig 25。將 Contig 按照這個順序依次相加,當相加的長度達到 Contig 總長度的一半時,最後一個加上的Contig長度即為 Contig N50。舉例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig 總長度*1/2 時,Contig 4 的長度即為 Contig N50。 Contig N50 可以作為基因組拼接的結果好壞的一個判斷標準。
Scaffold N50:Scaffold N50 與 Contig N50 的定義類似。Contigs 拼接組裝獲得一些不同 長度的 Scaffolds。將所有的 Scaffold 長度相加,能獲得一個 Scaffold 總長度。然後將所有 的 Scaffolds 按照從長到短進行排序,如獲得 Scaffold 1,Scaffold 2,Scaffold 3……Scaffold 25。將 Scaffold 按照這個順序依次相加,當相加的長度達到 Scaffold 總長度的一半時,最 後一個加上的 Scaffold 長度即為 Scaffold N50。舉例:Scaffold 1+Scaffold 2+ Scaffold 3+Scaffold 4 +Scaffold 5=Scaffold 總長度*1/2 時,Scaffold 5 的長度即為 Scaffold N50。 Scaffold N50 可以作為基因組拼接的結果好壞的一個判斷標準。
Isotig:指在轉錄組 de novo 測序時,用 454 平臺測序完成後組裝出的結果,一個 isotig 可視為一個轉錄本。
Isogroup:指轉錄組 de novo 測序中,用 454 平臺測序完成後組裝出的結果獲得的可聚類 到同一個基因的轉錄本群。
基因表達差異:是指某一物種或特定細胞在特定時期/功能狀態下,多樣本間不同基因在mRNA 水準上表達量的差異,可通過 RPKM/FPKM 值來體現。
RPKM:Reads Per Kilobase per Million mapped reads,是指每 1 百萬個 map 上 的 reads 中 map 到外顯子的每 1K 個堿基上的 reads 個數。計算公式四 RPKM=106C/NL/103,其中 C 為唯一比對到目的基因的 reads 數;N 為唯一比對到參考基 因的總 reads 數,L 是目的基因編碼區的堿基數。RPKM 法可以消除基因長度、資料量之間 的差異進行計算基因表達量。
可變剪切: alternative splicing 大多數真核基因轉錄產生的 mRNA 前體是按一種方式剪接產 生出一種 mRNA,因而只產生一種蛋白質。但有些基因產生的 mRNA 前體可按不同的方式 剪接,產生出兩種或更多種 mRNA,即可變剪接。
基因融合:Gene fusion,將基因組位置不同的兩個或多個基因中的一部分或全部整合到一 起,形成新的基因,稱作融合基因或嵌合體基因,該基因有可能翻譯出融合或嵌合體蛋白。
基因家族分析:通過進行 BLASTN/ HMM 比對等查找基因歸屬的基因家族並添加相關功能 注釋。
基因組注釋:Genome annotation 是利用生物資訊學方法和工具,對基因組所有基因的生物 學功能進行高通量注釋,是當前功能基因組學研究的一個熱點。基因組注釋的研究內容包括 基因識別和基因功能注釋兩個方面。基因識別的核心是確定全基因組序列中所有基因的確切 位置。常見的基因組注釋有 GO 注釋、pathway 分析。
GO 注釋:gene ontology 是指對基因功能的注解,GO 強調基因產物在細胞中的功能,但是GO 不能反映此基因的表達情況。
Pathway 注釋:是指對功能基因參與的信號通路等進行分析注釋。
甲基化率:是指在甲基化測序中,發生甲基化的胞嘧啶占所有胞嘧啶的比率。
CpG 島:CpG island 是指 DNA 上一個區域,此區域含有大量相聯的胞嘧啶(C)、鳥嘌呤(G),以及使兩者相連的磷酸酯鍵(p)。基因組中長度為 300~3000 bp 的富含 CpG 二核 苷酸的一些區域,主要存在于基因的 5’區域。啟動子區中 CpG 島的未甲基化狀態是基因轉 錄所必需的,而 CpG 序列中的 C 的甲基化可導致基因轉錄被抑制。
GC%:GC 含量,全基因組範圍內或在特定基因組序列內的 4 種堿基中,鳥嘌呤和胞嘧 啶所占的比率。
SNP:single nucleotide polymorphism,單核苷酸多態性,個體間基因組 DNA 序列同一位 置單個核苷酸變異(替代、插入或缺失)所引起的多態性;不同物種個體基因組 DNA 序列同 一位置上的單個核苷酸存在差別的現象。有這種差別的基因座、DNA 序列等可作為基因組 作圖的標誌。SNP 在 CG 序列上出現最為頻繁,而且多是 C 轉換為 T ,原因是 CG 中的 C 常為甲基化的,自發地脫氨後即成為胸腺嘧啶。一般而言,SNP 是指變異頻率大於 1 %的 單核苷酸變異,主要用於高危群體的發現、疾病相關基因的鑒定、藥物的設計和測試以及生 物學的基礎研究等。
InDel:Insertion/Deletion,插入/缺失,在基因組重測序進行 mapping 時,進行容 Gap 的比對並檢測可信的 Short InDel,如基因組上小片段>50bp 的插入或缺失。在檢測過程中,Gap 的長度為 1~5 個堿基。