高通量測序基礎(chǔ)知識匯總_第1頁
高通量測序基礎(chǔ)知識匯總_第2頁
高通量測序基礎(chǔ)知識匯總_第3頁
高通量測序基礎(chǔ)知識匯總_第4頁
高通量測序基礎(chǔ)知識匯總_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

高通量測序基礎(chǔ)知識匯總

一代測序技術(shù):即傳統(tǒng)的Sanger測序法,Sanger法是根據(jù)核苷酸在待定序列模板上的引物點開始,隨機在某一個特定的堿基處終止,并且在每個堿基后面進行熒光標記,產(chǎn)生以A、T、C、G結(jié)束的四組不同長度的一系列核苷酸,每一次序列測定由一套四個單獨的反應(yīng)構(gòu)成,每個反應(yīng)含有所有四種脫氧核苷酸三磷酸(dNTP),并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH

基團,使延長的寡聚核苷酸選擇性地在G、A、T或C處終止,使反應(yīng)得到一組長幾百至幾千堿基的鏈終止產(chǎn)物。它們具有共同的起始點,但終止在不同的的核苷酸上,可通過高分辨率變性凝膠電泳分離大小不同的片段,通過檢測得到DNA堿基序列。

二代測序技術(shù):nextgenerationsequencing(NGS)又稱為高通量測序技術(shù),與傳統(tǒng)測序相比,二代測序技術(shù)可以一次對幾十萬到幾百萬條核酸分子同時進行序列測定,從而使得對一個物種的轉(zhuǎn)錄組和基因組進行細致全貌的分析成為可能,所以又被稱為深度測序(Deepsequencing)。NGS主要的平臺有Roche(454&454+),Illumina(HiSeq2000/2500、GAIIx、MiSeq),ABISOLiD等。

基因:Gene,是遺傳的物質(zhì)基礎(chǔ),是DNA或RNA分子上具有遺傳信息的特定核苷酸序列?;蛲ㄟ^復(fù)制把遺傳信息傳遞給下一代,使后代出現(xiàn)與親代相似的性狀。

DNA:Deoxyribonucleicacid,脫氧核糖核酸,一個脫氧核苷酸分子由三部分組成:含氮堿基、脫氧核糖、磷酸。脫氧核糖核酸通過3',5'-磷酸二酯鍵按一定的順序彼此相連構(gòu)成長鏈,即DNA鏈,DNA鏈上特定的核苷酸序列包含有生物的遺傳信息,是絕大部分生物遺傳信息的載體。

RNA:RibonucleicAcid,,核糖核酸,一個核糖核苷酸分子由堿基,核糖和磷酸構(gòu)成。核糖核苷酸經(jīng)磷酯鍵縮合而成長鏈狀分子稱之為RNA鏈。RNA是存在于生物細胞以及部分病毒、類病毒中的遺傳信息載體。不同種類的RNA鏈長不同,行使各式各樣的生物功能,如參與蛋白質(zhì)生物合成的RNA有信使RNA、轉(zhuǎn)移RNA和核糖體RNA等。

16SrDNA:"S"是沉降系數(shù),是反映生物大分子在離心場中向下沉降速度的一個指標,值越高,說明分子越大。rDNA(ribosomeDNA)指的是原核生物基因組中編碼核糖體RNA(rRNA)分子對應(yīng)的DNA序列,16SrDNA

是原核生物編碼核糖體小亞基16SrRNA的基因。細菌rRNA(核糖體RNA)按沉降系數(shù)分為3種,分別為5S、16S和23SrRNA。16SrDNA是細菌染色體上編碼16SrRNA相對應(yīng)的DNA序列,存在于所有細菌染色體基因中。16SrRNA

普遍存在于原核生物中。16SrRNA

分子,其大小約1540bp,既含有高度保守的序列區(qū)域,又有中度保守和高度變化的序列區(qū)域,其可變區(qū)序列因細菌不同而異,恒定區(qū)序列基本保守,所以可利用恒定區(qū)序列設(shè)計引物,將16SrDNA片段擴增出來,通過高通量測序利用可變區(qū)序列的差異來對不同菌屬、菌種的細菌進行分類鑒定。

cDNA:complementaryDNA,互補脫氧核糖核酸,與RNA鏈互補的單鏈DNA,以RNA為模板,在反轉(zhuǎn)錄酶的作用下所合成的DNA。

SmallRNA:生物體內(nèi)一類高度保守的重要的功能分子,其大小在18-30nt,包括microRNA、siRNA、snRNA、snoRNA和piRNA(piwi-interactingRNA)等,它的主要功能是誘導(dǎo)基因沉默,調(diào)控細胞生長、發(fā)育、基因轉(zhuǎn)錄和翻譯等生物學(xué)過程。以miRNA為例介紹它們的功能:miRNA與RNA誘導(dǎo)沉默復(fù)合體(RNAinducedsilencingcomplex,基因沉默(genesilencing),核仁顯性,休眠轉(zhuǎn)座子激活和RNA編輯(RNAediting)等。

全基因組甲基化測序:DNA

甲基化是指在

DNA

甲基化轉(zhuǎn)移酶的作用下,在基因組

CpG

二核苷酸的胞嘧啶5'碳位共價鍵結(jié)合一個甲基基團。DNA

甲基化已經(jīng)成為表觀遺傳學(xué)和表觀基因組學(xué)的重要研究內(nèi)容。甲基化是基因表達的主要調(diào)控方式之一,研究染色體DNA甲基化情況是了解基因調(diào)控的重要手段。對已經(jīng)有參考基因組的物種的基因組DNA用標準亞硫酸氫鹽(Bisulfite)處理后,未甲基化的胞嘧啶C會脫氨基形成尿嘧啶U,經(jīng)PCR擴增,U替換為胸腺嘧啶T,而發(fā)生甲基化的胞嘧啶C保持不變。將處理組與參考基因組序列進行比對,可發(fā)現(xiàn)甲基化位點并對甲基化情況進行定量分析的方法叫做全基因組甲基化測序。

ChIp-Seq:ChromatinImmunoprecipitationsequencing,即染色質(zhì)免疫共沉淀-測序技術(shù),即通過染色質(zhì)免疫共沉淀技術(shù)特異性地富集目的蛋白結(jié)合的DNA片段。對富集得到的DNA片段進行純化與文庫構(gòu)建,然后進行高通量測序,從而得到全基因組范圍內(nèi)可以與目的蛋白相互作用的DNA片段的方法叫做ChIP-Seq。

數(shù)字表達譜:Digital

GeneExpressionProfile,利用新一代高通量測序技術(shù)和高性能計算分析技術(shù),能夠全面、經(jīng)濟、快速地檢測某一物種特定組織在特定狀態(tài)下的基因表達情況,即運用特定的酶對mRNA距polyAtail21-25nt的位置進行酶切,所獲得的帶polyA尾的序列(Tag)通過高通量測序,該tag被測得的次數(shù)即是對應(yīng)基因的表達值。數(shù)字基因表達譜已被廣泛應(yīng)用于基礎(chǔ)科學(xué)研究、醫(yī)學(xué)研究和藥物研發(fā)等領(lǐng)域。特點是經(jīng)濟,但獲得的數(shù)據(jù)量有限。若想獲得轉(zhuǎn)錄本的更多信息的話,一般都采用轉(zhuǎn)錄組測序的方法來測序。

SBS:sequencingbysynthesis,邊合成邊測序反應(yīng),是指在DNA聚合酶的作用下延伸堿基所進行的測序。

Run:指高通量測序平臺單次上機測序反應(yīng)。Lane:也叫channel,單泳道,每條泳道包含2列(column),每列分布有多個小區(qū)(tile),如圖1。不同的測序平臺FlowCell中所含的Lane不一樣,如HiSeq2000是2個flowcell,每個flowcell中含有8個lane;HiSeq2500是包含2個miniflowcell(快速運行模式)和2個highoutputflowcell,兩個模式不能同時運行,其中每個miniflowcell包含2個lane,每個highoutputflowcell中包含8個lane;Miseq系統(tǒng)的flowcell僅含有1個lane。

Tile:小區(qū),每條Lane中有2列tile,合計120個小區(qū)。每個小區(qū)上分布數(shù)目繁多的簇結(jié)合位點,如圖1。

Cluster:簇,在Illumina測序平臺中會采用橋式PCR方式生產(chǎn)DNA簇,每個DNA簇才能產(chǎn)生亮度達到CCD可以分辨的熒光點。Index:標簽,在Illumina平臺的多重測序(MultiplexedSequencing)過程中會使用Index來區(qū)分樣品,并在常規(guī)測序完成后,針對Index部分額外進行7個循環(huán)的測序,通過Index的識別,可以在1條Lane中區(qū)分12種不同的樣品。

Barcode:與Index同義,多指在RocheGSFLX454測序平臺的16SPCR產(chǎn)物的測序過程中接頭序列所包含的的用來區(qū)分不同樣本的序列。

PF%:PF%是指符合測序質(zhì)量標準的簇的百分比,與測序的通量相關(guān)聯(lián)。

Fasta:一種序列存儲格式。一個序列文件若以FASTA格式存儲,則每一條序列的第一行以“>”開頭,而跟隨“>”的是序列的ID號(即唯一的標識符)及對該序列的描述信息;第二行開始是序列內(nèi)容,序列短于61nt的,則一行排列完;序列長于61nt的,則每行存儲61nt,最后剩下小于61nt的,在最后一行排列完;第二條序列另起一行,仍然由“>”和序列的ID號開始,以此類推。

Fastq:Fastq是Solexa測序技術(shù)中一種反映測序序列的堿基質(zhì)量的文件格式。第一行以“@”符號開頭,后面緊跟一個序列的描述信息;第二行是該序列的內(nèi)容;第三行以“+”符號開頭,后面可以是該序列的描述信息,也可省略;而第四行是第二行中的序列內(nèi)容每個堿基所對應(yīng)的測序質(zhì)量值。

Rea:高通量測序平臺產(chǎn)生的序列標簽就稱為

reads。

基因組組裝:進行基因組或轉(zhuǎn)錄組denovo測序時,物種基因組經(jīng)構(gòu)建不同的文庫測序所得的片段需經(jīng)過生物信息學(xué)手段對其進行整理拼接,并通過一定的標準(如N50)對后續(xù)組裝結(jié)果進行質(zhì)量評估等,最終獲得高準確度的基因組序列的過程。

基因組測序深度:測序得到的總堿基數(shù)與待測基因組大小的比值。如測一個物種的全基因組的重測序,基因組大小約為5G,測序獲得100G的數(shù)據(jù)量,則測序深度為20×。

基因組覆蓋率:指測序獲得的序列占整個基因組的比例。由于基因組中的高GC、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在,測序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域,這部分沒有獲得的區(qū)域就稱為Gap。例如一個細菌基因組測序,覆蓋率是98%,那么還有2%的序列區(qū)域是沒有通過測序獲得的。

Contig:在denovo測序中拼接軟件基于

reads

之間的

overlap

區(qū),拼接獲得的中間沒有g(shù)ap的序列稱為

Contig(重疊群)。

caffol:基因組

denovo

測序,通過

reads

拼接獲得

Contigs

后,往往還需要構(gòu)建

454Paired-end

庫或

IlluminaMate-pair

庫,以獲得一定大小片段(如

3Kb、8Kb、10Kb、20Kb)兩端的序

列?;谶@些序列,可以確定一些

Contig

之間的順序關(guān)系,這些先后順序已知的

Conis

組成Scffod。

ContigN50:Reads拼接后會獲得一些不同長度的Contigs。將所有的Contig長度相加,能獲得一個Contig總長度。然后將所有的Contigs按照從長到短進行排序,如獲得Contig1,Contig2,Contig3……Contig25。將Contig按照這個順序依次相加,當(dāng)相加的長度達到Contig總長度的一半時,最后一個加上的Contig長度即為ContigN50。舉例:Contig1+Contig2+Contig3+Contig4=Contig總長度*1/2時,Contig4的長度即為ContigN50。ContigN50可以作為基因組拼接的結(jié)果好壞的一個判斷標準。

ScaffoldN50:ScaffoldN50與ContigN50的定義類似。Contigs拼接組裝獲得一些不同長度的Scaffolds。將所有的Scaffold長度相加,能獲得一個Scaffold總長度。然后將所有的Scaffolds按照從長到短進行排序,如獲得Scaffold1,Scaffold2,Scaffold3……Scaffold25。將Scaffold按照這個順序依次相加,當(dāng)相加的長度達到Scaffold總長度的一半時,最后一個加上的Scaffold長度即為ScaffoldN50。舉例:Scaffold1+Scaffold2+Scaffold3+Scaffold4+Scaffold5=Scaffold總長度*1/2時,Scaffold5的長度即為ScaffoldN50。ScaffoldN50可以作為基因組拼接的結(jié)果好壞的一個判斷標準。

Isotig:指在轉(zhuǎn)錄組denovo測序時,用454平臺測序完成后組裝出的結(jié)果,一個isotig可視為一個轉(zhuǎn)錄本。

Isogroup:指轉(zhuǎn)錄組denovo測序中,用454平臺測序完成后組裝出的結(jié)果獲得的可聚類到同一個基因的轉(zhuǎn)錄本群。

GC%:GC含量,全基因組范圍內(nèi)或在特定基因組序列內(nèi)的4種堿基中,鳥嘌呤和胞嘧啶所占的比率。

SNP:singlenucleotidepolymorphism,單核苷酸多態(tài)性,個體間基因組DNA序列同一位置單個核苷酸變異(替代、插入或缺失)所引起的多態(tài)性;不同物種個體基因組

DNA

序列同一位置上的單個核苷酸存在差別的現(xiàn)象。有這種差別的基因座、DNA序列等可作為基因組作圖的標志。SNP

在CG序列上出現(xiàn)最為頻繁,而且多是C轉(zhuǎn)換為T

,原因是CG中的C

常為甲基化的,自發(fā)地脫氨后即成為胸腺嘧啶。一般而言,SNP

是指變異頻率大于1%的單核苷酸變異,主要用于高危群體的發(fā)現(xiàn)、疾病相關(guān)基因的鑒定、藥物的設(shè)計和測試以及生物學(xué)的基礎(chǔ)研究等。

InDel:Insertion/Deletion,插入/缺失,在基因組重測序進行mapping時,進行容Gap的比對并檢測可信的ShortInDel,如基因組上小片段>50bp的插入或缺失。在檢測過程中,Gap的長度為1~5個堿基。

CNV:copynumbervariation,基因組拷貝數(shù)變異,是基因組變異的一種形式,通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量。如人類正常染色體拷貝數(shù)是2,有些染色體區(qū)域拷貝數(shù)變成1或3,這樣,該區(qū)域發(fā)生拷貝數(shù)缺失或增加,位于該區(qū)域內(nèi)的基因表達量也會受到影響。如果把一條染色體分成A-B-C-D四個區(qū)域,則A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D

分別發(fā)生了C區(qū)域的擴增及缺失,擴增的位置可以是連續(xù)擴增如

A-B-C-C-D

也可以是在其他位置的擴增,如A-C-B-C-D。

SV:structurevariation,基因組結(jié)構(gòu)變異,染色體結(jié)構(gòu)變異是指在染色體上發(fā)生了大片段的變異。主要包括染色體大片段的插入和缺失(引起

CNV

的變化),染色體內(nèi)部的某塊區(qū)域發(fā)生重復(fù)復(fù)制、翻轉(zhuǎn)顛換、易位、兩條染色體之間發(fā)生重組(inter-chromosometrans-location)等。

基因表達差異:是指某一物種或特定細胞在特定時期/功能狀態(tài)下,多樣本間不同基因在mRNA水平上表達量的差異,可通過RPKM/FPKM值來體現(xiàn)。

RPKM:ReadsPerKilobaseperMillionmappedreads

[Motazvieta.,200],是指每

1

百萬個map

的reads

map

到外顯子的每1K

個堿基上的reads

個數(shù)。計算公式四RPKM=106C/NL/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論