版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、第一個要給大家講的,是它這個flowcell 。 Flowcell 翻成中文,就叫 “流動池”。我們來看這個圖片。圖片當(dāng)中,我們看到一個象載玻片大小的芯片。這個芯片里面,是做了8 條通道。 在這個通道的內(nèi)表面,是做了專門的化學(xué)修飾。它的化學(xué)修飾,主要是用2 種 DNA 引物,把它(2 種 DNA 引物)種在玻璃表面。這兩種(DNA 引物的)序列是和接下來要測序的DNA 文庫的接頭序列相互補的。而且這2 種引物是通過共價鍵,連到Flowcell 上去。之所以要用共價鍵連到 Flowcell 上去,是因為接下來有大量的液體要流過這個Flowcell ,只有有共價鍵連接的這些DNA,才不會被沖掉。這
2、就是Flowcell 。文庫制作再接下來,講一下文庫、和文庫的制作(過程)所謂的 DNA 文庫,實際上是許多個DNA 片段,在兩頭接上了特定的DNA 接頭,型成的DNA 混合物。文庫有 2 個特點,第1 個特點,是當(dāng)中這一段插入的DNA ,它的序列是各種各樣的。 第 2 個特點, 它的兩頭的接頭序列,是已知的,而且是人工特地加上去的。要做這個文庫,首先是把基因組DNA ,用超聲波打斷。然后打斷之后,兩頭用酶把它補平,再用Klenow 酶在 3 端加上一個A堿基。然后,再用連接酶把這個接頭給連上去。連好了接頭的DNA 混合物, 我們就稱為一個 “文庫” 。 英文也稱作“ library ” 。橋
3、式 PCR做好了 Library 之后,就要做橋式PCR了。橋式PCR,實際上是把文庫種到芯片上去,然后進行擴增,這樣的一個過程。這個過程,首先是把文庫加入到芯片上,因為文庫兩頭的DNA 序列,和芯片上引物是互補的,所以,就會產(chǎn)生互補雜交。雜交完了之后,我們在這里面加入dNP 和聚合酶。聚合酶會從引物開始,延著模板合成出一條全新的DNA 鏈來。新的這條鏈,和原來的序列是完全互補的。接下來,我們再加入NaOH 堿溶液。 DNA 雙鏈在 NaOH 堿溶液存在下,就解鏈了。而且被液流一沖,原來的那個(模板)鏈,也就是沒有和芯片共價連接的鏈,就被沖走了。而和芯片共價連接的鏈,就被保留下來。然后, 我們
4、再在液流池里加入中性液體,主要是為了中和這個堿液,在加入中和液之后,整個環(huán)境變成中性了。這時侯,DNA 鏈上的另外一端,就會和玻璃板上的第二種引物,發(fā)生互補雜交。接下來,我們加入酶和dNTP ,聚合酶就延著第二個引物,合成出一條新鏈來;然后, 我們再加堿,把 2 條鏈解鏈解開;然后, 我們再加中和液,這時侯, DNA鏈會和新的引物雜交。再加酶,再加dNTP ,又從新引物合成出新的鏈來。連續(xù)重復(fù)這一過程,DNA 鏈的數(shù)量,就會以指數(shù)方式增長。制備單鏈在橋式 PCR完成之后,接下來要做的工作,就是要把合成的雙鏈,變成可以測序的單鏈。辦法是通過一個化學(xué)反應(yīng),把其中一個引物上的一個特定的基團給切斷掉。
5、然后,再用堿溶液來洗這個芯片。這時侯,堿讓DNA 的雙鏈解鏈,那根被切斷了根的 DNA 鏈就被水沖掉了。留下那根共價鍵連在(芯片)上面的鏈。接下來,再加入中性溶液,然后在這個中性溶液里面加入測序引物。正式測序好,接下來正式的測序工作就開始了。那么,在測序的時侯,加入進去的,最主要是2 個東西:一個是帶熒光標(biāo)記的dNTP 。 而這個 dNTP , 它還有一個特點,它的 3 末端是被一個疊氮基堵住的。然后,再加一個聚合酶,聚合酶就會選擇:哪一個dNTP 是和原來位置上的那個堿基是互補的,根據(jù)互補性原理,把這個 dNTP 合成到新的這個DNA 鏈上去。因為這個dNTP 的 3 端是被一個疊氮基團堵住
6、了,所以,它一個循環(huán)只能延長一個堿基。然后,它就停在那兒了。合成完了之后,就用水把多余的dNTP 和酶給沖掉。沖掉之后,就放到顯微鏡下,去進行激光掃描。根據(jù)發(fā)出來的熒光來判斷它是哪個堿基。因為 4 種 dNTP , 它每一種dNTP 上面標(biāo)的熒光素都不一樣,根據(jù)紅、 黃、 藍、綠,它出來的哪種顏色,那么,就可以倒過來推出來,這個新合成上去的堿基,是哪種堿基。因為新合成的堿基,是和原來位置(的堿基)是互補的,所以,又推出模板上那個堿基是哪個。這一個循環(huán)完成之后,就加入一些化學(xué)試劑,把疊氮基團和旁邊標(biāo)記的熒光基團切掉。切完了之后,3 端的羥基就暴露出來。再接下來,加入新的dNTP 和新的酶,然后,
7、又延長一個堿基。新延長完一個堿基之后,把多余的酶和dNTP 沖掉,再進行一輪顯微的激光掃描,再讀一下這個堿基是什么。不斷重復(fù)這個過程,可以重復(fù)上百次,到幾百次,就可以把上百個堿基,甚至更多堿基的序列讀出來。讀 Index那么,什么是Index 哪?是因為Illumina 的評委會個測序量很大,往往一個樣本,用不了那么幾億條DNA 。所以,科學(xué)家就想了一個辦法。在文庫的接頭上做了一些標(biāo)記,每一個樣本,它有一個特定的接頭,每個接頭里面,它有一段特定的序列。這段特定的序列,我們就稱為Index 。也有人把它叫做Barcode ,反正,表達的是一個意思:這么一段特定的序列,標(biāo)記了樣本的來源。那么,要讀
8、這個Index 的序列,先用堿把上面這根測完“Read 1 ”的序列,把上面這根DNA 鏈給解鏈掉。解鏈掉之后,再加入中性液,然后,加入“Read 2 ”這個測序引物。 Read 2 測序引物結(jié)合的位點,正好,就在這個Index 序列的旁邊。接下來,就進行第2 輪測序,一般來說,是讀6 到 8 個堿基。把這6 到 8 個堿基讀下來,我們就可以知道,這某一個具體的一段DNA ,它來自于原始的哪個樣本。雙端測序這是 Illumina 的最核心的另外一個技術(shù),就是雙端測序。那么雙端測序,就是說,一根DNA 鏈,除了從正向讀一遍,還可以從DNA 的負(fù)向,再讀一遍。這一下子就把Illumina 測序的有
9、效長度加了一倍。這是非常有實際用途的。那么這個倒鏈的過程,是這樣,先讓這個DNA 先合成,合成出來這根互補鏈。有了這個互補鏈之后,用一個化學(xué)試劑 ,在原來這根鏈的根上切一下。切一下,原來這根模板鏈就掉了,剩下那根互補鏈。再接下來,就進行第2 端的測序。第2 端的測序原理,和第一端的測序原理是一樣的。加上了“ Read 3 ”的這個引物,依次往下,一個一個堿基地往下讀。大規(guī)模平行測序那么最重要的事情是什么呢?一個點,經(jīng)過幾百個循環(huán),就讀出了幾百個堿基。但實際上,這個芯片上可以有上億個點,上億個“cluster ”,也就是“簇”。那么上億個“cluster ”,每個循環(huán),它都可以讀出地么多序列,這
10、是 Illumina測序非常強大的原因。因為是成千上萬,準(zhǔn)確說是上億上鏈都在合成,這個就得到了很大的一個測序數(shù)據(jù)量。Illumina HiSeq 測序儀的工作原理。也就是芯片上發(fā)生了這么多變化,HiSeq 是如何把這些信息給讀出來,并且把掃描出來的熒光信號,又通過怎樣一系列的加工,變成可以識別的“ A、 C、 G、 T”的堿基序列的。HiSeq 首先是一臺高精度的顯微光學(xué)掃描儀。然后再配上了一整套的液流系統(tǒng),和計算機軟硬件,再加溫控系統(tǒng),組成這樣一臺測序儀。其中最核心,也是結(jié)構(gòu)最復(fù)雜的,是它的光學(xué)系統(tǒng)。前一期,我們講了,Illumina 測序儀主要是靠4 種 dNTP 分別帶有不同的熒光基團,
11、在被激光照了之后,發(fā)出不同顏色的熒光。再通過對光的顏色的分辯,可以判斷出到底是哪個堿基。光路結(jié)構(gòu)這里,我們要說明一下:感光元件CCD,它本身是色盲。所以,它一定要配合濾光片,才能分辯出顏色來。那我們先來看一下,HiSeq 的光路圖。左邊這兩個元器件,就是激光器。一個發(fā)出紅色激光,另一個發(fā)出綠色激光。其中紅色激光主要是激發(fā)A 和 C,這兩種堿基上的熒光基團;而綠色激光主要是激發(fā) G 和 T,這兩種堿基上的熒光基團。紅色和綠色這兩束光,通過一面半透半反鏡,組成一道激光。這道激光打在Flowcell 上。那么請注意,F(xiàn)lowcell 就放在這個位置。在 Flowcell 里面, 結(jié)合在 DNA 上的
12、那個熒光基團在激光的照射下,就發(fā)出熒光。熒光通過3 面半透半反鏡,和1 面全反鏡,被分成4 條光路,這4 道光線,分別通過一道濾光片,這4 張濾光片的濾過波長不一樣。這樣,這4 道光在經(jīng)過了濾光片之后,就變成了4 種顏色不同的光線。然后, 這 4 條顏色不同的光線,各自照在一面反射鏡上,通過反射鏡進入到CCD。這 4 個 CCD 就記錄到不同顏色的光線。TDI 線掃描HiSeq 的光線掃描是“線掃描”,和傳統(tǒng)的相機不一樣,傳統(tǒng)的相機是面掃描。HiSeq 采取了一種特定的叫“ TDI ” 線掃描方式,TDI 是 Time delayintegration的縮寫。在 HiSeq 上之所以采取TDI
13、 掃描方式,因為它有非常明顯的優(yōu)點。第一個優(yōu)點,就是它的掃描速度非常快,在HiSeq 2500 上,從 Flowcell 的一個 Lane 的一頭掃到另外一頭,也就是一個“ Swath ”的掃描時間,大概只有 20秒種不到。第二個好處,就是它的掃描精度非常高。在最新的HiSeq V4 版試劑上,它的光點密度,大概可以達到每平方毫米90 萬個點,要掃描清楚這么高密度的光點,掃描儀的掃描精度是可想而知的。TDI 掃描的第三個好處,是這種方式,可以把Flowcell 的上表面、和下表面都掃描到。Flowcell (測序芯片)接下來,我們再要詳細介紹這張Flowcell 。那么,先來看一下,這張flo
14、wcell 有點象一張載玻片,在這一張片子里面,我們可以看到,它做了8 條通道。每條通道,我們稱為一個Lane 。這 8 個 Lane 之間,相互是隔絕的。每個Lane 的兩端各有一個小孔。這兩個小也孔,就是液流流進、流出的地方。每個Lane 的上表面和下表面,都分別以共價鍵的方式,種了2 種 DNA 引物。這兩種 DNA 引物,是與文庫接頭的兩頭序列相互補的。上一期(節(jié)目)我們已經(jīng)說明了這一點。一個 Lane 里面,分成2 個面,上表面、和下表面。上表面和下表面,都種了DNA 引物,也都是可以產(chǎn)生測序數(shù)據(jù)的。在每一條Lane 的每一個面,又被分成了3 個掃描通道,每個道被稱為一個“ swat
15、h ”。每條 Swath 是從頭到底被連續(xù)掃描的。但是它的數(shù)據(jù),在進行數(shù)據(jù)分析的時侯,是被分割成16 個小方塊。這每一個小方塊,被稱為一個“ tile ” 。這樣一張Flowcell ,總共就是768 個 Tile。每個 Tile 在掃描的時侯,會根據(jù)4種顏色,產(chǎn)生4 張照片。圖像處理掃描完了之后,就要進行圖像處理。掃描出來的最原始的文件,它的格式是“ .tiff ”文件。 Tiff 文件記錄了每個像素點上采集到的光強度。Tiff 文件的優(yōu)點是它是完全無損, 保留了所有的原始信息。但它也有它的不足之處。它的不足之處就是它的這個文件太大了。它的數(shù)據(jù)量很大,既不便于數(shù)據(jù)的傳輸,也不便于數(shù)據(jù)的存儲。
16、接下來,計算機軟件就把圖像文件轉(zhuǎn)化成光點文件。光點文件叫“.BCL”文件。也就是“ Base calling ”的英文縮寫。要把圖像文件,轉(zhuǎn)化成 BCL 文件,就是把4 種顏色的4 張照片,組合在一起,變成一張有4 種顏色的彩色照片。這其中首先要解決的,是4 張照片在空間位置上的匹配問題,因為4 張照片是通過 4 個 CCD 分別拍下來的,所以,會有一定的空間上的偏差。軟件要通過對4 張照片上,亮點相互比對,找到最合適的、匹配的位置。這里, 我們要說明一下,如果被測的文庫是堿基不平衡的文庫,在這個空間匹配上就會遇到問題。什么叫堿基平衡呢?也就是說,在測序過程當(dāng)中,每個循環(huán),A、 C、 G、 T
17、四種堿基,都是比較均勻在存在的。最典型是人全基因組文庫,這是一個典型的堿基平衡文庫。那什么是堿基不平衡文庫呢?最典型的,就是PCR 擴增子產(chǎn)生的文庫。PCR 擴增子的特點:PCR 是有特定的起始位點的,一個特定的測序循環(huán)中,幾乎所有的片段都是同一種堿基,而剩下的3 種堿基,就特別少。這在反映到照片上去的時侯,就變成:一張照片特別亮,光點很多。而其它的三張照片就特別暗,上面的光點就很少。這時侯, 要軟件做空間上的比對,軟件就會覺得困難,因為對于那幾張暗的照片,軟件很難判斷上面的光點,是否與那張亮的照片上的光點真正對得上。結(jié)果, 就是判斷出來的可靠性變差。最后, 就是測序的數(shù)據(jù)質(zhì)量變差,有效數(shù)據(jù)量
18、也會變少。要解決這個問題,辦法是在測序過程中摻入一些堿基平衡的文庫。例如摻人全基因組文庫?;蛘咭部梢該絀llumina 提供的標(biāo)準(zhǔn)的PhiX 文庫, 這些都是堿基平衡文庫。它的作用,是在每個循環(huán)當(dāng)中,為每一種顏色的照片,都提供足夠多的亮點。這樣,它可以彌補那些不平衡的文庫當(dāng)中缺亮點的問題。BCL 文件當(dāng)把 4 種顏色的光點組成一個文件之后,軟件就會生成一個“.BCL”文件。“ .BCL”文件就是光點文件,它對每個光點,記錄了以下的內(nèi)容。首先一個光點處在哪個Lane 里面。其次,這個光點在這個Lane 的哪個 Tile 里面。第 3, 就是這個亮點在這個Tile 的 X軸和 Y軸的座標(biāo)位置。第4
19、,是記錄了這個光點當(dāng)中“紅、黃、藍、綠”四種光的對應(yīng)的光強。這個圖是 BCL 文件的一個示意圖。實際上,BCL 文件是二進制文件,無法拿來直接閱讀。也正是因為BCL 文件難于閱讀,并且很難改動,所以,BCL 文件幾乎不存在做假的可能。在測序過程當(dāng)中,有許多客戶會要求測序公司提供原始的測序數(shù)據(jù),如果客戶是包 Lane、或者包Flowcell 的,一般測序公司是可以提供BCL 文件的。客戶在拿到BCL 文件之后,可以用“BCL2FASTQ”這個軟件,把 BCL 文件轉(zhuǎn)化成 FASTQ 序列語文件。以此,客戶可以來驗證,測序公司提供的數(shù)據(jù)是否是原始的,是否是真實的。再說一下最初生成的那個tiff 文
20、件。 tiff 文件實在太大了,所以,測序儀在測序過程中,只把tiff 文件作為中間文件。最后是把這個tiff 文件刪掉的。如果客戶想要原始的圖像文件,在 HiSeq V4 之前, 可以讓測序公司保留“ .CIF”文件。 CIF 文件是一種彩色圖案的向量文件,它的優(yōu)點是比tiff 文件的數(shù)據(jù)量小很多。測序公司把CIF文件給客戶之后,客戶就可以看到原始的圖像文件了。但是, 請注意: 在 HiSeq 升級到 V4 之后, 保留 CIF 文件的這個選項是被取消掉V4 Lane 的客戶來說,是拿不到CIF文件了。堿基識別接下來,我們講一下堿基識別。我們之前講:4 種 dNTP ,各標(biāo)一種熒光基團,紅、
21、黃、藍、綠,四種顏色,根據(jù)顏色來判斷堿基種類。這個實際上是一種簡化了的說法。實際情況,要比這個復(fù)雜得多。來看這個圖,這是 2 種熒素的熒光的波長圖。我們會發(fā)覺,這兩種熒光色,它發(fā)出來的發(fā)射光,它在波長上是有交疊的。在X的這個位置,主要是綠色熒光素的貢獻,但是藍色熒光素,也有少許貢獻。而在 Y這個波長位置,藍色熒光素是做了主要貢獻,但是綠色熒光素,也有少量供獻。在實際測序過程中,是4 種熒光素發(fā)出的亮,相互有交疊,相互之間的交系,變得更加復(fù)雜。那么,現(xiàn)在我們要做的事情,是把A、 C、 G、 T, 4 種熒光素的貢獻給拆開。首先, 我們就要確定4 種熒光素在4 個被測波長處的貢獻率。我們可以看一下
22、,這個表, 就是 4 種熒光素,在 4 個波長分別有不同的貢獻率。這樣就組成一個4X4 的貢獻率表格。我們在實際的分析當(dāng)中,等于解一個4 元1 次、 4 聯(lián)方程。 因為是 4 個未知數(shù),又是 4 個方程, 所以肯定是可以解出來的。說解方程,有點復(fù)雜。那么我們來打一個比方。讓大家來理解這個事情。假設(shè)有一家飯店,它有4 個熟客:甲、乙、丙、丁。它日常又提供4 道菜:豬肉、白菜、黃瓜、花生。大廚知道:甲最愛吃豬肉、乙最愛吃白菜、丙最愛吃黃瓜、丁最愛吃花生,每個人來了飯店之后,主要吃自己最愛吃的,也會吃些別的菜,但別的菜都吃得不是太多。那么這個大廚不到前臺,看不到今天來的客人。如果, 這個大廚想要知道
23、今天來的客人是誰,他有什么辦法呢?看今天哪個菜被吃掉得最多。如果今天的菜被吃掉的最多的是豬肉,那他可以大致地判斷,今天是甲來過了;如果他看到今天被吃掉的菜,最多的是白菜,很可能是乙來過了;那么其它的,道理也是一樣的。希望這個例子可以幫大家來理解一下,這4 個熒光和4 種堿基的判讀的關(guān)系。Phasing 和 Prephasing接下來,我們再講一下,Phasing 和 Prephasing 。在 Illumina 的測序過程當(dāng)中,一個簇,大概有5 千個到 1 萬個分子。但是在邊合成、邊測序的過程當(dāng)中,每一步酶反應(yīng),理想情況下,應(yīng)該這 5 千個分子都延長 1 個堿基。但實際情況,總有少量分子沒有完
24、成延長反應(yīng)。也就是說,總有少量的分子會掉隊,我們稱這種掉隊的現(xiàn)象叫“phasing ”。 Phasing 主要是由于酶活性不足,所引起的。如圖所示,掉隊的這個分子,它所發(fā)出的熒光信號,和大部隊所發(fā)出的熒光信號是不一樣的。這個循環(huán)的次數(shù)越多,掉隊的分子就越多。所以,測序越到后面,它 Phasing 的分子數(shù)就越多。最后,信號的可靠性就越差。除了掉隊的分子,還會有一部分分子,會跑得超前,也就是在一個循環(huán)中,它延長了 2 個堿基。在一個循環(huán)中延長了2 個堿基的最主要的原因,是dNTP 上標(biāo)記的那個疊氮基團(N 3)掉了。我們知道,疊氮基團是非常容易從有機化合物上掉落的。當(dāng)疊氮基團掉落之后,dNTP
25、的 3 端的羥基就暴露出來了。當(dāng)丟失了疊氮基團的dNTP 加到(合成鏈的) 3 端之后,它的聚合反應(yīng)不會終止,而是會繼續(xù)往前走。當(dāng)再加上了一個帶疊氮基團的dNTP 之后,這個聚合反應(yīng)才停下來。這樣的后果,就是一個循環(huán),某些分子,會合成了2 個堿基。也就是說比大部隊多走了一步。那么這個多走了一步的堿基,它所發(fā)出來的熒光顏色,也是和大部隊不一樣的。在 Illumina 測序過程當(dāng)中,Phasing 和 Prephasing 是限制測長的最主要原因。也就是說,隨著循環(huán)不斷進行,越來越多的分子掉隊,還有越來越多的分子超前。然后, 它們所產(chǎn)生的噪音,掩蓋了大部隊的信號的時侯,也就是測序開始測不準(zhǔn)的時侯。
26、在 HiSeq 測序當(dāng)中,從第12 個循環(huán)開始,在計算某個光點是哪種堿基的時侯,就要把 Phasing 和 Prephasing 的影響,納入考慮。Chastity和 Pass filter為了對光點當(dāng)中熒光素的純粹程度進行描述,Illumina 公司定義了個標(biāo)準(zhǔn),叫“ chastity ”, Chastity 的定義,就是濃度最高的那個熒光素的量,去除以“它自己 + 排名第二的熒光素的量的和”。大于 0.6 是一個好堿基。用更加通俗的話來說,也就是“老大”比 “老二”,如果大于、 等于“ 1.5 倍”,這就是個“好”堿基。如果“老大”比“老二”不足“1.5 倍”,這就是個“壞堿基”。Illu
27、mina 對每個 read 的質(zhì)量都要做一個檢驗,這個檢驗就叫“pass filter ”檢驗。 檢驗的標(biāo)準(zhǔn),是看前 25 個堿基當(dāng)中,有幾個是 “壞堿基”。 如果只有一個、或者沒有壞堿基,則Pass filter 就通過;如果有超過一個以上的壞堿基,Passfilter 就不能通過。那我們平時說,測序服務(wù)保證多少“PF data ”,指的就是 Pass Filter(PF) 的數(shù)據(jù)。Pass Filter 最主要的作用,就是把那些一個光點當(dāng)中,含了幾個cluster 的那些點, 給去掉。 只剩下那些純粹的單克隆的read , 作為合格的數(shù)據(jù),提交給客戶。我們平時說“ PF 率” , 指的就是
28、Pass Filter 的 Reads 數(shù), 占總的、 測到的 Reads數(shù)的比例。PF 率可以從一個側(cè)面反映測序的質(zhì)量。一般來說,如果上樣密度過高,PF 率就可能會下降。Quality Score , Q 值一個堿基的Quality Score ,也就是這個堿基的質(zhì)量分?jǐn)?shù)(Q 值)。這個是通過這個堿基被誤判的可能性,換算出以10 為底的對數(shù),再乘以“-10 ”得到的這樣一個數(shù)字。這個 Q 值,有點象我們說黃金的純度,我們說“三九金”,或者說“四九金”,就是指 99.9%的純度的金子,或者是99.99% 的純度的金子。我們平時說Q30 ,就是指一個堿基的可靠性達到99.9% 。或者說,它的出錯
29、的可能性小于千分之一。同樣道理,我們說Q40 ,就是指一個堿基的可靠性是99.99% 。或者說,它的出錯的可能性是萬分之一。那么, 我們經(jīng)常說Q30 比例, 所謂的 “ Q30 比例” , 就是在全部PF 數(shù)據(jù)當(dāng)中,達到、或者超過Q30 質(zhì)量標(biāo)準(zhǔn)以上的數(shù)據(jù),占所有PF 數(shù)據(jù)的比例,叫Q30 比例。Q30 比例,可以表征一個測序過程的質(zhì)量的好壞。一個堿基的質(zhì)量分?jǐn)?shù),不是以數(shù)字方式,直接記錄到最后的Fastq 文件的。而是把它的Q 值,加上33,再用 ASCII 碼表轉(zhuǎn)換成一個字母,把這個字母錄入Fastq 文件。這樣做,有2 個好處。如果我記2 位數(shù)字,那么就占2 個字節(jié),現(xiàn)在用一個字母來記錄,
30、只占一個字節(jié)。那(數(shù)據(jù)存儲)空間就節(jié)省了很多。第二個好處,用ASCII 碼字母表,一個堿基,只對應(yīng)一個字母;如果是用2 位數(shù)字來記錄,就有可能發(fā)生移碼錯誤。而用ASCII 碼,一個字母來記錄,就不太容易發(fā)生移碼錯誤。Fastq 文件在軟件做完上述所有的數(shù)據(jù)處理之后,就會生成一個Fastq 文件。Fastq 文件里,主要包含了3 部分內(nèi)容。第一個部分,是每個Read 的目錄信息。也就是這個Read 來自于哪臺HiSeq 、第幾個 run 、第幾個Lane、和第幾個Tile,以及在這個Tile 的 X、 Y的什么位置。接下來,就是所測到的堿基的序列。最后,是這些堿基序列對應(yīng)的質(zhì)量分?jǐn)?shù)信息。這個,就
31、是Fastq 文件。到 Fastq 文件之后,測序儀所要完成的工作,就完全完成了。Pacbio 是目前讀長最長的測序技術(shù)公司。它的讀長,最長可以達到2 萬到 3 萬個堿基,平均可以達到8 千多個堿基。相比于llumina 和 Ion Torrent 的幾百個堿基的讀長來說,有著明顯的優(yōu)勢。PacBio 測序過程PacBio 的測序原理,和別的高通量測序的原理,基本上也是一樣的。也是邊合成,邊測序。首先, 這個聚合酶是固定在測序小孔的玻璃底板上。這個聚合酶又和DNA 模板、測序引物是結(jié)合在一起的。然后加入帶4 色熒光的dNTP 底物,這些dNTP 都在其磷酸基團上被標(biāo)上了熒光基團,四種堿基、各標(biāo)
32、一種顏色。當(dāng)一種與聚合酶正要合成的堿基一致的dNTP 被酶抓住的時候,酶就會長時間地抓住這個dNTP, 不讓這個dNTP 漂走。這時侯,激發(fā)光從小孔的底部照進來,打在這個被抓住的dNTP 上,就會在較長時間內(nèi)發(fā)出熒光。儀器根據(jù)所拍到的熒光的顏色,就可以來判斷,這個堿基是哪種堿基。一個循環(huán)的聚合反應(yīng)發(fā)生完畢之后,焦磷酸基團就從原來的dNTP 上掉下來,因為熒光基團是連到這個焦磷酸上的,所以這個熒光基團也就一起掉下來了,在溶液中就會漂走。接下來,進行第二、第三個循環(huán),一直進行下去。一張芯片上有幾萬個孔,同時進行測序,這樣一次就可以得到幾億個堿基的序列。接下來,分幾個要點,來說明這個測序的過程?;瘜W(xué)
33、方法和 Illumina 一樣, PacBio 也采用了4 色熒光基團來標(biāo)記dNTP ,但是 PacBio的標(biāo)記和Illumina 的標(biāo)記有所不同,PacBio 的熒光基團直接是標(biāo)在dNTP 的3端的磷酸基團的末端的。這樣標(biāo)記的好處是:當(dāng)一個聚合反應(yīng)的循環(huán)完成的時侯,dNTP 上的那兩個磷酸基團就掉下,連在這個磷酸基團上的熒光基團也隨一塊兒掉下來。它掉下來之后,就在溶液中漂走,不會影響接下來的測序過程了。測序微孔然后,我們說一下這個測序小孔的設(shè)計。這個測序小孔叫Zero ModelWaveguide ,簡稱 ZMW 。小孔的直徑很小,光只能在小孔中傳輸很短的距離。這個特點對PacBio 的測序
34、很重要。因為酶是被固定在玻璃底板上的,所以,只有互補的dNTP 被酶抓到的時侯,這個dNTP 才會較長時間地停留在離玻璃底板很近的位置。也只有這樣,才會被激發(fā)光照到,并且發(fā)出它的熒光。PacBio 的光學(xué)設(shè)計中,入射光是幾百納米波長的可見光,光從小孔的底部的玻璃處照到小孔中來。這個,只有70 納米。其它游離的dNTP ,只會非常短暫地進入小孔,又很快漂走。所以,這些游離dNTP 帶來的的噪音(信號),就被抑制在很低的水平。啞鈴狀的文庫接下來,我們說一下PacBio 的建庫。 PacBio 的建庫是比較特別的。它的庫是在 DNA 片段的兩段各接一下發(fā)夾型的接頭。接好了發(fā)夾形的接頭之后,形成的文庫
35、是一個啞鈴形的文庫。這種啞鈴形狀的文庫有個好處,那它整個分子實際上是一個圓環(huán)。在測序的過程PacBio 的長讀長的優(yōu)勢是很有益處單分子測序接下來,我們說一下PacBio 它測序長度優(yōu)勢的來源。這個來源,是因為它測的是個單個分子。相比之下,Illumina 或者 Ion Torrent 測的都是一簇分子。或者說它們測的都是一大堆分子。當(dāng)它測一大堆分子的時侯,每個循環(huán),多多少少,總有一些分子落后;也多多少少,有些分子超前。這些落后、或者超前的分子,在每個循環(huán)里面就會給出噪音。而且,隨著循環(huán)次數(shù)越來越多,落后、和超前的分子也會越來越多,達到一定程度的時侯,噪音就會很大,大到會掩蓋掉信號。當(dāng)噪音大到掩
36、蓋掉信號的時侯,實際上測序就測不準(zhǔn)了。相比之下,PacBio 它只有一個分子,所以,它不存在同步問題。這就讓它可以測到幾千、基至上萬個BP 都可以達成。堿基判讀準(zhǔn)確率:87.5%接下來,我們要說一下PacBio 測序的缺點。最大的缺點是對堿基的判讀不準(zhǔn)。它的錯誤率是12.5% 。也就是說,它每讀8個堿基,就有一個是讀錯的。那么它主要的錯誤類型是插入 。也就是說,它會多讀一個堿基。好在,它的這種錯誤是隨機的。也就是說,你在這個地方再讀一遍,它不一定會發(fā)生同樣的錯誤。那么,對于同一個序列,多測幾遍之后,這些偶然誤差,可以被校正過來。讀長限制因素接下來,我們說一下限制PacBio 讀長的因素。第一個
37、因素,就是DNA 鏈上出現(xiàn)了缺口。測序過程中是用激光照射來發(fā)出熒光的,所以當(dāng)強光長時間照射DNA 鏈的時侯,DNA 鏈就有可能被照斷掉,出現(xiàn)缺口。當(dāng)酶讀到這個缺口的時侯,酶就從模板鏈上掉下來。這時侯,測序就終止了。這是第一種可能。第二種可能,是光線照射情況下,酶有可能會變性,當(dāng)酶發(fā)生了變性之后,失去了聚合酶的功能,這時侯,測序也會終止。第三個限制因素,是文庫本身的長度。因為要做片段長度大于2030K 的文庫,是有相當(dāng)大的困難的,所以, 文庫本身的質(zhì)量,在一定程度上,也限制了PacBio的讀長。數(shù)據(jù)通量在高通量測序當(dāng)中,測序的通量,是一個很重要的技術(shù)指標(biāo)。那PacBio 大根一張芯片一次可以測到0.30.4G 的數(shù)據(jù)。在PacBio 測序中,芯片上的小孔數(shù)是第一個絕對的、限制性的因素。目前的芯片,是有15 萬個小孔。但這 15 萬個小孔中,并不是每一個都
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 化學(xué)方程式的書寫計算和物質(zhì)的構(gòu)成教案
- 華銀田徑學(xué)期教案(全套)
- 文書模板-自來水安裝報告申請書
- 國際民航日節(jié)日活動安全乘機指南飛機趣味問答課件
- 采購行業(yè)年終總結(jié)報告課件模板
- 2025《黑神話:悟空》高中語文試卷(1)含答案
- 2024屆廣東省珠海一中高三全真數(shù)學(xué)試題模擬試卷
- 殘疾人合同管理制度
- 不嫁不娶協(xié)議書模板
- 畢業(yè)協(xié)議書戶口
- 黑龍江省哈爾濱市第一中學(xué)校2024-2025學(xué)年高二上學(xué)期期中考試數(shù)學(xué)試卷
- 2024年學(xué)校衛(wèi)生健康教育工作計劃范例(二篇)
- 5.3 歌曲 《送別》課件(11張)
- 2023年合肥市軌道交通集團有限公司招聘筆試真題
- 地磅施工技術(shù)交底
- 民法Ⅱ?qū)W習(xí)通超星期末考試答案章節(jié)答案2024年
- 醫(yī)學(xué)文獻檢索復(fù)習(xí)試題和答案解析(四)
- 2024-2025學(xué)年一年級語文上冊第四單元測試卷(統(tǒng)編版2024新教材)
- 小學(xué)科學(xué)五年級上冊第四單元《健康生活》作業(yè)設(shè)計
- 中國高血壓防治指南(2024版)
- 2024年全新初二生物上冊期中試卷及答案(人教版)
評論
0/150
提交評論