




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第二代測序技術的序列分析方法及在油菜基因組研究中的應用摘要:從追溯DNA測序技術的產生開始,在簡單介紹測序技術發(fā)展歷程基礎上及測序原理的基礎上,總結了第二代測序技術的技術特點??偨Y了第二代測序技術序列分析的基本流程,重點介紹了序列拼接和序列定位這兩個在序列分析中占有重要地位的分析方法,并在此基礎上總結了第二代測序技術在植物基因組研究中基本應用和結果展示方式和所用的軟件。隨后,總結了第二代測序技術在序列分析上可能遇到的挑戰(zhàn)和解決方法。結合油菜基因組結構的特點,初步分析了目前第二代測序技術在油菜基因組研究中的應用情況。最后對測序技術的發(fā)展及應用進行了初步展望。關鍵詞:第二代測序技術,基因組測序,轉
2、錄組測序、序列拼接、序列定位,甲基化分析、chip-seq,油菜基因組測序導論1測序技術的產生1第二代測序技術的產生及主要測序平臺測序原理3第二代測技術的特點6第二代測序技術的基本分析流程6數(shù)據的獲取、格式的轉換和壓縮。8序列數(shù)據的去冗余12序列數(shù)據的分析和知識提?。旱诙鷾y序技術的應用22結果的展示28第二代測序技術下序列分析技術面臨的挑戰(zhàn)29第二代測序技術在油菜基因組研究中的應用30展望32參考文獻33導論生命的根本問題在于遺傳進化和生長發(fā)育。生命體的遺傳信息,決定生物的種類和特征,與外在環(huán)境一起影響著生物個體的生長與發(fā)育;同時遺傳信息的世代傳遞,保證了物種的延續(xù)性,而遺傳信息的隨機改變,
3、則在環(huán)境的選擇下,促使了物種的進化??梢?,生物的遺傳信息,決定著生命的延續(xù)和生物個體的生存。探索作為遺傳信息的載體物質以及解碼遺傳物質所攜帶的遺傳信息都是生物學的重要研究課題。測序技術的產生自從孟德爾通過豌豆的雜交實驗,提出遺傳因子以及1886年瑞士生物學家Johann Friedrich Miescher發(fā)現(xiàn)并獲得第一份純核酸以來,DNA作為遺傳信息載體的探索過程就已經開始了。DNA作為遺傳物質的最初推測來自于WS sutton,他在發(fā)現(xiàn)細胞分裂過程基因的遺傳模式與染色體的行為類似這一現(xiàn)象后推論出基因位于染色體上,隨后,在科學家的工作下形成了染色體理論。然而,到底是染色體中的DNA還是核蛋白
4、是遺傳物質依然沒有定論。Frederick Griffith和Oswald Avery等科學家的轉化實驗以及Alfred Hershey及Martha Chase等的轉導實驗給出了DNA是遺傳物質的確切證據。受Martha等人噬菌體轉導實驗的影響,Click和Watson等科學家最終于從1953年從結構上證實了DNA是遺傳信息載體這一事實。DNA的雙螺旋結構的發(fā)現(xiàn)以及脫氧核糖核酸鏈攜帶和傳遞遺傳信息的方式的闡明為隨后在Click提出的“序列假說”和“中心法則”這一遺傳信息如何決定生物特性學說。marshall.Nirenberg和John.Matthaei等分子遺傳學家的努力下解開了DNA基于
5、三聯(lián)體密碼的蛋白質編碼系統(tǒng)并證明了這個編碼系統(tǒng)在生物界的通用性以后,人們就一直在尋找解讀DNA序列的方法。生物體的基因組包括了其生長發(fā)育的所有遺傳信息。而快速并準確的獲取生物體的遺傳信息在生命科學的研究中具有十分重要的意義,是研究生物進化發(fā)育的基礎,是人們充分利用各種生物技術改善人類健康、發(fā)展以生物技術為基礎的育種技術的前提。DNA測序技術是解析遺傳物質DNA所攜帶的遺傳信息的一項技術,其主要目的就是通過一定的方法和儀器設備解讀DNA大分子上4種脫氧核糖核酸的鏈接順序,是進一步研究和改造目的基因的基礎。早在1954年,Whitfeld提出了利用磷酸單脂酶的脫磷酸作用和高碘鹽的氧化作用從核苷酸鏈
6、末端分離單核苷酸從而測定其種類的方法,但這個方法因其復雜的操作要求遠遠不能在科學工作中實用。在科學家的不懈努力下,來自英國的Sanger及其同事和Gibert及其同事最終在DNA測序技術上取得了突破性進展,1977年分別發(fā)展出基于雙脫氧鏈末端終止法和基于化學降解法的具有非常實用價值的DNA測序技術。DNA測序的化學降解法主要原理是利用特定的不同的化學試劑處理DNA片段,并在開始測序以前加上放射性標記,從而造成堿基的特異性切割,得到一組具有各種不同長度的DNA片段,最后經過凝膠電泳分離利用放射性自顯影判讀出待測序樣品的DNA序列;利用雙脫氧核糖核酸因為自身缺乏3-OH而使下一個核糖核酸不能參與反
7、應的特性, Sanger測序法的主要原理是利用一種DNA聚合酶來擴增DNA模板,由于在DNA擴增時在dNTP中加入了ddNTP(雙脫氧核苷三磷酸),所以DNA聚合酶在模板鏈中加入雙脫氧核苷酸以后就停止擴增從而產生不同長度的片段,最后通過電泳分離這些長度差異片段判讀出待測樣品的DNA序列。早期,在基于手工的Sanger測序法中,使用的是放射性標記的引物,為了區(qū)分出四中堿基類型的終止信號,一套完整的DNA測序流程由4個單獨的擴增反應體系構成,每個反應體系由含有4種dNTP,并混入限量的某一種ddNTP。最DNA測序法發(fā)明的最初幾年,由于Sanger測序法的不成熟,比如在獲得DNA樣品后,還需要通過
8、克隆的方法獲得單鏈DNA,而化學測序法由于可以直接對獲得的DNA樣品進行測序,化學測序法得到了科學家們的喜歡,很快流行起來。相對與化學測序法,Sanger測序法具有測序效率相對較高、化學試劑特別是有毒化學試劑和化學劑量用量相對較少、易于自動化等的特點,因此隨著分子生物學技術的成熟,基于Sanger測序的方法很快就流行起來,特別是基于Sanger測序方法的利用熒光引物代替放射性元素進行產物檢測以后,基于Sanger的測序法實現(xiàn)了半自動化,最終完全取代了化學測序法。為了一次性的解決生物基因組所攜帶的遺傳信息,人類基因組計劃(Human Genome Project,HGP)旨在通過測定人類基因組D
9、NA約3×109對核苷酸的序列,探尋所有人類基因并確定它們在染色體上的位置,明確所有基因的結構和功能,解讀人類的全部遺傳信息,使得人類第一次在分子水平上全面認識自我。整個計劃的預算是30億美元。與此同時,經過20多年的積累,人們已經用第一代測序技術完成了幾十個物種的基因組測序。這些基因組測序計劃的投入動輒上千萬美元。然而,隨著生物研究的進一步發(fā)展,人們研究發(fā)現(xiàn),越來越多的諸如基因組結構的變異、SNP與人類疾病和作物表型的關系,不同個體、組織細胞基因表達的時空差異,基因組甲基化對疾病和表型的影響等問題都需要對個體基因組和不同時期的轉錄譜進行測序。雖然基于Sanger測序方法的測序技術自
10、發(fā)明到現(xiàn)在,測序的精度、成本和速度上有了很大的提高,但相對與生物體動輒幾百萬、上千萬、甚至達幾十億堿基數(shù)目的基因組,在測序的速度和成本上依舊顯得難以滿足人們意義增長的測序需求。圖1:第一代和第二代測序技術的原理。左邊為傳統(tǒng)sanger測序技術的基本原理,右邊有第二代測序技術的基本原理第二代測序技術的產生及主要測序平臺測序原理很明顯,傳統(tǒng)的基于Sanger測序原理的測序方法已經不能滿足這一需求。于此同時,隨著人類基因組測序的完成和以序列分析為基礎以因人治療和藥物服用的個人醫(yī)療等概念的出現(xiàn),都極大的刺激了第二代測序技術的出現(xiàn)。而其他學科如顯微鏡技術、表面化學技術、生物酶技術、芯片設計和制造技術、納
11、米技術、計算機技術等的發(fā)展和融合為DNA測序技術提供了技術基礎。2005年,在國際頂級的學術期刊Nature上,來美國454生命科學公司的Margulies等人發(fā)表文章介紹了一種快速簡單的測序方法:結合了DNA擴增的乳膠系統(tǒng)(emulsion system)和皮升大小焦磷酸(pyrophosphate)為基礎的測序方法焦磷酸測序(pyrosequencing)方法。發(fā)明者宣稱,這種測序方法比傳統(tǒng)的Sanger測序的方法快100倍,假如利用這種方法來進行人類基因組的測序,那么在100多天內就可以完成。在2005年年底,454公司的研究人員將這種嶄新的測序技術轉化成了商品化的儀器Genome Se
12、quencer 20 系統(tǒng),并由羅氏應用科學部獨家負責在全球的銷售和技術服務等工作。Genome Sequencer 20 系統(tǒng)一經推出,就受到了國際上基因組學專家的廣泛關注,并在世界各大測序實驗室相繼成功落戶??梢哉f,隨著Genome Sequencer 20 系統(tǒng)的不斷推廣應用和升級,快速基因組測序的時代已經來臨,并對整個基因組學的研究將產生巨大的推動作用。目前市場上的主流測序平臺主要為羅氏公司的454 GS測序平臺,Illumina公司的Solexa測序平臺和Life technology公司的Solid測序平臺和PGM(Personal Genome Machine),此外,還有Pac
13、ific biosciences公司的SMRTtm(single molecular real-timesequence)單分子測序平臺。羅氏公司的454 GS高通量測序技術是一種新的依靠生物發(fā)光進行DNA序列分析的技術,在DNA聚合酶、ATP硫酸化酶、熒光素酶和雙磷酸酶的協(xié)同作用下,將引物上每一個dNTP聚合與一次熒光信號釋放偶聯(lián)起來,通過檢測熒光的釋放和強度,達到實時測定DNA序列的目的,此技術不需要熒光標記的引物或核酸探針,也不需要進行電泳,具有分析結果快速、準確、靈敏度高和自動化的特點。其流程概括起來就是“一個片段 = 一個磁珠 = 一條讀長(One fragment = One be
14、ad = One read)”。目前454 GS測序平臺已經升級到第三個版本,預計測序在同等測序錯誤率的情況下,其讀長將達1kb,此外更新了雙末端測序的流程,簡化測序流程,提高。Illumina公司的第二代測序儀Genome Analyzer最早由Solexa公司研發(fā),利用其專利核心技術“DNA簇”和“可逆性末端終結(reversible terminator)”,實現(xiàn)自動化樣本制備及基因組數(shù)百萬個堿基大規(guī)模平行測序。Illumina公司于2007年花費6億美金的巨資收購了Solexa,就是為了促成Genome Analyzer的商品化。Solexa測序方法是基于單分子陣列的測序技術 ,此種測
15、序法首先是將DNA從細胞中提取,然后將其打斷到約100200bp大小,再將接頭連接到片段上,經PCR擴增后制成Library 。隨后在含有接頭的芯片(flow cell)上將已加入接頭的 DNA 片段綁定在flow cell上,經反應,將不同片段擴增。在下一步反應中,四種熒光標記的染料應用邊合成邊測序(Sequencing By Synthesis)的原理,在每個循環(huán)過程里,熒光標記的核苷和聚合酶被加入到單分子陣列中。互補的核苷和核苷酸片斷的第一個堿基配對,通過酶加入到引物上。多余的核苷被移走。這樣每個單鏈DNA分子通過互補堿基的配對被延伸,利用生物發(fā)光蛋白,比如螢火蟲的熒光素酶,可通過堿基加
16、到引物后端時所釋放出的焦磷酸鹽來提供檢測信號。針對每種堿基的特定波長的激光激發(fā)結合上的核苷的標記,這個標記會釋放出熒光。熒光信號被CCD采集,CCD快速掃描整個陣列檢測特定的結合到每個片斷上的堿基。通過上述的結合,檢測可以重復幾十、上百個循環(huán),這樣就有可能決定核苷酸片斷中的堿基序列。目前Solexa測序平臺已經也發(fā)展到了第三代,以Hiseq2000為代表,目前測序通量為200G/run,預計在今年將升級到500G/run,支持雙末端測序。為了占領中小實驗室和醫(yī)院這個廣闊的市場,Illumina將于今年4月份推出Miseq,這個簡化版的Hiseq2000,其特點是,測序速度快,8小時/run,產
17、生約1G的,2 X 150bp的雙末端序列。羅氏公司的SOLiD測序平臺全稱為supported oligo ligation detetion,其獨特之處在于以四色熒光標記寡核苷酸的連續(xù)連接合成為基礎,取代了傳統(tǒng)的聚合酶連接反應,可對單拷貝DNA片段進行大規(guī)模擴增和高通量并行測序。SOLiD測序的主要技術特點是微乳液PCR、邊連接邊測序(Sequence By Ligation, SBL)和雙堿基編碼技術(two-base encoding)。與454測序一樣,將待測序片段兩端連上接頭,被綁定到磁珠上進行乳液PCR,只不過SOLiD所用的磁珠更小,直徑只有1m(454的磁珠是28m)。和45
18、4不同的是,PCR擴增后,小磁珠被富集起來固定到固態(tài)平板上,由DNA連接酶將一個被熒光標記的8bp長的核酸探針片段按照堿基互補規(guī)則與單鏈DNA模板鏈配對,每個堿基判讀兩遍,從而減少原始數(shù)據錯誤,提供內在的校對功能。目前SOLiD測序平臺已經發(fā)展到了第五代,測序讀出為2 X 75bp,通量約為200300Gb/run,支持雙末端測序。羅氏公司的PGM測序平臺是在收購Ion Torrent公司的測序儀基礎上推出的第二代測序技術。該技術使用了一種高密度半導體芯片,芯片上布滿了小孔,這些小孔就是一個個的測序反應池。當DNA聚合酶在每一個單分子模板鏈上滑動,發(fā)生聚合反應時,每當有一個核苷酸被摻入,就會有
19、一個系統(tǒng)記錄到這個事件,該系統(tǒng)會檢測到DNA鏈延長時釋放出的氫離子信號辨別出相應的堿基。Pacific biosciences 公司發(fā)明的SMRTtm(single molecular real-timesequence)單分子實時DNA測序系列測序儀,第一次使得實時觀測DNA的合成過程成為可能,開創(chuàng)了第三代測序技術的新河。與其他第二代測序技術的最大區(qū)別在于序列的讀長更長可以達到幾個Kb甚至上百Kb、測序速度更快(每個read在1分鐘內能完成13個堿基的測序)。作為第一個基于單分子的DNA測序儀,其所依賴的主要關鍵技術有三個:一是納米微孔,這是能實時觀測DNA合成的過程的關鍵。在顯微鏡實時記錄
20、DNA鏈上的熒光的時候,DNA鏈周圍的眾多的熒光標記的脫氧核苷酸形成了非常強大的熒光背景。這種強大的熒光背景使單分子的熒光探測成為不可能。Pacific Biosciences公司發(fā)明了一種直徑只有幾十納米的納米孔zero-mode waveguides (ZMWs),單分子的DNA聚合酶被固定在這個孔內。在這么小的孔內,DNA鏈周圍的熒光標記的脫氧核苷酸有限,而且由于A,T,C,G這四種熒光標記的脫氧核苷酸非??焖俚貜耐饷孢M入到孔內又出去,它們形成了非常穩(wěn)定的背景熒光信號。而當某一種熒光標記的脫氧核苷酸被摻入到DNA鏈時,這種特定顏色的熒光會持續(xù)一小段時間,直到新的化學鍵形成,熒光基團被DN
21、A聚合酶切除為止。二是標記于磷酸基團上的核苷酸熒光標記技術,這是保證DNA合成得以持續(xù)進行的關鍵。當熒光標記的脫氧核苷酸被摻入DNA鏈的時候,它的熒光就同時能在DNA鏈上探測到。當它與DNA鏈形成化學鍵的時候,它的熒光基團就被DNA聚合酶切除,熒光消失。這種熒光標記的脫氧核苷酸不會影響DNA聚合酶的活性,并且在熒光被切除之后,合成的DNA鏈和天然的DNA鏈完全一樣。三是基于共聚焦顯微鏡的實時信號檢測平臺。評價測序儀的指標通常可以分為兩部分,一個是測序平臺的可用性,包括:(1)通量,也就是說一次測序反應所能得到的序列的數(shù)目,目前通量最高的應該是illumina的Hiseq2000,通量是200G
22、,有些實驗室已經可以做到350G的通量了,(2)最小測序單位成本,也就是一次反應所需要的費用,這決定了多大的項目才值得進行這樣的測序,比如說,你只想測序幾個克隆,顯然是不能考慮用Hiseq2000的,因為他一次測序反應的費用到10萬人民幣,即使只用一個lane進行測序也要3萬人民幣左右,因此從費用上來說是非常不合算的,通量也大大的超過了測序幾個克隆所需要的通量。但如果Hiseq2000一次測序反應的費用只要幾十人民幣,哪就可以考慮這個方法了。(3)單位成本,也就是測序單位堿基所需要的費用,這是項目總成本的一個決定因素之一。(4)讀長,也就是說每條read的長度,這是一個非常重要的參數(shù),read
23、越長,說明其蘊含的信息越多,在mapping和拼接的時候,所得到的定位結果和拼接結果也就越可靠,對拼接來說也就越容易,完成一個基因組測序所需要的覆蓋度也就越低,同時也就越有可能高精度的完成高復雜度的基因組的測序。(5)測序的速度,也就是說單位時間內完成的堿基數(shù),如果完成1M個堿基的測序需要1年的時間,即使這樣的測序技術成本低到不要錢也是沒有適用價值的,(6)測序的精度,也就是說測序的錯誤率,錯誤率越低,完成一定序列分析任務所需的通量就越少。(7)所能提供的測序方式,mate-paired測序,tripe-meta-測序等,如果提供mate-paired測序,插入片段的長度可以達到多長,有多大的
24、可靠性等。(8)獲得測序數(shù)據的后續(xù)分析是否方便,配套的外圍設備的豐富程度、可用的軟件是否豐富等。(9)進行DNA測序所需要的樣品量的濃度。另一個是擴展性,指平臺的升級的可能性,這是指隨著測序技術的改進,包括(1)已有的測序平臺能否通過更換部件而得到升級,(2)信號的讀取的類型,是指測序信號是通過照相來獲取還是直接通過電流來獲取,(3)反應體系的類型,如通過聚合酶一邊合成一邊測序的反應體系,不需要聚合酶的反應體系等。第二代測技術的特點從上面所介紹的幾種非常有代表性的測序技術原理來看,他們都有些共同的特點:既測序的高度并行化和DNA合成與序列測定的同時化。傳統(tǒng)的第二代測序技術通過縮小DNA合成所需
25、要的空間(通常每一個用于DNA測序的“孔“的直徑都不到1微米),從而達到測序反應的高度并行話;通過使用高精度的光學儀器,檢測DNA合成過程中的熒光信號變化,讀取DNA序列。測序的高度并行化和反映空間的微小化,使得第二代測序技術有以下特點:(1) 采用體外構建DNA文庫及體外擴增技術,解決了傳統(tǒng)sanger測序技術中的幾個限制測序規(guī)模的瓶頸問題,如大腸桿菌轉換及陽性克隆挑選等問題。(2) 通量大,通常一此測序能產生幾十Gb甚至上百Gb的序列。(3) 伴隨通量大的優(yōu)點是,序列讀長比較短,通常只有100200bp左右。但隨著技術的發(fā)展,這一劣勢有望別突破,比如升級后的454 GS測序平臺,序列讀長可
26、以將達到1kb(4) 因為DNA測序的空間小,同時對成千萬上億個模板進行測序反應,測序反應的試劑通常只需要幾毫升甚至幾微升的量,從而極大的降低了測序費用。通常每一此測序反應的成本都在10萬到20萬之間。產生幾十G到幾百G的序列(5) 測序速度快,每一輪測序所需的時間通常在2周以內。(6) 準確率相對于sanger測序技術來說,比較低,而且不同測序技術有不同的錯誤特點。比如454 GS測序平臺通常有漏讀發(fā)生;Solexa測序平臺在第一個堿基的質量非常低,其堿基質量通常由5-3逐步降低,3端序列的錯誤率通常是5端錯誤率的幾倍,甚至上十倍;所有測序平臺對GC含量都有偏愛新,對過高GC含量和過低GC含
27、量的序列測序量明顯比中等GC含量低。第二代測序技術的基本分析流程數(shù)據分析的過程,就是操作整理數(shù)據的過程。對于大規(guī)模數(shù)據和需要高計算量的分析過程來說,所有的數(shù)據操作和整理過程都需要軟件來支持。第二代測序技術的序列分析也不例外。目前,針對第二代測序技術已經發(fā)展了各種各樣的分析工具,這些工具各有特點,適用于不同方面。從軟件的作用來說,可以分成兩類:一類是對序列進行排序操作的軟件,這類軟件的主要作用就是去冗余,把數(shù)據按照一定的規(guī)整和要求整合到一起,為后面的分析做準備,主要的實現(xiàn)方法是序列拼接和定位;還有一類是通過各種數(shù)理方法,在遵循生物學基礎上進行知識發(fā)現(xiàn)的軟件,包括基因組結構變異分析、snp分析、可
28、變剪切分析、等位基因表達差異分析等。從信息處理和知識獲取的角度來說,序列分析主要包括四個方面的內容:(1)序列數(shù)據的獲取、存儲和交換。任何信息處理的開始步驟都是數(shù)據,因此數(shù)據的獲取是進行數(shù)據處理和分析的基礎。第二代測序技術條件下的數(shù)據獲取過程,主要包括測序儀生產的原始數(shù)據(稱為測序),然后通過特定的軟件把原始數(shù)據蘊含的序列信息提取出來并對提取序列的質量進行評估稱為base calling。數(shù)據的存儲與交換是指數(shù)據應該以什么樣的格式存儲,從而方便提取,分布在不同物理位置的不同研究人員共享,為不同分析軟件提供一種方便轉換的數(shù)據格式。數(shù)據的交換和整合,從來都是生物信息學的一個重要研究方向,隨著高通量
29、技術和方法的不停發(fā)展,數(shù)據的交換和整合除了數(shù)據存儲和交換的格式以外,如何通過有效的方法來減小數(shù)據的容量以有效的存儲和傳輸數(shù)據也日益成為生物信息學的一個重要研究方向。(2)序列的去冗余。數(shù)據的去冗余是指:如何把序列規(guī)整為統(tǒng)一的,更具有信息的形式,對DNA序列來說,主要是序列的拼接(assembly)和定位(mapping),通過拼接可以把短的序列變成更一致的長的序列,而通過定位方法,可以把很多分散的短序列歸一到參考序列的對應位置上,從這點來看,序列的去冗余是DNA序列數(shù)據分析的基礎,通過這一步把所有序列數(shù)據統(tǒng)一起來,從而實現(xiàn)不同序列數(shù)據的比較和分析,是隨后進行更深入序列分析的基礎。(3)序列數(shù)據
30、的分析和知識提取,這也是描述第二代測序技術的應用的主要方面。這一步的主要目的就是根據實驗目的,在生物學知識的指導下,使用各種的數(shù)理統(tǒng)計方法對去冗余的數(shù)據進行分析,發(fā)現(xiàn)數(shù)據的生物學意義。對第二代測序技術來說,主要包括覆蓋的的統(tǒng)計、表達差異,基因組結構和SNP的分析等等。使用的主要數(shù)理方法將是基于泊松分布發(fā)展而來的各種分析工具和程序。(4)結果的展示。主要對得到的結果通過圖形圖像的方法展示出來為數(shù)據接收提供支持。圖2:第二代測序技術的的基本分析流程。主要包括序列的獲取、數(shù)據的去冗余、數(shù)據的分析和結果的解釋展現(xiàn)等四部份。每一部分都有相應的分析工具支持。下面對第二代測序技術的四個處理流程所涉及到的軟件
31、及其原理分別進行詳細的論述。數(shù)據的獲取、格式的轉換和壓縮。對測序來說,數(shù)據的獲取就是DNA測序儀序列產生DNA原始文件的過過程。目前第二代測序儀,除了life Technology公司的PGM基于電壓變化進行序列讀取不產生圖像文件以外,其他商業(yè)測序平臺都是通過拍攝測序過程中,DNA序列合成釋放的光信號圖像來獲得DNA序列的最原始圖像數(shù)據,產生的是圖像文件。對每一次完整的測序過程來說,其獲得的圖像數(shù)目非常多,每一幅圖像所占據的存儲空間也非常的大,最后導致總的圖像文件通常需要數(shù)千甚至數(shù)萬G的磁盤空間來存儲,如Hiseq2000運行一次產生的圖像數(shù)據高達32T(3,2000G),在數(shù)據交換和分析中直
32、接使用這些圖像數(shù)據是非常不切實際的。所以每一個測序平臺最后交付給用戶的序列格式都是通過轉換的、比原始圖像文件小很多的序列文件(上面32T的圖像文件,經過轉換為fastq格式后,只有800G)。通常來說,每一個測序平臺產生的原始圖像文件,都必須通過隨機附帶的圖像處理軟件處理生成代表序列及其質量的序列文件,因為這一步處理與測序儀的電氣理化性質極其相關,因此第三方通常不具備開發(fā)出同樣軟件的實力。雖然每種測序平臺都給出了代表其序列及其質量的序列文件,然而不同平臺卻產生格式完全不同的原始序列文件,即使是同一個測序平臺下,不同測序儀版本產生的原始序列文件也存在差異。為了便于數(shù)據的后續(xù)處理,各種數(shù)據使用者和
33、分析者通常希望能有一個序列數(shù)據格式,以方便來自不同測序平臺序列數(shù)據的綜合處理,同時也能減少各種序列處理軟件的開發(fā)難度。目前,最為廣大生物學研究者熟悉和接受的序列數(shù)據格式是已經被使用了近30年的由fasta格式衍生出來的Sanger fastq序列格式,是序列文件實際上的標準。目前基于這個數(shù)據格式,特別是其稱為phred Scores的堿基質量評價方式,已經發(fā)展出了很多算法和生物信息學分析工具。Solexa測序平臺給出的序列格式也稱為fastq格式,有三個不同版本,分別對應三Solexa不同版本的測序儀,分別稱為Solexa/Illumina 1.0 Fastq,Illimina 1.3+ Fa
34、stq和Illimina 1.5+ Fastq序列格式。其中,Solexa/Illumina 1.0 Fastq和Sanger Fastq在對堿基質量的評價所用的函數(shù)和對表述堿基質量所用的編碼字母不同,Illimina 1.3+ Fastq和Illimina 1.5+ Fastq只在對表述堿基質量所用的編碼不同,而在堿基質量的評價函數(shù)上相同,Illumina 1.3+ Fastq和Illimina 1.5+ Fastq也只在對表述堿基質量所用編碼的不同上,在Illimina 1.5+ Fastq格式里,對于那些質量低于Q15的堿基,其質量統(tǒng)統(tǒng)用Q3(字母B)表示,因此從字母“C”開始到字母“N
35、”結束的字母不存在Illimina 1.5+ Fastq格式里。此外,Solexa測序平臺還提供Qseq(與Fastq格式相似)、sline格式(把Fastq格式的信息包含在一行里)和SCARF格式的文件(把所有Fastq格式包含的信息,以及由Solexa pipeline所提供的所有信息)。來自羅氏454 GS-FLX測序儀產生的序列文件格式為SFF(Standard Flowgram Format),這是一種二進制格式的文件,每一個文件包括一個文件頭和多個數(shù)據塊。其中文件頭包括了序列的基本信息,如機器和圖像處理文件的版本、文件所包含的序列數(shù)等;數(shù)據塊則是每一條具體序列的信息,包括描述了數(shù)據
36、塊里序列的長度、序列的命名、序列和序列質量的起始位置以及相對偏移量等的數(shù)據塊頭和包含具體序列及序列質量的數(shù)據。此外還提供Fna-Qual格式的序列文件,這種格式把序列和與序列對應的堿基質量分別放在以Fna和Qual為后綴的文件里,數(shù)據處理時,如果用到質量文件,則從Qual文件中讀入。目前雖然有很多序列分析軟件可以直接從SFF格式文件開始數(shù)據分析,但更多的軟件還是需要把SFF格式轉換為Fna-Qual格式才能進行下一步的數(shù)據處理。Life Technology的SolidTM系列測序儀產生的數(shù)據格式為CSFASTA,其格式跟fasta格式一樣,但在對序列的編碼上使用顏色空間編碼(color-sp
37、ace):既一個前綴字符【A或者T或者C或者G】然后是0-4的四個數(shù)字,根據顏色空間中數(shù)字與堿基的對應編碼可以讀出相應的序列。如,經過編碼翻譯后為GTGCACCGTGCACG。去年年底的時候,Life Technology還推出了PGM【Personal Genome Machine】測序儀,第一個半導體的測序儀,通過DNA合成反應PH值的變化來直接判讀DNA的序列,其輸出格式為SFF和FastQ格式。圖3:fastq格式的定義說明。以一條fastq格式的序列包括4行。第一行以“”開頭,隨后為序列的名稱,隨后是空格,空格后是序列的其他相關信息;第二行為序列本身;第三行以“+”開頭,隨后或者是空
38、白或者為第一行除“”外的所有信息;第四行為對應序列的堿基測序質量值,一般用ASCII碼表示。圖4:Sanger fastq、Solexa fastq、Illumina 1.3+ fastq、Illumina 1.5+ fastq關系。左上為sanger fastq和solexa fastq的堿基質量轉換圖,右上分別為sanger fastq和solexa fastq的堿基質量評價函數(shù)和相互之間的轉換函數(shù)。左下為4個fastq格式所用的ASCII編碼及相互之間的對應關系。(來自wiki)除了某些特別的分析軟件,為了充分利用原始序列文件的信息輔助分析外,其他的分析軟件一般都需要把文件轉換為Fast
39、q格式或Fna-Qual格式。除了Illumina公司外,其他測序儀平臺所附帶的軟件都提供轉換到Fastq或Fna-Qual格式的功能。此外,目前的一些序列分析軟件,比如MAQ也提供這樣的功能。在perl、python、java、C#等程序設計語言的生物信息學程序庫中,都能找到各種序列格式轉換的程序包,在數(shù)據處理時,格式的轉換應該不是一個很大的問題。對于那些沒有腳本編寫或者因為種種原因不能使用這些腳本庫的生物學家,可以考慮使用Arang Rhile 等開發(fā)的Pyrus軟件(隨著測序技術的快速發(fā)展,測序的通量越來越高,數(shù)據的存儲和交換也逐漸成為生物學家必須考慮的問題。目前的主流測序平臺,產生的數(shù)
40、據都是以G計算,比如Hiseq2000,每一次完整的運行只需要8天,而產生的序列就達到200G,加上各種質量文件和其他信息,轉換成Fastq后的數(shù)據一般有800G,相當于每天產生100G的數(shù)據。而且Hiseq2000目前已經開始升級,升級后的測序通量預計將達500G,在2011年底將升級到1T(1000G)的測序通量,同樣的如果把這些序列都轉換成Fastq格式,將分別達2T和4T,而NCBI的NR數(shù)據庫也只有50G左右的DNA序列數(shù)據??梢韵胂?,像BGI這樣光Hiseq2000就有128臺的測序中心,每年產生的數(shù)據將是一個天文數(shù)字,光是存儲這些數(shù)據就是一項艱巨無比的任務。此外,這樣龐大的數(shù)據,
41、也是給第一代測序技術期間建立起來的數(shù)據分發(fā)和交換技術帶來了巨大的挑戰(zhàn),由于第一代測序技術說產生的數(shù)據量通常都以kb,多的時候也至多以Mb計算,因此,傳統(tǒng)的序列分發(fā)和交換大多是基于http和ftp服務進行的,在數(shù)據量小的時候,這種方法能有效、快速的完成相應的工作。但當需要分發(fā)很交換的數(shù)據通常以幾十甚至幾千G的時候,這種方法的局限性就暴露出來了。首先,數(shù)據傳輸?shù)乃俣扔邢?,特別是在國與國之間的數(shù)據傳輸速度上。通常來說,在網絡發(fā)達的國家,如韓國、日本、美國等國家,其國內網絡傳輸速度可以達到1030Mb/s,在這些國家間的傳輸速度也能在110Mb/s之間,在這一的速度下,在其國內傳輸800G的數(shù)據需要約
42、12個小時的時間,而在國際間傳輸數(shù)據則需要2天左右。而在網絡不大發(fā)達的國家如中國,其國內數(shù)據傳輸?shù)乃俣纫话阍?M一下,通常只有200300kb(特別是教育網、中國電信、中國聯(lián)通等不同網絡服務商的用戶之間的數(shù)據傳輸速度更是慢),國際的數(shù)據傳輸服務通常在100kb左右。這種情況下國內傳輸800G的數(shù)據需要1030天的時間,如果在國際間傳輸這800G數(shù)據則需要92天的時間。其次,長時間的網絡傳輸速度,對網絡的穩(wěn)健性提出了更高的要求,在數(shù)據傳輸?shù)臅r候,網絡不能中斷,網絡中斷,有網絡方面的原因,也有客戶端電腦的原因,通常來說,要保證網絡能幾天甚至幾十天正常工作,是一件十分困難的任務。這樣,以前不存在問題
43、的數(shù)據存儲和分發(fā)交換,現(xiàn)在也逐步成為生物學數(shù)據分析所必需考慮的問題。對于海量數(shù)據的有效存儲、分發(fā)和交換,唯一有效的方法是對海量數(shù)據進行壓縮。對數(shù)據壓縮技術的研究,從有計算機的時代就已經開始進行的,1948年有香濃開創(chuàng)的信息論為數(shù)據壓縮提供了理論基礎,并提出了用于數(shù)據壓縮的香濃碼。從第一有使用意義的數(shù)據壓縮算法霍夫曼編碼開始,到現(xiàn)在已經發(fā)展了幾十中數(shù)據壓縮算法,其中使用比較廣泛的有算術編碼算法、LZ系列算法等。對DNA序列的壓縮技術的研究,大致分為兩種方法,一個是基于傳統(tǒng)通用數(shù)據壓縮算法的數(shù)據壓縮技術,一個是基于參考序列的數(shù)據壓縮技術。最開始,因為DNA數(shù)據量比較小,采用經典通用的數(shù)據算法,通常
44、可以把序列數(shù)據壓縮到可以承受的范圍之內。比如gzip壓縮軟件,可以把FastQ格式的序列文件壓縮為原來的三分之一到五分之一。但隨著數(shù)據量的增大,這樣的壓縮效率顯然不能滿足生物信息學家對數(shù)據存儲和分發(fā)交換的要求。此外,在壓縮數(shù)據的同時,為了滿足數(shù)據分析的需要,也需要能有一個有效的方法從壓縮的序列文件里快速的提取出需要的序列,基于這樣的想法。Waibhav Tembe等人結合Fastq序列文件格式的特點,對基于霍夫曼編碼技術的數(shù)據壓縮算法進行了改進,提出了G-SQZ Fastq數(shù)據壓縮算法。這種數(shù)據壓縮算法比gzip、bzip等通用壓縮軟件能更有效的壓縮Fastq格式的數(shù)據,壓縮效率提高了幾個百分
45、點,壓縮程度稍有提高。但G-SQZ的特點還是在于其實現(xiàn)了基于序列名稱檢索特定序列的功能。然而,雖然G-SQZ在Fastq格式的數(shù)據壓縮率上,比gzip和bzip等數(shù)據壓縮軟件有了更好的,但從根本上來說,其壓縮效率的提升幅度與數(shù)據產生的速度相對還是非常的限制。從理論上說,如果把Fastq格式的DNA序列當作一般的文本文件,在此基礎上想對這些常規(guī)壓縮技術進行改進從而提升壓縮效率是非常困難的,因為,gzip等軟件的壓縮效率已經基本上逼近了信息理論所給出的信息熵。為了進一步提高對序列數(shù)據的壓縮效率,生物信息學家們有提出了基于參考序列的數(shù)據壓縮技術。Shannon 的信息論告訴我們,對信息的先驗知識越多
46、,我們就可以把信息壓縮得越小。換句話說,如果壓縮算法的設計目標不是任意的數(shù)據源,而是基本屬性已知的特種數(shù)據,壓縮的效果就會進一步提高。這提醒我們,如果能對DNA序列特有的屬性進行研究,然后把這些屬性應用到DNA序列的壓縮算法中,一定可以及顯著的提高序列壓縮的效率?;趨⒖夹蛄械臄?shù)據壓縮技術,就是充分利用特定物種的DNA序列在個體之間的差異很小的特點開發(fā)出來的數(shù)據壓縮算法。如果已經有了某一物種的參考序列,那么可以預計,對于這個物種的某一個體進行基因組測序所獲得的所有序列,除了小部分以外,在允許錯配和gap存在的條件下,都應該可以重新定位回參考序列之上,因此在存在數(shù)據時,我們只需要對序列的名稱、其
47、所在參考序列的位置以及與參考序列有差異的位點,對DNA序列的壓縮應該達到非常高的壓縮效率。基于這樣的設想,Scott Christley等人開發(fā)了一種針對個體基因組拼接序列的數(shù)據壓縮算法和軟件,把達到3G的James Watson的基因組序列壓縮到只有4Mb大小,這樣的大小的數(shù)據可以隨時通過電子郵件的附件發(fā)送。Marty C. Brandon等人則進一步發(fā)展了這種思想,開發(fā)了適用性更廣的軟件,對多種DNA序列片段序列的壓縮效率高達幾百倍。然而這些軟件對第二代測序技術序列的壓縮的支持依舊不夠。此后,Heng Li等人,根據序列定位的特點,以擴展的CIGAR(Compact Idiosyncrat
48、ic Gapped Alignment Report)為基礎,提出了SAM/BAM這一序列比對/定位數(shù)據格式,并開發(fā)出了相應的軟件samtools,其可以把Fastq格式的數(shù)據壓縮為原來的九分之一到十分之一左右。隨后,Markus Hsi-Yang Fritz和 Christos Kozanitts等人針對DNA測序序列分別開發(fā)出mzip和SlimGene序列壓縮軟件,對Fastq格式的序列數(shù)據的壓縮率達到10以上下,好的時候可以達到14。其中mzip通過序列拼接的方法把不能定位到參考序列的序列構建成contigs,再把這些序列定位到這些contigs上,從而增加數(shù)據的壓縮效果。雖然基于參考序
49、列的數(shù)據壓縮算法能有效的壓縮序列數(shù)據。然而遺憾的是,對于絕大多數(shù)沒有參考序列的物種來說,序列數(shù)據依舊得不到有效的壓縮。從序列數(shù)據的壓縮方法的發(fā)展來看,沒有參考序列物種的測序序列依舊可以有效的利用基于參考序列算法的數(shù)據壓縮技術,因為參考序列可以從待壓縮的序列數(shù)據通過拼接獲得,關鍵的問題是,如何根據數(shù)據壓縮的特點和要求,開發(fā)有效的拼接算法,對測序數(shù)據進行有效的拼接。通常來說,開發(fā)一個能完美的拼接整個基因組的拼接軟件和算法是異常困難的。然而值得慶幸的是,開發(fā)滿足于數(shù)據壓縮要求序列拼接軟件算法要比拼接出整個基因組的算法要簡單的多,對于前者來說,其不需要考慮由于重復序列造成的錯拼、漏拼等問題,同時對那些
50、與初步拼接好的contigs非常相似的序列也不需要保存在內存中,只需在拼接完畢以后自己通過mapping的方法就可以有效的定位到參考序列上。這些特點都能大大減低序列拼接的復雜性。 圖5:基于參考序列的序列壓縮算法的基本原理。通過把序列定位到參考序列,然后以參考序列為基礎只存在序列的名稱和定位位置以及匹配信息的方法到到數(shù)據壓縮的目的。序列數(shù)據的去冗余序列數(shù)據去冗余就是數(shù)據的過濾和歸并,其中數(shù)據的歸并主要是序列的拼接(assembly)和定位(mapping),也包括。不管是什么樣的測序平臺,都會因為各種系統(tǒng)的原因使測序產生各種錯誤,或產生的序列達不到一定的分析要求,數(shù)據過濾的主要作用就是,對這些
51、產生的數(shù)據進行質量控制分析,然后根據一定的要求或者修正序列的錯誤或者把含有錯誤和低質量的序列去除,以免影響給后續(xù)的數(shù)據分析帶來干擾。數(shù)據歸并是DNA序列分析的真正開始階段,從生物學的角度來說,拼接和定位有著完全不同的目標,拼接的主要目的就是通過相對較短的序列構建出完整的染色體DNA序列;而定位的任務是把相對較短的序列定位到已經構建好的DNA序列上,這個構建好的序列稱為參考序列(reference sequence),其主要目的是以參考序列為橋梁,把來自多個不同樣品的序列歸并到一起以便分析和比較。從計算機的角度來說,拼接就是一種有層次的數(shù)據結構,這種數(shù)據結構能夠把測序獲得的序列定位(mappin
52、g)到已經構建好的目標序列上。而定位,從計算機的角度來說,就是在一個長的字符串里找出子串,使字串與給定的字符串序列相當。所以說, assembly有兩個主要的工作任務,一個是構建出目標序列,另一個是把測序的序列定位到構建好的目標序列上,在實際的拼接算法中,這兩個任務不分彼此和先后,同屬于一個過程。從另一種意義上說,序列的拼接是序列的定位過程,是定位的一個特例。Mapping和assembly是第二代測序技術DNA分析的兩個基本手段和方法,是所有后續(xù)分析的基礎。序列的過濾任何序列數(shù)據處理都對待分析處理的數(shù)據有一定的要求,這些要求包括,獲取數(shù)據的方式,獲取的數(shù)據的質量以及分析所需的最低數(shù)據量。測序
53、序列的分析也同樣如此。在序列分析領域里,不同的實驗目的和實驗對象,對數(shù)據的量和質量有不同的要求。但在數(shù)據的質量要求上,各實驗目的和方法基本一致。序列質量控制主要包括兩個部分的內容:一是評估和去除序列中的污染序列、接頭序列等;二是評估序列的堿基質量,包括沿著堿基方向的堿基質量分布、堿基含量分布、Ns的百分比,序列的平均質量分布、堿基含量分布,堿基的錯誤等。序列過濾的主要目的就是在對序列的質量分析基礎上,從待分析序列數(shù)據中去除或修正那些污染的、低質量的序列,以提高序列分析的效率和準確率。通常來說,對于那些整條序列都是污染序列的序列來說,不用過多擔憂,因為在后續(xù)的拼接和定位分析中,這些序列要么不能成
54、功拼接到contigs上或定位到參考序列上,要么單獨拼接成一個contigs,這對整體的序列分析沒有多大的影響。但那些只有一部分含有污染序列而另一部分為正常序列的序列,會給分析帶來麻煩:在拼接中會造成錯拼,在序列定位中因為太長的污染部分造成序列不能定位到參考序列上。對于后一種情況,目前還沒有通用的方法進行這些污染部分的篩除,最有效的方法還是根據測序過程中用到的接頭序列等序列、以及相應物種的線粒體和葉綠體序列做參考,通過序列比對的方法進行過濾。然而遺憾的是,因為目前有第二代測序技術產生的數(shù)據大多很短,雖然sanger技術的污染序列去除程序不適用于第二代測序技術所產生的序列(主要是分析速度慢,不能
55、有效去除長度小于10bp的污染序列),但目前的污染序列的去除技術依舊依靠這些程序進行污染序列的去除,如blast等程序。理論上可以考慮,通過分析序列中短的k-mer序列的頻率來判斷并去除污染序列,遺憾的是,目前依舊沒有這樣的程序。在序列定位分析中,一個常用但也受爭議的方法是:對這些不能定位到參考序列的序列,反復在序列的兩側去除一定長度的序列后在重新定位。相對來說,對低質量序列的修正和過濾,似乎要容易的多。目前已經有了很多用于評價由第二代測序技術產生的序列的質量的方法和軟件。這些軟件可以分成兩類:一類以分析堿基的質量和含量分布為基礎;另一類通過k-mer或序列比對的方法來發(fā)現(xiàn)和糾正簽在的測序錯誤
56、。第一類軟件的典型代表有SolexaQA、FastQC、PIQA和TileQC等軟件,這些軟件通常都基于這樣的假設:如果待分析序列是符合要求的,那么低質量的序列的數(shù)目占總序列的比例將非常低,A、T、C、G這4個堿基的比例在序列的所有位置應該是一致的,低或高GC含量的序列的比例也非常的小。因此這些軟件通常通過分析質量和堿基比例以及k-mer沿序列的分布情況,序列質量和GC含量的分布情況來判斷。SolexaQA還能通過分析Fastq格式中的包含的Solexa測序信息給出Solexa測序過程中的一些信息,如那些tile是無效的,N在那一步測序中產生的等等。第二類軟件以Shrec、HiTEC、Quak
57、e和Coral等為代表,主要通過統(tǒng)計k-mer的分布頻率和多序列比對的方法來發(fā)現(xiàn)和修正測序錯誤?;趉-mer頻率的主要思想是,在測序覆蓋覆蓋度一定的情況下,因為錯誤產生的k-mer其出現(xiàn)次數(shù)大大小于沒有錯誤的k-mer,這樣在k-mer頻率的分布圖上就會形成兩個峰,一個是低頻率k-mer的,另一個是高沒有測序錯誤產生的,然后通過把低頻率位置下的k-mer與沒有錯誤的k-mer進行比對分析,就能修正測序產生的錯誤。這種分析和修正測序錯誤的方法在現(xiàn)代的各種序列拼接軟件中大量存在,比如拼接軟件Euler就是以這種方法在正式拼接以前對序列進行錯誤估計和修正的?;诙嘈蛄斜葘Ψ椒ǖ闹饕枷胍彩腔谝欢?/p>
58、測序覆蓋度的,通過多序列比對的方法,可以把那些相互重疊的區(qū)段比對到一起,然后分析每一個堿基位置各堿基出現(xiàn)的比率以及相應的堿基質量,然后通過多數(shù)原則來修正測序的錯誤。圖6:基于堿基質量分布和堿基含量分布的序列質量評估方法。左邊為低質量的測序數(shù)據的結果,右邊的高質量測序數(shù)據的檢測結果。從上到下,分別為堿基質量沿序列的分布、序列質量的頻率分布、堿基含量和GC含量沿序列的分布已經序列GC含量的頻率分布圖圖7:基于k-mer頻率判斷和修正序列測序錯誤(左)和基于序列比對的方法判斷和修正序列測序錯誤(右,其中黑色方框內的堿基為測序錯誤,因為覆蓋度低、堿基質量也低)通過上述的方法對序列進行評價以后,就可以在一定的參數(shù)條件下,過濾那些質量低的序列,如序列的平均質量小于Q20的、含有Ns的個數(shù)超過2的等等,截去序列中序列質量或錯誤率高的末端序列等等。通常來說,序列的質量評價和過濾,只能給出數(shù)據的質量情況,是正確評價測序序列覆蓋度所必需的,但只能作為評價數(shù)據的分析結果提供一種參考。良好的數(shù)據質量并不能從根本上解決后續(xù)數(shù)據分析遇到的各種問題,如基因組中的重復序列對序列拼接的影響等等。序列拼接算法及其軟件序列拼接是基因組測序的一項重要內容。測序序列來源于待測序基因組的隨機性和測序序列之間存在的重疊是序
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 影視城自建房裝修合同
- 二零二五年度智能洗車房租賃及品牌使用權轉讓合同
- 二零二五年度電子商務股份合作協(xié)議書模板
- Unit4 My Favourite Subject教學設計 -2024-2025學年人教版七年級英語上冊
- 獸醫(yī)微生物免疫技術模擬考試題(附參考答案)
- 計算機一級考試模擬題與答案
- 第十單元常見的酸、堿、鹽 整體教學設計-2024-2025學年人教版(2024)化學九年級下冊
- “十三五”重點項目-防火板式辦公家具項目節(jié)能評估報告(節(jié)能專)
- Unit 5 Fun clubs section A grammar focus教學設計 2024-2025學年人教版英語七年級上冊
- 棉花加工生產設備更新改造項目的可行性研究報告
- 鄭州鐵路職業(yè)技術學院單招職業(yè)技能測試參考試題庫(含答案)
- 岳陽職業(yè)技術學院單招職業(yè)技能測試參考試題庫(含答案)
- 部編人教版六年級道德與法治下冊第7課《多元文化 多樣魅力》教學設計
- 人教版五年級上冊小數(shù)除法豎式計算練習200題及答案
- 新時代勞動教育教程(高職)大學生勞動教育全套教學課件
- 北師大版小學六年級數(shù)學下冊同步教案 (表格式全冊)
- 網絡機房日常巡檢表
- 《國防動員實施》課件
- 上高雙胞胎弘安畜牧有限公司田心鎮(zhèn)現(xiàn)代化18萬出欄育肥場建設項目環(huán)評報告
- 《米酒的釀造過程》課件
- 2024手機攝影課ppt課件完整版
評論
0/150
提交評論